时至今日,人们对于在语言模型和推荐系统的训练成本或多或少已经有所耳闻。而这两类工作负载,也成为AI在商业世界中落地的关键支点。参考机器学习系统开发商Cerebras Systems和云计算合作伙伴Cirrascale提供的GPT模型训练系统租赁服务,我们现在已经拿到了部分实际定价,能够核算不同规模下GPT模型的具体训练成本。
(资料图片仅供参考)
这也是我们在AI训练市场上看到的首批此类公开数据。目前参与这部分业务的厂商只有Cerebras、SambaNova Systems、Graphcore以及英特尔的Habana Labs。其中英特尔的Habana Labs似乎有点坚持不住了,已经表示将在接下来的三年时间内(至2025年),通过削减产品线和人员规模节约80到100亿美元的运营成本。
Cerebras和Cirrascale公布了与Jasper的合作伙伴关系,其中恰好提到他们将在四台CS-2超级计算机上执行特定GPT AI训练,并公布了费用信息。作为一家AI应用提供商,Jasper正帮助来自各行各业、不同规模的企业部署大语言模型,借此驱动自身业务。与其他厂商一样,Jasper之前一直在英伟达GPU上训练其AI模型,如今希望能找到一种成本更低、速度更快的模型训练方法,借此优化自身业务收益。
Jasper公司联合创始人兼CEO Dave Rogenmoser表示,公司目前已经拥有近10万家付费客户,他们使用Jasper系统进行博文撰写、营销内容设计、技术手册生成等各类任务。虽然现有大语言模型还无法直接生成完美内容,但只要输入提示正确,其结果的可用率还是能达到70%左右。最重要的是,其效率极高、速度极快,显著加快了客户的内容创建进程。(很多朋友可能没意识到,大部分人其实并不擅长写作,写得也并不快。)
Jasper公司总部位于奥斯汀,公司成立于2021年1月,并在短短5个月后就筹集到了600万美元种子轮融资。不久前,Jasper刚刚完成由Insight Partners领投的1.25亿美元A轮融资,目前公司估值已达15亿美元。除了Jasper这类以大语言模型为基础的服务型初创企业以外,不少老牌软件提供商也在研究要如何使用大语言模型增强自家业务。
Cerebras公司联合创始人兼CEO Andrew Feldman解释道,“我们认为大语言模型其实是被低估了,当下我们才刚刚感受到它所承载的深远影响。”作为Wafer-Scale晶圆级制程先驱,Cerebras同时也成为AI训练硬件领域的新贵。“在硬件层、基础设施/基础模型层和应用程序层这三大生态系统区域内,每个区域都有老赢家和新选手。从明年起,我们将看到大语言模型在各个经济区间全面兴起、发挥作用。”
Cerebras公司一直在宣传其“Andromeda”AI超级计算机。这是一套包含16个CS-2晶圆级系统的组合,总核心量超过1350万个,可在16位密集矩阵浮点运算中提供120 petaflops算力,稀疏矩阵算力还能进一步提升8倍。但该系统的成本接近3000万美元,即使是对Jasper这样的硅谷独角兽来说,价格也绝对不能算便宜。因此,Cerebras和Cirrascale各自推出了硬件租赁模式,现在开始合作将方案推向市场。
但对于各类工作负载,在特定的规模和资源利用率之下,直接购买CS-2集群确实可能比租赁更经济。Jasper就属于这种情况,具体理由咱们马上揭晓。
Jasper的业务拥有两大驱动因素,正是这两项因素使其放弃了分布式GPU AI训练的模型/数据并行耦合方案(需要跨越成千上万个GPU运行跨数据任务),义无反顾地投入Cerebras的怀抱。
Rogenmoser解释道,“首先,企业业务需要个性化模型,而且这种需求非常迫切。他们希望模型接受自己的语言训练,希望能接受知识库和产品目录方面的渗透,希望模型能引入品牌形象和元素,真正成为品牌业务的延伸。他们希望模型能够像销售团队那样说话,并立即跟上新产品的发布节奏。这样,当人们跟业务体系接触时,获得的就永远是最新、而且高度统一的感受。他们还希望语言模型能变得越来越好,根据过往数据和性能进行自我优化。如果他们写了一条Facebook广告语并大获好评,他们就希望模型能够把握其中的精髓、之后自动生成更多合心合意的宣传词。”
而Cerebras公司产品副总裁Andy Hock还对Jasper的需求做出了更复杂的总结。
“在Jasper之外,我们从市场上观察到了一种广泛存在的倾向,即很多企业都希望能为特定业务应用快速研究并开发出大语言模型。但传统云基础设施并不能显著降低这项工作的门槛。所以人们不禁要问:到底是该从零开始训练,还是对开源公共检查点进行调优?最佳方法究竟是什么?要如何有效利用算力降低商品成本、向客户提供最佳服务?在使用传统基础设施的情况下,这些问题的解决成本往往极为高昂、甚至不切实际。”
正因为如此,Cerebras和CIrrascale才决定共同打造Cerebras AI Model Studio租赁模式,其基于CS-2集群并运行在两家公司的基础设施之上。虽然并未公布具体部署了多少CS-2设备,但Cerebras架构确实拥有极强的规模扩展能力。到目前为止,192个CS-2节点已经能够在单一系统镜像中模拟多达1.63亿个核心。
在云服务上利用GPU资源训练大语言模型主要有几个难点:争夺可用的GPU资源,将模型和数据拆分到成千上万个GPU并稳定运行,还要承担由此带来的不确定性成本。
而CerebrastCIrrascale打造的AI Model Studio的核心卖点就是良好的可预测性。其不仅号称AI模型的训练速度能够达到亚马逊云科技上GPU实例的8倍,且成本仅相当于二分之一。
Currascale联合创始人兼CEO PJ GO表示,“我们的客户中有不少研究实验室和金融机构,他们都希望训练自己的模型,并利用自有数据提高模型的准确性。更重要的是,他们希望有个可以预测的报价。他们才不想给云服务商写一张金额未填的支票,这样的模型训练风险太高了。”
下面,我们就看看在AI Model Studio提供的四节点CS-2集群服务上,从零开始训练GPT-3到底要花多少钱:
这里的“Chinchilla Point”是指以令牌衡量的数据级别,可用于有效训练模型并收敛至正确答案。如果向模型灌输过多数据会导致收益递减,但如果数据过少则容易出现过度拟合,总之必须适中。
很明显,模型的大小跟参数/令牌数量成正比。一般来说,可以认为模型体积越大,在同一配置上训练所消耗的时间就越长。同样的,对AI模型进行持续训练以优化产出,其实质就是在加载并处理更多数据素材。
当然,光看Cerebras和Cirrascale公布的表格并不足以说明问题,我们还得对单参数/单令牌成本和日常运营开支做出核算。下图所示,是我们计算出的语言模型领域三巨头(GPT NeoX、GPT 70B和GPT 175B)所对应的性格和性能。全部模型均使用16个CS-2节点(而非前面提到的四CS-2节点Andromeda级集群)进行训练。
这里要解释一下Jump Factor是个什么东西。我们想了解的是随着GPT模型规模的庞大,其训练时长和价格会如何变化。另外,我们还想知道要如何扩大集群规模来加快训练速度。这里的Jump Factor代表的就是一种GPT模型到下一GPT模型的增量。这里我们跳过了T-5 11B模型,因为其体量基本相当于GPT-3 6.7B模型。(请注意,表中显示的谷歌T5 transformer模型并非GPT-3模型,而只是另一种大语言模型。)所以这里其实是由GPT-3 6.7B跳转至GPT-3 13B,与T-5 11B无关。
在四节点CS_2集群上,即使是最低GPT-3参数规模也有点“超重”,后续参数的增加更会令训练时间大大超出预期。从13亿个参数增加到60亿个参数,数据总量增加了4.6倍,但训练时间却延长达20倍。由67亿参数增加到130亿参数相当于扩展了1.9倍,但训练时间增加了3.5倍。而使用GPT NeoX时情况则不同,参数增加1.5倍时,其训练时间仅增加1.2倍。所以模型体量的变化与训练时长并非精确的线性关系。
相比之下,CS-2设备的扩展则基本保持线性。四节点集群性能几乎是双节点的2倍,八节点又几乎是四节点的2倍,十六节点几乎是八节点的2倍。但价格没能维持这样的线性递增,Feldman表示至少在NUMA架构中,价格的增加速度其实是比资源规模更快的。Feldman这样描述十六CS-2节点与四节点间的性能与价格区别——“4倍性能,5倍价格”。
我们不知道能不能靠算法省掉一到两个节点的硬件,借此将CS-2集群的使用成本再降低20%,但应该是有戏。但话说回来,既然我们可以用更大的系统在更短时间内完成训练,又何必在较小的系统上浪费时间呢?除非预算实在卡得太死,否则用钱换时间其实挺划算的。
这就是我们对于大语言模型训练成本的猜测。很明显,在四节点集群上,每组参数的处理成本会随着模型扩大而有所增加。按照Cerebras和Cirrascale公布的定价,GPT-3XL模型每100万个参数的训练成本仅为1.92美元,但GPT 70B模型的同等参数则为35.71美元。换言之,随着参数数量增加53.8倍,每100万个参数的训练成本上涨了18.6倍。
我们猜测,在四节点CS-2集群上运行一个5000亿参数的GPT模型大概需要一年时间;而在十六节点集群上,一年时间足够训练出包含2万亿参数的模型。或者根据我们的估计,这样的资源足以从零开始完成13轮GPT 175B模型的训练——相当于每月一次,还能多一次备用。没错,只要花3000万美元买下自己的Andromeda CS-2超级计算机,你就可以随时享受这13轮计算配额。而且如果我们对AI Model Studio的计费推测正确,那以租赁方式把GPT 175B模型训练上13遍大概要花掉1.42亿美元。
所以肯定会有人愿意选择租赁;等事实证明模型表现不错,但还需要进一步扩大参数规模时,他们才会认真考虑购买这个选项。