开放代码又如何？成本昂贵、资源集中，大规模 - 语言研究杂志社投稿

一、稿件要求： 1、稿件内容应该是与某一计算机类具体产品紧密相关的新闻评论、购买体验、性能详析等文章。要求稿件论点中立，论述详实，能够对读者的购买起到指导作用。文章体裁不限，字数不限。 2、稿件建议采用纯文本格式(*.txt)。如果是文本文件，请注明插图位置。插图应清晰可辨，可保存为*.jpg、*.gif格式。如使用word等编辑的文本，建议不要将图片直接嵌在word文件中，而将插图另存，并注明插图位置。 3、如果用电子邮件投稿，最好压缩后发送。 4、请使用中文的标点符号。例如句号为。而不是.。 5、来稿请注明作者署名(真实姓名、笔名)、详细地址、邮编、联系电话、E-mail地址等，以便联系。 6、我们保留对稿件的增删权。 7、我们对有一稿多投、剽窃或抄袭行为者，将保留追究由此引起的法律、经济责任的权利。二、投稿方式： 1、请使用电子邮件方式投递稿件。 2、编译的稿件，请注明出处并附带原文。 3、请按稿件内容投递到相关编辑信箱三、稿件著作权： 1、投稿人保证其向我方所投之作品是其本人或与他人合作创作之成果，或对所投作品拥有合法的著作权，无第三人对其作品提出可成立之权利主张。 2、投稿人保证向我方所投之稿件，尚未在任何媒体上发表。 3、投稿人保证其作品不含有违反宪法、法律及损害社会公共利益之内容。 4、投稿人向我方所投之作品不得同时向第三方投送，即不允许一稿多投。若投稿人有违反该款约定的行为，则我方有权不向投稿人支付报酬。但我方在收到投稿人所投作品10日内未作出采用通知的除外。 5、投稿人授予我方享有作品专有使用权的方式包括但不限于：通过网络向公众传播、复制、摘编、表演、播放、展览、发行、摄制电影、电视、录像制品、录制录音制品、制作数字化制品、改编、翻译、注释、编辑，以及出版、许可其他媒体、网站及单位转载、摘编、播放、录制、翻译、注释、编辑、改编、摄制。 6、投稿人委托我方声明，未经我方许可，任何网站、媒体、组织不得转载、摘编其作品。

开放代码又如何？成本昂贵、资源集中，大规模

作者:

关键词:

摘要：

而这反过来又会进一步地将AI集中在大型科技公司手中。更多的人工智能研究实验室将不得不与大型科技公司合作，以获得研究资金。这将赋予大型科技公司更大的权力来决定AI未来的研究方向（与他们的经济利益相一致的方向）。那些没有短期投资回报的研究领域，可能就会成为这其中的代价。

雷峰网

Meta在其博客文章中还表示，大型语言模型大多可以通过「付费API」来访问，对LLM的访问进行约束「限制了研究人员去理解这些大型语言模型如何工作以及为什么能工作，阻碍进一步提高模型的鲁棒性和减少模型的偏见和有害性等已知问题」。

在商业方面，大型科技公司将拥有更大的优势。运行大型语言模型是非常昂贵和具有挑战性的。像谷歌和微软这样的公司都有专门的服务器和处理器，所以他们能大规模运行这些模型并盈利。对于较小的公司来说，搞出一个自家版本的LLM（如GPT-3）的开销太大了。正如大多数企业都使用云托管服务而不是建立自己的服务器和数据中心一样，随着大型语言模型变得越来越流行，像GPT-3 API这样的开箱即用系统将会更具有吸引力。

近年来，研究人员已经证明，通过在transformer架构中添加更多的层和参数，可以提高语言任务的表现。一些研究人员认为，达到更高的智力水平只是一个规模问题。因此，资金充裕的研究实验室，如Meta AI、DeepMind （Alphabet旗下)和OpenAI（微软赞助)，都在致力于创建越来越大的神经网络，比如DeepMind最新推出了多模态AI系统Gato。

Meta AI在博客上表示：

去年，微软和英伟达创建了一个价值5300亿参数的语言模型，名为Megatron-Turing (MT-NLG)。上个月，谷歌引入了语言模型 Pathways Language Model (PaLM)，这是一个包含了5400亿参数的大规模语言模型。更有传言称，OpenAI将在未来几个月发布GPT-4。

除了模型，Meta还发布了一个完整的日志，提供了大型语言模型开发和训练过程的详细技术时间表。通常来说，经发表论文只包含关于最终版本模型的信息。Meta表示，该日志提供了一些有价值的信息，包括「用于训练OPT-175B的计算量，以及当底层基础设施或训练过程本身在规模上变得不稳定时所需的人力开销」。

而Meta认为，通过将模型提供给更广泛的受众，会有利于研究和预防它们可能造成的任何伤害。

根据Meta的博客文章，研究人员已经成功地大大降低了训练大型语言模型的成本。他们表示，该模型的碳足迹已减少到GPT-3的七分之一。之前也有专家估计，GPT-3的培训成本高达2760万美元。

然而，更大的神经网络也需要更多的财政和技术资源。虽然更大的语言模型会有更多新花哨（和新的失败），但它们也会不可避免地把权力集中在少数富有的公司手中，这导致较小的研究实验室和独立的研究人员在大型语言模型的研究上更加艰难。

Meta这种朝着透明化方向的发展是值得称赞的。然而，在大型语言模型的激烈竞争下，民主化已经变得难以实现。

然而，需要注意的是，大型语言模型的「透明和开放」并不等同于「民主化」。训练、配置和运行大型语言模型的成本仍然很高，而且未来可能还会继续增加。

Meta发布的OPT-175B有一些关键特征。它包括了预训练的模型以及需要训练和使用LLM的代码。训练神经网络比运行神经网络要消耗更多的计算资源，所以，对于没有计算资源来训练模型的组织来说，预训练模型特别有用。通过减少训练大型神经网络所需的计算资源，它还会有助于避免造成巨大的碳足迹。

Meta AI的日志进一步证实，训练大型语言模型是一项非常复杂的任务。OPT-175B的开发时间表上，充斥了诸如服务器崩溃、硬件故障和其他需要高级技术人员来解决的并发症。研究人员还不得不多次重启训练过程，调整超参数，改变损失函数。所有这些产生的额外费用，都是小型实验室所无法承担的。

这是对OpenAI的一种抨击，OpenAI发布GPT-3只是提供了一种黑箱API服务，而不是将其模型的权重和源代码公开。OpenAI宣称没有公开GPT-3的原因之一，是为了控制有害应用程序的滥用和开发。

这说明，OPT-175B的培训成本仍然高达数百万美元。幸运的是，预训练的模型将避免训练模型的需要，并且Meta表示，将提供「只用16块NVIDIA V100 gpu」来进行训练和部署完整模型的代码库。这相当于一台Nvidia DGX-2，成本约为40万美元，对于资金紧张的研究实验室或单个的研究人员来说，这仍不是一笔小数目。根据一篇提供了更多关于OPT-175B细节的论文显示，Meta使用了992块 80GB A100 gpu训练了自己的模型，比V100明显更快。

文章来源：《语言研究》网址: http://www.yyyjzzs.cn/zonghexinwen/2022/0519/1430.html