比肩千亿大模型，周明团队提出中文语言模型孟 - 语言研究杂志社投稿

一、稿件要求： 1、稿件内容应该是与某一计算机类具体产品紧密相关的新闻评论、购买体验、性能详析等文章。要求稿件论点中立，论述详实，能够对读者的购买起到指导作用。文章体裁不限，字数不限。 2、稿件建议采用纯文本格式(*.txt)。如果是文本文件，请注明插图位置。插图应清晰可辨，可保存为*.jpg、*.gif格式。如使用word等编辑的文本，建议不要将图片直接嵌在word文件中，而将插图另存，并注明插图位置。 3、如果用电子邮件投稿，最好压缩后发送。 4、请使用中文的标点符号。例如句号为。而不是.。 5、来稿请注明作者署名(真实姓名、笔名)、详细地址、邮编、联系电话、E-mail地址等，以便联系。 6、我们保留对稿件的增删权。 7、我们对有一稿多投、剽窃或抄袭行为者，将保留追究由此引起的法律、经济责任的权利。二、投稿方式： 1、请使用电子邮件方式投递稿件。 2、编译的稿件，请注明出处并附带原文。 3、请按稿件内容投递到相关编辑信箱三、稿件著作权： 1、投稿人保证其向我方所投之作品是其本人或与他人合作创作之成果，或对所投作品拥有合法的著作权，无第三人对其作品提出可成立之权利主张。 2、投稿人保证向我方所投之稿件，尚未在任何媒体上发表。 3、投稿人保证其作品不含有违反宪法、法律及损害社会公共利益之内容。 4、投稿人向我方所投之作品不得同时向第三方投送，即不允许一稿多投。若投稿人有违反该款约定的行为，则我方有权不向投稿人支付报酬。但我方在收到投稿人所投作品10日内未作出采用通知的除外。 5、投稿人授予我方享有作品专有使用权的方式包括但不限于：通过网络向公众传播、复制、摘编、表演、播放、展览、发行、摄制电影、电视、录像制品、录制录音制品、制作数字化制品、改编、翻译、注释、编辑，以及出版、许可其他媒体、网站及单位转载、摘编、播放、录制、翻译、注释、编辑、改编、摄制。 6、投稿人委托我方声明，未经我方许可，任何网站、媒体、组织不得转载、摘编其作品。

比肩千亿大模型，周明团队提出中文语言模型孟

作者:

关键词:

摘要：

机器心脏发布

机器心脏编辑部

周铭团队提出了孟子预训练模型，刷新了CLUE列表。

近日，兰州科技创新工场团队与上海交通大学、北京理工大学等单位联合开发了中文模型——孟子轻量模型，在中文理解上超越腾讯、搜狗等公司评估CLUE排名第一，打破行业纪录。

作为中文理解领域最权威的评测基准之一，CLUE涵盖了文本相似度、分类、自然语言推理、阅读理解等10个语义分析和理解子任务。近日，腾讯、搜狗、华为、阿里达摩等团队以大模型刷新榜单。

据了解，兰州科技是创新工场孵化的认知智能公司。公司创始人周明博士为创新工场首席科学家。他是世界顶级人工智能科学家，自然语言处理领域的代表。特点。以下是CLUE综合排名、分类排名和阅读理解帮助的最新结果：

孟子预训练模型是基于兰州团队自主研发技术的大规模预训练语言模型。可处理多语言、多模态数据，同时支持多个文本理解和文本生成任务，可快速满足不同领域、不同应用场景的需求。 Mencius 模型基于 Transformer 架构，仅包含 10 亿个参数，基于数百个 G 级高质量语料训练，覆盖互联网网页、社区、新闻、电子商务、金融等领域。

“小模型，大智慧”。基于轻量化高效训练的研究路线，我们致力于构建十亿级小模型，充分发挥模型在现有参数下的潜力，有利于快速低成本实现真实业务场景。孟子预训练模型的性能堪比甚至超过千亿大模型，在包括文本分类和阅读理解在内的各种任务上都有很好的表现。与现有的中文语言模型相比，孟子模型取得了多项突破：坚持“小而精”的轻量级训练策略。在同等车型规模下，性能远超公款车型。作为一款精致的小模型，对标“巨无霸”，小模型性能超过1000亿比例模型。使用知识图谱来增强模型，让 AI 真正获得知识。孟子模型拥有顶级的语言理解能力。在权威的CLUE中文理解评测综合排名、分类排名和阅读理解排名中均位列第一，刷新了三项排名的世界纪录。总排行榜得分超过84分，接近人类基准得分（85.61）。灵活的现场和场景适应性，方便快捷的定制和应用。基于T5-style的端到端生成训练范式，同步适配BERT-style的基于决策的架构，可理解生成。易于适应行业应用，业务场景覆盖广泛。

轻量模型研究

在轻量模型算法研究方面，基于自主研发的基于语言知识、知识图谱和领域数据增强技术，从模型架构（包括基本层嵌入表示和交互层注意力机制）到预训练策略的各个方面都得到了改进。具体来说，在模型结构方面，将语义角色、词性标注等语言特征融入到Embedding表示中，在基于句法约束的注意力机制中引入注意力机制，从而增强模型对语言的建模能力。知识。在训练策略上，引入基于实体知识和Discourse的Mask机制，加强模型对语言成分和文本关系的表示。为了进一步提高训练效率，采用了提取大模型和初始化小模型的策略。为了让孟子模型更好地适应金融、营销等垂直领域，利用领域数据继续训练，构建相应的提示模板（Prompt），取得了显着的性能提升。

图2：孟子轻量级模型算法策略。

基于上述算法策略，我们可以实现对涵盖词级、句子级和文本级知识的语料库的高效学习，大大提高语言模型提取语言结构和语义信息的能力，如以及良好的域名转移能力，适应广泛的产品应用场景。

Finetune 的进展

如何将预训练模型用于各种任务也是一个重要的挑战。兰州团队专注于数据增强、知识提炼、迁移训练、训练优化等方面，进行了一些探索，进一步提升语言模型的性能：数据增强：使用领域相关数据；知识提炼：基于师生自我提炼，提高培训效率；迁移训练：结合课程学习的思路，从易到难训练下游模型；训练优化：利用多个训练目标，多角度提升模型能力；

垂直领域适配

基于领域适配技术，孟子模型深度垂直化，赋能相应行业。一个典型的例子是适用于金融领域的孟子模型。领域适配策略主要包括两个方面：利用大规模泛金融语料库将通用孟子模型迁移到金融领域。金融版孟子模型已应用于多个金融行业的合作企业，并在构建金融知识图谱、脱水研究报告、提取公告等多项任务中取得了优异的成绩。通过大规模营销语料，将孟子模式转移到数字营销领域，完成营销文案生成、新闻摘要等多项任务。将用于行业领先的数字营销公司和多家世界500强企业的合作。之中。

文章来源：《语言研究》网址: http://www.yyyjzzs.cn/zonghexinwen/2021/0714/1037.html