投稿指南
一、稿件要求: 1、稿件内容应该是与某一计算机类具体产品紧密相关的新闻评论、购买体验、性能详析等文章。要求稿件论点中立,论述详实,能够对读者的购买起到指导作用。文章体裁不限,字数不限。 2、稿件建议采用纯文本格式(*.txt)。如果是文本文件,请注明插图位置。插图应清晰可辨,可保存为*.jpg、*.gif格式。如使用word等编辑的文本,建议不要将图片直接嵌在word文件中,而将插图另存,并注明插图位置。 3、如果用电子邮件投稿,最好压缩后发送。 4、请使用中文的标点符号。例如句号为。而不是.。 5、来稿请注明作者署名(真实姓名、笔名)、详细地址、邮编、联系电话、E-mail地址等,以便联系。 6、我们保留对稿件的增删权。 7、我们对有一稿多投、剽窃或抄袭行为者,将保留追究由此引起的法律、经济责任的权利。 二、投稿方式: 1、 请使用电子邮件方式投递稿件。 2、 编译的稿件,请注明出处并附带原文。 3、 请按稿件内容投递到相关编辑信箱 三、稿件著作权: 1、 投稿人保证其向我方所投之作品是其本人或与他人合作创作之成果,或对所投作品拥有合法的著作权,无第三人对其作品提出可成立之权利主张。 2、 投稿人保证向我方所投之稿件,尚未在任何媒体上发表。 3、 投稿人保证其作品不含有违反宪法、法律及损害社会公共利益之内容。 4、 投稿人向我方所投之作品不得同时向第三方投送,即不允许一稿多投。若投稿人有违反该款约定的行为,则我方有权不向投稿人支付报酬。但我方在收到投稿人所投作品10日内未作出采用通知的除外。 5、 投稿人授予我方享有作品专有使用权的方式包括但不限于:通过网络向公众传播、复制、摘编、表演、播放、展览、发行、摄制电影、电视、录像制品、录制录音制品、制作数字化制品、改编、翻译、注释、编辑,以及出版、许可其他媒体、网站及单位转载、摘编、播放、录制、翻译、注释、编辑、改编、摄制。 6、 投稿人委托我方声明,未经我方许可,任何网站、媒体、组织不得转载、摘编其作品。

懂「印度方言」的多语言机翻模型挑战0资源翻译

来源:语言研究 【在线投稿】 栏目:综合新闻 时间:2021-06-24
作者:网站采编
关键词:
摘要:作者:林泽辉 编辑:好困 【导读】多年来,研究人员一直在努力构建一个通用模型,希望可以从任意一个语言翻译到另一个任意的语言。近期,一篇由ACL2021接收的论文或许可以带我们

作者:林泽辉 编辑:好困

【导读】多年来,研究人员一直在努力构建一个通用模型,希望可以从任意一个语言翻译到另一个任意的语言。近期,一篇由ACL2021接收的论文或许可以带我们一窥巴别塔之后的世界。

据统计,目前世界上存在的语言超过6900种。

《圣经·旧约·创世记》中记载着「巴别塔」的传说:人类联合起来兴建能通往天堂的高塔。

机器翻译的终极使命就是构建人工智能时代的「巴别塔」。

近期,在ACL2021上,字节跳动AI实验室发表了一篇关于多语言机器翻译的论文:Learning Language Specific Sub-network for Multilingual Machine Translation,简称LaSS[1]。

论文:https://arxiv.org/abs/2105.09259

代码:https://github.com/NLP-Playground/LaSS

为了解决多语言机器翻译中最大的挑战之一,即不同语言之间的冲突,论文提出为每个语言对分配专属的子网络从而尽可能减少不同语言对之间的冲突,最终提升模型的表现。

有意思的是,LaSS同时还表现出极强的通用性,能够在保证不影响原来语言对的效果的前提下,在几分钟之内扩展到新的语对并取得相当好的表现。

同时,在最为极端的零样本(zero-shot)的场景下,简单应用LaSS能够大幅提升模型的表现,在30个测试的语言对中获得了平均8.3 BLEU最高26.5 BLEU的提升

多语言机器翻译面临的挑战

随着全球化进程不断加快,不同地区之间的交流越发频繁,人们对于利用机器翻译来增进交流的需求越来越强烈。

然而,传统双语机器翻译存在以下几个挑战:

  1. 传统双语机器翻译只能够将一个语言翻译到另一个语言,对于n个语言之间的互译则需要n×(n-1)个模型,这带来了更大的资源消耗;


  2. 一个好的机器翻译模型往往需要大量的平行语料作为支撑,而在现实世界中只有常用语向(如英中、英法等)存在大量平行数据,对于小语种(如英-哈萨克),往往只有少量的甚至没有平行语料。

因此多语言机器翻译应运而生,致力于打造一个能够从任意语言翻译到任意语言的大一统模型。

相比双语机器翻译,多语言机器翻译有如下优势:

  1. 由于使用一个统一模型,相比传统的双语机器翻译,大大减少了部署的成本消耗;

  2. 研究者发现,多语言机器翻译能够显著提升小语种的翻译表现。

然而,多语言机器翻译也面临着重大挑战,其中最大的挑战是语言之间的冲突(language interference)。

由于不同的语言对共享同一个模型,模型的容量不得不被切分,而这往往会导致不同语言对互相争抢更多的模型容量,造成语言对之间的冲突。

直观上看,每个语言都有语言通用(language-universal)和语言专属(language-specific)的特征。

本文提出的LaSS,以神经网络的最小单位即权重(weight)为单位,对于每个语言对LaSS都为它分配一个子网络,该子网络的参数是模型参数的子集。

不同语言对之间共享部分参数的同时,也保留属于自己的参数。通过这种方法,多语言机器翻译就能够实现在一个模型内同时建模语言通用和语言专属的特征。

相比过去的工作而言,LaSS不引入额外的参数

模型方法

总体架构

左边的图(a)表示传统多语言机器翻译模型,灰色代表共享权重,这意味着,图上三个语言对(En-Zh,En-Fr和En-De)都完全共享同一套参数。



上一篇:哈佛大学研究:“看电视”和“不看电视”的孩
下一篇:人类能学会鲸鱼的语言吗?人类能够理解鲸目动物

语言研究投稿 | 语言研究编辑部| 语言研究版面费 | 语言研究论文发表 | 语言研究最新目录
Copyright © 2018 《语言研究》杂志社 版权所有
投稿电话: 投稿邮箱: