投稿指南
一、稿件要求: 1、稿件内容应该是与某一计算机类具体产品紧密相关的新闻评论、购买体验、性能详析等文章。要求稿件论点中立,论述详实,能够对读者的购买起到指导作用。文章体裁不限,字数不限。 2、稿件建议采用纯文本格式(*.txt)。如果是文本文件,请注明插图位置。插图应清晰可辨,可保存为*.jpg、*.gif格式。如使用word等编辑的文本,建议不要将图片直接嵌在word文件中,而将插图另存,并注明插图位置。 3、如果用电子邮件投稿,最好压缩后发送。 4、请使用中文的标点符号。例如句号为。而不是.。 5、来稿请注明作者署名(真实姓名、笔名)、详细地址、邮编、联系电话、E-mail地址等,以便联系。 6、我们保留对稿件的增删权。 7、我们对有一稿多投、剽窃或抄袭行为者,将保留追究由此引起的法律、经济责任的权利。 二、投稿方式: 1、 请使用电子邮件方式投递稿件。 2、 编译的稿件,请注明出处并附带原文。 3、 请按稿件内容投递到相关编辑信箱 三、稿件著作权: 1、 投稿人保证其向我方所投之作品是其本人或与他人合作创作之成果,或对所投作品拥有合法的著作权,无第三人对其作品提出可成立之权利主张。 2、 投稿人保证向我方所投之稿件,尚未在任何媒体上发表。 3、 投稿人保证其作品不含有违反宪法、法律及损害社会公共利益之内容。 4、 投稿人向我方所投之作品不得同时向第三方投送,即不允许一稿多投。若投稿人有违反该款约定的行为,则我方有权不向投稿人支付报酬。但我方在收到投稿人所投作品10日内未作出采用通知的除外。 5、 投稿人授予我方享有作品专有使用权的方式包括但不限于:通过网络向公众传播、复制、摘编、表演、播放、展览、发行、摄制电影、电视、录像制品、录制录音制品、制作数字化制品、改编、翻译、注释、编辑,以及出版、许可其他媒体、网站及单位转载、摘编、播放、录制、翻译、注释、编辑、改编、摄制。 6、 投稿人委托我方声明,未经我方许可,任何网站、媒体、组织不得转载、摘编其作品。

NLP≠NLU,机器学习无法理解人类语言

来源:语言研究 【在线投稿】 栏目:综合新闻 时间:2021-08-23
作者:网站采编
关键词:
摘要:编译 | 吴彤 校对 | 青暮 编辑 | 琰琰 长期以来,我们一直在与机器沟通: 编写代码--创建程序--执行任务 。 然而,这些程序并非是用人类“自然语言“编写的,像Java、Python、C和C ++语言

编译 | 吴彤

校对 | 青暮

编辑 | 琰琰

长期以来,我们一直在与机器沟通:编写代码--创建程序--执行任务

然而,这些程序并非是用人类“自然语言“编写的,像Java、Python、C和C ++语言,始终考虑的是"机器能够轻松理解和处理吗?"

“自然语言处理”(Natural Language Processing,NLP)的目的与此相反,它不是以人类顺应机器的方式学习与它们沟通,而是使机器具备智力,学习人类的交流方式。其意义更为重大,因为技术的目的本来就是让我们生活得更轻松。

人工智能与子领域

自然语言处理,实际上是人工智能和语言学的交叉领域,但多年来,仅在语音转录、语音命令执行、语音关键词提取的工作上兢兢业业,规规矩矩,应用到人机交互,就显得十分吃力。

因为在语料预处理阶段,NLP通常直接给出“断句”,比如 "订一张明天从北京到杭州的机票,国航头等舱",经过NLP模型处理后,机器给出的输出如下:

尽管准确率高,但在这背后,我们并不知道机器理解了什么。由于足够好用,人们也就不多问了。

而在更加复杂的任务中,比如机器翻译,基于深度学习的编码、解码架构会将原句子转换成我们根本不熟悉的样子,也就是在无穷维空间中的点。

一旦机器翻译出错,我们打开这个空间的时候,才发现这些点和周围其他点(其他句子)构成的形态,犹如荒芜宇宙里零落的星星那样缥缈和神秘。

研究人员试图向神经网络添加参数以提高它们在语言任务上的表现,然而,语言理解的根本问题是“理解词语和句子下隐藏的含义“。

近日,伦斯勒理工学院的两位科学家撰写了一本名为《人工智能时代语言学》的书,探讨了目前的人工智能学习方法在自然语言理解(Natural Language Understanding,NLU)中的瓶颈,并尝试探索更先进的智能体的途径。

AI必须从“处理”自然语言到“理解”自然语言

机器“记录”了数据并不意味着“理解”了数据。近几十年来,机器学习算法一直尝试完成从NLP 到 NLU 的转型。过去,机器学习曾长期承载着转型使命的荣光。

机器学习模型是一种知识精益系统,它试图通过统计词语映射来回答上下文关系。在这些模型中,上下文是由词语序列之间的统计关系形成的,而非词语背后的含义。自然,数据集越大、示例越多样化,机器对上下文关系的理解越精确。

但作者认为,机器学习终将失宠,因为它们需要太多的算力和数据来自动设计特征、创建词汇结构和本体,以及开发将所有这些部分结合在一起的软件系统。而且,机器人也不知道自己在做什么,以及为什么这样做。它们解决问题的方法不像人类--不依赖与世界、语言或自身的互动。因此,它们无法理解两个人长时间对话时,对同一件事情的描述越来越简短的情景,也就是文本缺失现象。

巨大人工成本使机器学习陷入瓶颈,并迫使人们寻求其他方法来处理自然语言, 并导致了自然语言处理中经验主义范式(认为语言理解起源于感觉)的出现。

具有“感觉”的人工智能,或许会在自然语言处理上有三个突破:

  • 通过语言交流激活感觉模型,并以此承载记忆,从而可以应对人类之间交流时的文本缺失现象,实现“默契”(正确)的解码;

  • 理解语言的上下文相关含义,并从单词和句子的歧义中找到合适的理解,以及从感觉世界中寻找更强的约束和限制;

  • 向它们的人类合作者解释它们的想法、行动和决策;

与人类一样,机器也需要在世界互动时保持终身学习。而机器学习由于将可压缩性和可学习性对等起来,并且限于表面的符号统计关系理解,以及不可解释性等原因,不可避免丢失背景信息,而做不到上述层次的理解。

文章来源:《语言研究》 网址: http://www.yyyjzzs.cn/zonghexinwen/2021/0823/1120.html



上一篇:世界各地语言有哪些匪夷所思的同源词
下一篇:这本书最让编辑头疼的是“语言的真空”| 一家一

语言研究投稿 | 语言研究编辑部| 语言研究版面费 | 语言研究论文发表 | 语言研究最新目录
Copyright © 2018 《语言研究》杂志社 版权所有
投稿电话: 投稿邮箱: