NLP≠NLU，机器学习无法理解人类语言 - 语言研究杂志社投稿_期刊论文发表|版面费|电话|编辑部- 语言研究

一、稿件要求： 1、稿件内容应该是与某一计算机类具体产品紧密相关的新闻评论、购买体验、性能详析等文章。要求稿件论点中立，论述详实，能够对读者的购买起到指导作用。文章体裁不限，字数不限。 2、稿件建议采用纯文本格式(*.txt)。如果是文本文件，请注明插图位置。插图应清晰可辨，可保存为*.jpg、*.gif格式。如使用word等编辑的文本，建议不要将图片直接嵌在word文件中，而将插图另存，并注明插图位置。 3、如果用电子邮件投稿，最好压缩后发送。 4、请使用中文的标点符号。例如句号为。而不是.。 5、来稿请注明作者署名(真实姓名、笔名)、详细地址、邮编、联系电话、E-mail地址等，以便联系。 6、我们保留对稿件的增删权。 7、我们对有一稿多投、剽窃或抄袭行为者，将保留追究由此引起的法律、经济责任的权利。二、投稿方式： 1、请使用电子邮件方式投递稿件。 2、编译的稿件，请注明出处并附带原文。 3、请按稿件内容投递到相关编辑信箱三、稿件著作权： 1、投稿人保证其向我方所投之作品是其本人或与他人合作创作之成果，或对所投作品拥有合法的著作权，无第三人对其作品提出可成立之权利主张。 2、投稿人保证向我方所投之稿件，尚未在任何媒体上发表。 3、投稿人保证其作品不含有违反宪法、法律及损害社会公共利益之内容。 4、投稿人向我方所投之作品不得同时向第三方投送，即不允许一稿多投。若投稿人有违反该款约定的行为，则我方有权不向投稿人支付报酬。但我方在收到投稿人所投作品10日内未作出采用通知的除外。 5、投稿人授予我方享有作品专有使用权的方式包括但不限于：通过网络向公众传播、复制、摘编、表演、播放、展览、发行、摄制电影、电视、录像制品、录制录音制品、制作数字化制品、改编、翻译、注释、编辑，以及出版、许可其他媒体、网站及单位转载、摘编、播放、录制、翻译、注释、编辑、改编、摄制。 6、投稿人委托我方声明，未经我方许可，任何网站、媒体、组织不得转载、摘编其作品。

NLP≠NLU，机器学习无法理解人类语言

作者:

关键词:

摘要：

编译 | 吴彤

校对 | 青暮

编辑 | 琰琰

长期以来，我们一直在与机器沟通：编写代码--创建程序--执行任务。

然而，这些程序并非是用人类“自然语言“编写的，像Java、Python、C和C ++语言，始终考虑的是"机器能够轻松理解和处理吗？"

“自然语言处理”(Natural Language Processing，NLP)的目的与此相反，它不是以人类顺应机器的方式学习与它们沟通，而是使机器具备智力，学习人类的交流方式。其意义更为重大，因为技术的目的本来就是让我们生活得更轻松。

人工智能与子领域

自然语言处理，实际上是人工智能和语言学的交叉领域，但多年来，仅在语音转录、语音命令执行、语音关键词提取的工作上兢兢业业，规规矩矩，应用到人机交互，就显得十分吃力。

因为在语料预处理阶段，NLP通常直接给出“断句”，比如 "订一张明天从北京到杭州的机票，国航头等舱"，经过NLP模型处理后，机器给出的输出如下：

尽管准确率高，但在这背后，我们并不知道机器理解了什么。由于足够好用，人们也就不多问了。

而在更加复杂的任务中，比如机器翻译，基于深度学习的编码、解码架构会将原句子转换成我们根本不熟悉的样子，也就是在无穷维空间中的点。

一旦机器翻译出错，我们打开这个空间的时候，才发现这些点和周围其他点（其他句子）构成的形态，犹如荒芜宇宙里零落的星星那样缥缈和神秘。

研究人员试图向神经网络添加参数以提高它们在语言任务上的表现，然而，语言理解的根本问题是“理解词语和句子下隐藏的含义“。

近日，伦斯勒理工学院的两位科学家撰写了一本名为《人工智能时代语言学》的书，探讨了目前的人工智能学习方法在自然语言理解(Natural Language Understanding，NLU)中的瓶颈，并尝试探索更先进的智能体的途径。

AI必须从“处理”自然语言到“理解”自然语言

机器“记录”了数据并不意味着“理解”了数据。近几十年来，机器学习算法一直尝试完成从NLP 到 NLU 的转型。过去，机器学习曾长期承载着转型使命的荣光。

机器学习模型是一种知识精益系统，它试图通过统计词语映射来回答上下文关系。在这些模型中，上下文是由词语序列之间的统计关系形成的，而非词语背后的含义。自然，数据集越大、示例越多样化，机器对上下文关系的理解越精确。

但作者认为，机器学习终将失宠，因为它们需要太多的算力和数据来自动设计特征、创建词汇结构和本体，以及开发将所有这些部分结合在一起的软件系统。而且，机器人也不知道自己在做什么，以及为什么这样做。它们解决问题的方法不像人类--不依赖与世界、语言或自身的互动。因此，它们无法理解两个人长时间对话时，对同一件事情的描述越来越简短的情景，也就是文本缺失现象。

巨大人工成本使机器学习陷入瓶颈，并迫使人们寻求其他方法来处理自然语言，并导致了自然语言处理中经验主义范式（认为语言理解起源于感觉）的出现。

具有“感觉”的人工智能，或许会在自然语言处理上有三个突破：

通过语言交流激活感觉模型，并以此承载记忆，从而可以应对人类之间交流时的文本缺失现象，实现“默契”（正确）的解码；
理解语言的上下文相关含义，并从单词和句子的歧义中找到合适的理解，以及从感觉世界中寻找更强的约束和限制；
向它们的人类合作者解释它们的想法、行动和决策；

与人类一样，机器也需要在世界互动时保持终身学习。而机器学习由于将可压缩性和可学习性对等起来，并且限于表面的符号统计关系理解，以及不可解释性等原因，不可避免丢失背景信息，而做不到上述层次的理解。

文章来源：《语言研究》网址: http://www.yyyjzzs.cn/zonghexinwen/2021/0823/1120.html