E2E视觉语言预训练模型SOHO；微软分层ViT模型霸榜 - 语言研究杂志社投稿

一、稿件要求： 1、稿件内容应该是与某一计算机类具体产品紧密相关的新闻评论、购买体验、性能详析等文章。要求稿件论点中立，论述详实，能够对读者的购买起到指导作用。文章体裁不限，字数不限。 2、稿件建议采用纯文本格式(*.txt)。如果是文本文件，请注明插图位置。插图应清晰可辨，可保存为*.jpg、*.gif格式。如使用word等编辑的文本，建议不要将图片直接嵌在word文件中，而将插图另存，并注明插图位置。 3、如果用电子邮件投稿，最好压缩后发送。 4、请使用中文的标点符号。例如句号为。而不是.。 5、来稿请注明作者署名(真实姓名、笔名)、详细地址、邮编、联系电话、E-mail地址等，以便联系。 6、我们保留对稿件的增删权。 7、我们对有一稿多投、剽窃或抄袭行为者，将保留追究由此引起的法律、经济责任的权利。二、投稿方式： 1、请使用电子邮件方式投递稿件。 2、编译的稿件，请注明出处并附带原文。 3、请按稿件内容投递到相关编辑信箱三、稿件著作权： 1、投稿人保证其向我方所投之作品是其本人或与他人合作创作之成果，或对所投作品拥有合法的著作权，无第三人对其作品提出可成立之权利主张。 2、投稿人保证向我方所投之稿件，尚未在任何媒体上发表。 3、投稿人保证其作品不含有违反宪法、法律及损害社会公共利益之内容。 4、投稿人向我方所投之作品不得同时向第三方投送，即不允许一稿多投。若投稿人有违反该款约定的行为，则我方有权不向投稿人支付报酬。但我方在收到投稿人所投作品10日内未作出采用通知的除外。 5、投稿人授予我方享有作品专有使用权的方式包括但不限于：通过网络向公众传播、复制、摘编、表演、播放、展览、发行、摄制电影、电视、录像制品、录制录音制品、制作数字化制品、改编、翻译、注释、编辑，以及出版、许可其他媒体、网站及单位转载、摘编、播放、录制、翻译、注释、编辑、改编、摄制。 6、投稿人委托我方声明，未经我方许可，任何网站、媒体、组织不得转载、摘编其作品。

E2E视觉语言预训练模型SOHO；微软分层ViT模型霸榜

作者:

关键词:

摘要：

机器之心 & ArXiv Weekly Radiostation

参与：杜伟、楚航、罗若天

本周的重要论文包括?UC 伯克利等机构的研究者使用一种名为 PlenOctrees 的数据结构；微软亚研的研究者提出的通过移动窗口（shifted windows）计算的分层视觉 Transformer；北京大学、中山大学、微软亚研等机构的研究者提出的 Seeing Out of tHe bOx（SOHO）的概念，实现中文翻译即「开箱即看」等。

BART based semantic correction for Mandarin automatic speech recognition system

PlenOctrees for Real-time Rendering of Neural Radiance Fields

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

MobileStyleGAN: A Lightweight Convolutional Neural Network for High-Fidelity Image Synthesis

Convolutional Neural Opacity Radiance Fields

Seeing Out of tHe bOx: End-to-End Pre-training for Vision-Language Representation Learning

Self-supervised Video Representation Learning by Context and Motion Decoupling

ArXiv Weekly Radiostation：NLP、CV、ML 更多精选论文（附音频）

论文 1：BART based semantic correction for Mandarin automatic speech recognition system

作者：Yun Zhao、Xuerui Yang、Jinchao Wang 等

论文链接： ASR 转写结果中，仍然存在一些对人类来说非常明显的错误。我们并不需要听音频，仅通过观察转写的文本便可发现。对这类错误的纠正往往需要借助一些常识和语法知识，甚至推理的能力。得益于最近无监督预训练语言模型技术的发展，基于纯文本特征的纠错模型可以有效地解决这类问题。本文提出的语义纠错系统分编码器和解码器两个模块，编码器着重于理解 ASR 系统输出文本的语义，解码器的设计重在使用规范的词汇重新表达。

集成语义纠错模型的 ASR 系统。

推荐：拼写、常识、语法、推理错误都能纠正，云从提出基于 BART 的语义纠错方法。

论文 2：PlenOctrees for Real-time Rendering of Neural Radiance Fields

作者：Alex Yu、Ruilong Li、Matthew Tancik 等

论文链接： 3D 视角物体和场景新视图是很多 VR 和 AR 应用的基础。近年来神经辐射场（Neural Radiance Fields, NeRF）的神经网络渲染研究通过神经网络编码实现了真实的 3D 视角场景渲染。但是 NeRF 需要极端的采样要求和大量的神经网络运算，导致其渲染速度十分缓慢，严重制约了其在实际场景，尤其是实时交互场景中的应用。例如，使用 NeRF 在高端 GPU 上渲染一张 800X800 像素的图片大概需要 30 秒。

近日，来自 UC 伯克利等机构的研究者使用一种名为 PlenOctrees 的数据结构为 NeRF 引入了一种新的数据表示，实现了实时的 NeRF 渲染。其渲染速度比原始的 NeRF 提高了 3000 多倍，并且图像质量可以与 NeRF 媲美。采用 PlenOctrees 结构还能有效减少 NeRF 的训练时间。

算法框架图。

推荐：实时高保真渲染，基于 PlenOctrees 的 NeRF 渲染速度提升 3000 倍。

论文 3：Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

作者：Ze Liu、Yutong Lin、Yue Cao 等

论文链接： 2017 年 6 月谷歌提出 Transformer 以来，它便逐渐成为了自然语言处理领域的主流模型。最近一段时间，Transformer 更是开启了自己的跨界之旅，开始在计算机视觉领域大展身手，涌现出了多个基于 Transformer 的新模型，如谷歌用于图像分类的 ViT 以及复旦、牛津、腾讯等机构的 SETR 等。由此，「Transformer 是万能的吗？」也一度成为机器学习社区的热门话题。

不久前，微软亚研的研究者提出了一种通过移动窗口（shifted windows）计算的分层视觉 Transformer，他们称之为 Swin Transformer。相比之前的 ViT 模型，Swin Transformer 做出了以下两点改进：其一，引入 CNN 中常用的层次化构建方式构建分层 Transformer；其二，引入局部性（locality）思想，对无重合的窗口区域内进行自注意力计算。

Swin Transformer 架构图（左），移动窗口示意图（右）。

推荐：霸榜多个 CV 任务，开源仅两天，微软分层 ViT 模型收获 2k star。

论文 4：MobileStyleGAN: A Lightweight Convolutional Neural Network for High-Fidelity Image Synthesis

作者：Sergei Belousov

论文链接： GAN 可以生成不同层次的细节，大到头部形状、小到眼睛颜色，它在高保真图像合成方面实现了 SOTA，但其生成过程的计算复杂度却非常高，难以应用于智能手机等移动设备。

近日，一项专注于基于样式的生成模型的性能优化的研究引发了大家的关注。该研究分析了 StyleGAN2 中最困难的计算部分，并对生成器网络提出了更改，使得在边缘设备中部署基于样式的生成网络成为可能。该研究提出了一种名为 MobileStyleGAN 的新架构。相比于 StyleGAN2，该架构的参数量减少了约 71%，计算复杂度降低约 90%，并且生成质量几乎没有下降。

文章来源：《语言研究》网址: http://www.yyyjzzs.cn/zonghexinwen/2021/0419/857.html