微软全球执行副总裁沈向洋博士：理解自然语言：表述，对话，意境（附ppt和专访） | cncc 2017 | 雷峰网-米乐m6平台

沈向洋

2017/10/28 16:28

雷锋网 ai科技评论按，由中国计算机学会（ccf）主办，福州市人民政府、福州大学承办，福建师范大学、福建工程学院协办的2017中国计算机大会（cncc2017）于今日（10.26）在福州·海峡国际会展中心正式开幕。今年大会的主题是“人工智能改变世界（ai changes the world）”，在上午的特邀报告环节，美国国家工程院院士、微软全球执行副总裁、acm/ieee fellow沈向洋博士带来了主题为《理解自然语言：表述，对话，意境》的分享。雷锋网作为独家战略合作媒体，在现场进行独家跟踪报导。

以下为他的分享内容：

非常高兴今天来到美丽的福州，感谢大家的邀请。我今天的主题是《理解自然语言：表述，对话，意境》，今天主要给大家讲的是人工智能中我个人觉得最重要的研究方向。

得益于大计算，大数据和精准模型，人工智能在近年来快速发展，特别是在深度学习方面。

另外还有感知和认知，感知中的视觉和语音进展飞速，而认知和语言、理解的发展速度有限。

我们感知研究的飞速发展，有两个方面，一是计算机视觉图像识别，二是计算机语音识别合成。

我们先来讲语音识别，微软目前在标准测试上的精度已经达到人类水平，最新的误差率到5.1%。大家都知道，就算是人类的误差率，也分普通人的误差还是专家的误差。我们今天做的这个效果非常好，误差率比专家的水平都要低。

下面是我们研究的152层残差神经网络，我们在训练神经网络的时候遇到了很多困难，比如到底要多少层才能做到最优的结果。

深度学习在图象识别中的总体趋势是更深更准。下面有一个简单的介绍，可以看到，这几年随着模型的深度越来越深，误差也越来越低。

前面都是我的铺垫，接下来进入正题。我认为，在下一个十年里，人工智能的突破在自然语言的理解，我最近老讲的一句话就是“懂语言者懂天下”。

我们自己理解自然语言的三层层次是机器学习、机器智能、机器意识。第一层是怎么去表述，我们用机器学习就可以学到很多东西。第二层就到了机器智能领域，对话以及提问，这一步就比较困难了。第三点就是到了机器意识，意境，比如说为什么有的人讲的东西你觉得比较有深度，就是从这个角度来讲。实际上这三个层次的东西是可以转换的。我们小的时候写作文，第一步是记叙，第二步是论证，第三步就是当你文章开始写得有点水平了，我们就开始写诗歌，写散文。

我今天有机会从这三个方面和大家探讨。第一步就是已经做的相当不错的机器语言，我用两个微软的工作来介绍，第一个就是微软认知服务，第二个就是微软应用软件。

第一步我简单介绍一下什么是api，这里有一张图片，这张照片上面有关于这个人的表述，这个人的动作、表情等。

大家有兴趣也可以到微软的网页上看到更多介绍，我们还有很多其他视觉的服务。

我想跟大家解释一下这里面研究的问题是什么，其实就是图像的描述，以及它想解决什么样的问题。首先你要有一个语义空间，要把图像与文字联结起来。通过深度结构语义模型把图像和文字均表征成语义空间内的向量，在此空间中进行语义相似度计算。

就算我们有很好的想法，如果不去做系统，那么大家就看不到你的问题在哪里。我们有一个项目，里面会有很多用户提供问题，其中很好的一点就是用户会帮助你提供建议，以及发现系统的问题。比如在系统中的有些场景下，我们觉得不好，但是用户觉得好，或者我们觉得还行，但是用户觉得也不行，另外也有我们和用户都觉得不行的部分。

在做大数据的时候，大家要明白，一定要去分析数据。其好处就是不断迭代，接下来会越来越好。微软的图像描述服务系统已经根据收集到的用户数据进行了多次迭代。

图像描述目前在现实生活中也有应用，比如微软每天服务数百万微软办公软件用户，并应用seeing ai软件服务盲人。我觉得从描述这件事情上，就可以有很多应用。

接下来我想讲的就是机器智能。第一就是对话即智能，从回答问题到提出问题，从一问一答到连续对话，之前是机器阅读理解，之后是问答对话生成。

在阅读文本及提问时，首先要深度理解语言，不仅要回答问题，还要能提出问题，阅读并找出关键点，围绕关键点生成问题。比如讲读了一段文字以后，对它的理解怎么体现出来，或者我读了这篇文章我可以自己提问，另外还可以回答。

我再简单解释一下，这里有一个记忆机制，并且需要端到端对话生成模型。要在回复生成的过程中提炼主要的观点，然后综合对话情感，用户画像以及记忆，一个对话往往会发生多次话题的转换，时间越长的对话，越有机会被自然地引导入期望的话题。

第三点就是我上面提到的，理解和表达意境。从机器描述到机器对话，到底智能体现在哪里？讲图片的时候，你可以理解和表达意境，可以有意识的脑补。图片评论就是从客观描述到主观评论，但再到天马行空的意境，就是只可意会，不可言传的境界。

到现在，人工智能的研究是通过人做一些东西，再加上环境，有这个的一个表征。通过你的输入，机器把这些输入进来的信息做成机器语言，再进行深度学习。今天绝大多数人工智能的科研都是停留在这一步，真正有意义的、对人类有贡献的，就是要对机器的结果进行反向推理。我们来看一下image caption的进步，它的表述和评论都充满了人情味。

微软最近上线的一个比较激动人心的消息就是小冰写诗，下面就是讲生成诗歌的过程。生成单句诗：前向rnn模型反向rnn模型；生成整句诗：基于递归神经网络的层级生成模型。

下面是小冰写诗的两个例子，这是由照片到诗歌的创作过程：

我再讲讲微软对话式人工智能产品的布局，第一个就是智能搜索，第二个是智能助理，第三个是智能客服，第四个是智能聊天。

我觉得每一次时代的变迁，都是在重新定义人类和世界的关系。

现在人类到世界之间，ai最了不起的就是对我们人脑的理解，可以从iq和eq两个方面说起。任何一个时代你都要思考什么改变了我们的生活。

最后讲一下，小冰目前已经登陆中日美印尼五个国家，具体如下图所示。

最后我要强调一句：“懂语言者得天下”。“不要人夸颜色好，只留清气满乾坤”。我的演讲到此结束，谢谢大家。

演讲结束之后，沈向洋博士与媒体进行了简短的交流，以下为媒体提问。

问：沈老师您好，微软上个月先是和facebook一起推出onnx，然后又联手亚马逊，推出了一个深度学习库gluon。与这些企业联手，对于微软有什么重大的意义？

沈向洋：我觉得道理很简单，就像前面提到的，传统以为计算机大会都像微软或者是真正做计算机软硬件的企业为主，其实我们今天看了一下，有很多自然学科、基础学科的公司也都参与其中了。融合是一个大趋势。这个事情的发展刚才梅院士也提到了，这个世界到今天只有开放，开放合作才是王道，因为今天整个这样的发展，要向前走。

最近针对深度学习，微软做了三件事情：

1、我们和facebook（现在已经有很多其他的公司也加入了）的合作，包括intel等等，我们做了一个中间层的东西，其实就是一个格式（onnx），大家都转化成这样一个格式以后，你把深度学习的模型编译到任何的系统上，运算的能力效率都会非常高，我们已经做了，还再继续向前推。

2、开始深度学习的时候，你要去搭建深度学习的模型，用的界面是什么？包括tensorflow、mxnet、microsoft cntk等等，大家做了很多东西，其实这样反而令程序员不知道到底要什么，很多人觉得谷歌的tensorflow做得好，事实上，其他的系统也有很多的优势。

所以，我们几家大的公司就站在一起，大家觉得还是应该合作，做一个公用的界面系统。所以我们最近也做了gluon，大家粘在一起。

3、还是要有一个大家熟悉的编程环境，所以我们最近做了microsoft studio，希望有一个非常熟悉的编程环境，大家进来之后就是一些模型，可以copy，一直编程到底层去。

我们会继续和其他的公司以非常开放合作的心态。

问：您刚才提到google的tensorflow，tensorflow现在覆盖率很广，微软会和google在这方面展开合作吗？

沈向洋：会展开合作，我们一直都在合作，比如说onnx，我们非常希望tensorflow也把它做成中间层，我们都很open，如果我们做这样一个开放的系统的话，对任何的公司都是开放的。

问：沈老师，您在演讲中提到微软小冰，微软小冰在微软人工智能生态的地位是怎么样的？

沈向洋：我刚才已经讲了，对话是人工智能产品线的话有四条线，我们现在都在做：智能搜索、智能助理、智能客服、智能聊天机器人。所以，对于小冰来讲，实际上很多人觉得小冰好像不是很有用，只是随便聊聊天，我个人的看法是完全相反的，它真正智能的地方是连续对话的能力在所有其他产品的能力之上。

问：传统上，我们会以为计算机大会是以微软或者是真正做计算机软硬件的企业为主，但现场有很多自然学科、基础学科的公司也都参与其中，现在越来越多的领域都会在一起，这种融合现象是未来的趋势吗？

沈向洋：这是必须的，我1980年上大学的时候，很多大学还没有计算机系，中国的计算机系差不多是在1979-1981年这个阶段才成立的。以前提到计算机是在哪里呢？通常要么是在数学系弄理论，要不然就是在自动化系做应用，或者是电子系，后来才真正成立了计算机系，美国最早成立计算机系也就是60年代中后期。

融合是毫无疑问的，但是接下来我觉得更加激动人心的地方是人工智能在向后的发展。现在这几年的发展，我觉得更多的是人工智能在各个学科的融合，特别是脑科学、心理学、哲学，在这些方面我觉得会有更多的发展。脑科学是我自己最看重的一个领域，我觉得在基础科研方面大家的投入还远远不够，认识还远远不够深刻，当然对于这个的研究我不是很深入。脑科学现在作为一项科学，还不那么科学，科学就是你要做实验，要有大量的数据，要重复实验。而脑科学则很难，今天还没有到这个阶段。我相信以后10年、20年，脑科学家、ai是最基本的。

包括我今天讲的自然语言的理解，我们对自然语言理解的不是很清楚，脑在处理这些东西的时候能够给我们一些建议。

问：这次大会的主题是人工智能改变一切，您觉得现在已经开始改变了吗？而且您觉得下一个爆发点可能在哪个领域？

沈向洋：我刚才在演讲里面讲到了，实际上这个世界人工智能是有两个方向的：

一是感知，二是认知。

最近感知方面的发展非常神速，主要是在计算机识别、计算机语音方面的。人之所以有智能，首先是我们能够感知这个世界。大家可能不太清楚，比如说人的信息处理，进到脑子里面信息量的处理91%是视觉的信息，然后是听觉的信息，其他的触觉相对比较小。

认知现在的发展还相对比较慢，首先第一步是自然语言的发展，包括很多推理，这些东西对世界和人、社会的理解都还有很远的路要走。

最近的爆发点就是感知方面的意义，比如说像计算机视觉，最近“刷脸”在技术上越来越可行了，还有语音的合成，也有很多发展机会。我们做的一个激动人心的项目就是机器翻译，实际上未来会有非常巨大的市场。大家可能不见得知道，全世界有6000种语言，一个人不可能都学会，学两种语言已经很了不起了，讲三种语言讲得很好的人，这个世界上几乎没有。

问：目前来说，做哪些事情可以吸引更多的海外人才回归？

沈向洋：我觉得海外人才回归是大趋势，很多人现在都回来了，不光是刚刚念完书的人，也有工作了很多年的人回来，包括我的很多同事都看到国内有非常多的机会，例如bat。除了bat，其他一些新的ai创业公司也有很多这样的海归人才。我觉得这非常正常，今天已经没有地区性人才这个概念了，人才都是全局性的人才，你有能力去哪里都一样。举个例子，restnet的研究员贺凯明从微软去了美国facebook，他最近得了奖，我们都觉得非常自豪，我们培养出了这样的人才，这样之后中国就损失了一个人才吗？我觉得也不必要这样看，可能我们从facebook、微软和其他地方拉回中国的人会更多。

政府方面的话，这一年，政府和高校、研究机构从“”开始，做了很多事情，我的教授朋友基本上跟国内的合作都做得非常好，例如今天演讲的丘成桐院士的数学研究中心，也是一批非常优秀的中心。

雷锋网 ai科技评论编辑整理。

专题

cncc 2017 查看更多文章