汤晓鸥：深度学习有哪三个要素，以及在中国创业是怎样一种感受？ | 雷峰网-米乐m6平台

创业

2017/05/20 22:14

雷锋网按：5月20日，由中国计算机学会（ccf）主办，xtecher协办的2017 ccf青年精英大会在北京国家会议中心举行。中国工程院院士赵沁平、香港中文大学教授汤晓鸥、百度创始七剑客之一雷鸣等围绕“科研·产业·融合”这个主题做了一些分享。其中，汤晓鸥教授做了题为《人工智能的明天，中国去哪？》主题演讲。

在汤晓鸥教授看来，不管中国人工智能接下来如何发展，不管年轻人如何创业或者做研究，我们要做的只有三件事：坚持、创新、以及落地。

在谈到“在中国创业是怎样一种感受”时，汤教授称，“创业的困难是一定存在的，年轻人要不要创业？尽管路上的坑比较多，但还是可以试一试。”显然，汤教授对年轻人创业持鼓励态度，至于用谁的资金创业，汤教授表示，不要用父母的钱，要用投资人的钱。因为，“劫富济贫，人人有责。”

汤晓鸥：香港中文大学信息工程系主任。博士毕业于麻省理工学院，曾任微软亚洲研究院视觉计算组负责人，2009年当选ieee fellow，iccv09程序委员会主席，icc19大会主席。2009年获计算机视觉顶级会议cvpr最佳论文奖。2014年其团队研发的人脸识别算法全球首次超过人眼识别能力。

雷锋网对演讲全文做了不改变原意的整理：

今天我演讲的题目是《人工智能的明天，中国去哪儿？》，我选了一个比较大的题目，希望能压住场。原来我想的题目比这个还大——《人工智能的明天，地球去哪儿？》，后来发现“一带一路”会议刚刚开完，“地球去哪儿”的问题已经解决了，我还是回到我的小题目——“中国去哪儿”。

不管中国人工智能接下来如何发展，不管年轻人如何创业或者做研究，我们要做的事情也就这三件：

第一，要坚持，要花时间把基础打好；
第二，要做创新。要做新的东西，不要老是跟在别人后面走；
第三，要把飘在上面的东西落地，要产业化。

今天，我从我们实验室的研究成果和公司做的产品，来讲讲我对这三个方面的理解。

什么是深度学习？

首先，什么是人工智能？这个概念现在已经非常难定义了，大家几乎把所有的事情都往人工智能上靠。从我的理解来讲，人工智能真正落地的部分就是深度学习。因为以前的人工智能确实是在很多情况下用不起来，人手设计的智能来做某一件事情还是比较难超越人。而有了深度学习之后，我们可以把这个过程变成一个数据驱动的过程：当做某一件特定事情时，数据量及参数量大到一定程度之后，机器就可能在做这件事情上超过人类。很多现实中落地的产品化的东西，都是深度学习做出来的。深度学习做的东西，成功的案例比较多，一方面是在语音识别领域，另外可能更多的是视觉这方面，所以大家可以看到很多计算机视觉方面新的成果。我今天给在座讲的人工智能其实也就是计算机视觉，用深度学习去做计算机视觉，就变得更窄了。

大家可以看到“深度学习（deep learning）”这个词在谷歌上的搜索情况：从2006年才开始有人搜索这个词，是hinton和yann lecun们那个时候发明了这个算法。这中间很长一段时间，2006-2011年曲线是很平稳的，只有学术界才会去搜索这个词语，才知道这个事情。2011年突然之间搜索量开始呈现指数型增长，各行各业都在讨论深度学习，现在搜索量已经非常的巨大。这条曲线形象地演示了深度学习的爆发过程。

深度学习到底在做什么事情？实际上它所做的事情抽象出来是比较简单的，就是在做一个从x到y的回归、或者说从a到b的mapping（对应）——你给它一个输入，它怎么样给出一个对应的输出？特殊的地方就是深度学习把这件事情做得非常非常好。以前也有其他算法可以做，只不过一直做不过人，现在深度学习做到了极致。

比如说给了一张人脸照片，它就可以给你对应出这个人的名字；给一个物体的形状，它就可以告诉你是什么物体；给一个车的行驶场景，它就可以给你输出这个车应该往哪儿拐；给一个棋局，它能算出下一步怎么走；给一个医疗的图像，它就能帮你判断这是什么病……实际上就是这样的一个过程。不要把人工智能想象成可以超越人类，可以控制人类，这些都是所谓的“好莱坞的人工智能”或者想象中的人工智能，真正人工智能在现在这个阶段其实就是做这么简单的事，当然，做成这个简单的事情其实已经很不简单了。

深度学习的突破

最近这几年深度学习确实在学术界、工业界取得了重大的突破。第一个突破是在语音识别上。hinton和微软的邓力老师，在2011年用深度学习在语音识别上取得了巨大的成功。昨天可能大家的微信也被刷屏了，我们中国科大毕业的师兄邓力老师从微软出来到顶级对冲基金工作。我的理解这也是一个a to b的mapping 的过程：把邓老师的深度学习的经验等内容都输入到对冲基金的算法里，这个对冲基金的钱就自动map到了邓老师口袋里。

语音识别取得了巨大成功以后，深度学习紧接着在视觉方面又取得了重大突破。2012年时，hinton在imagenet上将图像识别一下子提高了十几个点，以前我们都一年一个点在推，他一年就推了十年的进步，在学术界引起了很大的轰动。2014年我们团队做人脸识别，通过深度学习，做到算法首次超过人眼的成绩。

最后，在2016年，还是谷歌最厉害，每年120亿美金的研发投入没有白投，下了一盘棋叫alphago，这盘棋下完之后人工智能就不需要我们解释了，大家忽然都明白了，人工智能原来是这么回事儿，就是下棋。

接着人工智能在自动驾驶领域也取得了一些重大的突破。现在比较热门的是医疗影像方面，借助人工智能进行诊断。

深度学习的三要素

深度学习有三个核心的要素：

学习算法的设计，你设计的大脑到底够不够聪明；
要有高性能的计算能力，训练一个大的网络；
必须要有大数据。

接下来分享我们在深度学习方面做的一些工作。我们从2011年开始做这项工作，一开始没有开源的框架，所以自己要做很多的工作。做的时间长了，我们就做了一套parrots系统，这个系统目前还不是开源的。

我们用这套系统训练的网络可以做到非常深，原来alexnet是8层，后来googlenet在2014年做到了22层，后来resnet做到了150多层，去年我们的polynet做到了1000多层。大家可以看到这个网络发展趋势，越来越深。这是我们设计的1000多层的网络，比较细的线就是整个网，中间一个格往下走，放大出来的部分就是网络的细节结构，这个网叫做polynet，dahua团队的这个网络设计和facebook的kaiming团队的resnet，在图像分类上做了目前为止全球最好的结果，最后基本上成了我们实验室出来的两个学生之间的竞赛。这个网络的最后形状有点像dna的双螺旋。

在物体检测上，大家也可以看到进步速度有多快，2013年一开始的时候，200类物体的平均检测准确率是22%，但是很快谷歌可以做到43.9%，我们做到50.3%，紧接着微软是62%，现在我们做到最好结果是66%，在几年之内翻了三倍，这也是深度学习的力量，我们这方面的工作是xiaogang和wangli团队做的。

我们训练出来这样一个大脑，可以把它应用到各个方向，在很多不同的领域做出的不同技术。在人脸方面，我们做了人脸检测、人脸关键点定位、身份证对比、聚类以及人脸属性、活体检测等等。智能监控方面，做了人、机动车、非机动车视频结构化研究。人体的属性，我们定义了大约70种，人群定义了90多种属性。下面这些是衣服的搜索、物体的检测、场景的分类和车型的检测，车型检测我们标注了几千种车型的分类。在文字方面，小票的识别、信用卡的识别、车牌的识别，这些都是由深度学习的算法来做的。同时在图像的处理方面，在去雾、超分辨率、去抖动、去模糊，hdr、各种智能滤镜的设计都是用深度学习的算法，我们基本上用一套大脑做很多的任务。

深度学习的另外一个门槛就是高性能计算，以前高性能计算大家都是讲的cpu集群，现在做深度学习都是gpu，把数百块gpu连接起来做成集群目前是一个比较大的门槛。我们在北京做了三个gpu的集群，在香港做了一个大的集群，用这些集群，原来一个月才能训练出来的网络，加速到几个小时就能训练完，因此我们训练了大量的网络。

深度学习第三个门槛就是大数据，如果把人工智能比喻成一个火箭的话，大数据就是这个火箭的燃料。

我们与300多家工业界的厂商客户进行合作，积累了大量的数据，数亿的图片。我们有300多人的团队专门做数据标注，包括几千类车型的数据、人群的大数据以及衣服的搜索和分类的数据库，这些对于学术界以及工业界都是很有益的。实际上谷歌所做的数据体量更大，他们和national institutes of health (nih)合作，很快会开放一个非常大的医疗图像的数据库。在医疗方面我相信大家很快会有大量的数据进行处理，这个时候对于我们的高性能计算又提出了一些新的要求。

利用深度学习做计算机视觉

实验室有幸对深度学习研究较早。在计算机视觉包括人脸检测等各个方面起步较早，这里列了18项我们在计算机视觉领域全球最早提出来的深度学习米乐m6平台的解决方案，也相当于对创新的一些贡献。我们被评为全亚洲唯一的人工智能研究十大先驱实验室，非常荣幸跟mit、斯坦福、伯克利这样的名校，以及深度学习的顶级工业实验室脸书、谷歌的深度学习负责人团队等等在一起获选。我们也在研究一些现在没有的技术，比如说，大家可能以前见过很多依赖深度摄像头才能做的人体跟踪算法（比如kinect）。目前我们团队做的算法，用很便宜的单个rgb摄像头就可以做到同样效果，这是非常不容易的，尤其要做到实时，在智能家居，自动驾驶等方面都有很大的应用前景。

上面这个工作是去年做的，根据一张照片里两个人的姿势，可以自动判断两个人之间的情感，是友好的还是敌对的，同时可以根据两个人的表情也可以判断两个人的关系。所以，以后如果你把你的照片上传到互联网上，实际上我们可以判断出来跟你一起照相的这个人和你具体是什么关系。

这有什么用途呢？大家经常会把照片放到网上，我们用这些照片分析这些人，如果你跟一个非常有名的人，或者跟一个非常有钱的人照了一张合照，那你这个人可信度可能就增加。或者你和一个罪犯、或者信誉不好的人拍了一张照片，你的可信度就下降。我们用这项技术可以做金融的征信，把不同人的关系网建立起来，把信用度传递出去。这个关系问题还可以做得更多，把一张图片任何物体之间，哪个在上面，哪个在后面，互相是什么关系，可以由一张照片判断出来。

下面是最新的工作，我们以前定义了70种人的特性，根据这个特性进行视频搜索。现在定义一个新的搜索模式，用自然语言来搜索，即我说一段话来描述这个人，把这个人描述出来以后用这段话去搜索我要找的这样一个人。实际上，其中涉及的信息量是很大的，寻找也更加精准，我们已经建立了一个大的开源的数据库来帮助大家做这个研究。

在这些数据中，从这些自然语言里面我们可以抽出不同的词，用词来描述不同的人，其信息量巨大，搜索准确率也大幅度提高。这是具体的监控方面应用的结果。用自然语言做人的搜索。大家可以想像一下在医疗上的应用，如在多模态的医疗诊断上。一个是医疗的图像，一个是医生的文字诊断，可以实时地识别出来，进行自然语言的分析，把两个进行结合再进行诊断。

上面这个也是一项新的研究工作，根据这个video，识别内容，判断剧情属性。以泰坦尼克号电影为例，你可以看到那两个曲线，现在是浪漫的场景，代表浪漫的线就上来了，如果是灾难，那个灾难的绿线就上来了，实时根据这个内容判断剧情，这也是去年的工作。

目前团队又做了一个新的工作，可以根据电影的实时计算分析，来理解判断这里面的剧情，可以把一个演员，在整个电影里面，在什么地方出现，在那段时间是什么剧情，用自然语言描述出来，对整个电影的内容分析，用计算机视觉和自然语言自动可以分析出来了。将来可以用来分析和插播广告，还可以直接用自然语言搜索各种不同的片段。

我们还有一项工作是超分辨率，就是把很小的图像放大，最大化还原细节。这是好莱坞电影的图像，视频抓到一个很模糊的嫌疑罪犯的图像，然后把它实时的放大变得很清晰。这只是谍影重重电影上演的效果，还是很震撼的。

2016年的时候，推特跟谷歌密集发表了几篇关于超分辨率的文章，其核心就是深度学习。而我们早于他们，就已经做了大量先期研究。我们在2014年发表了全球第一个用深度学习研究超分辨率的论文，在2015年又发表了一篇相关文章，2016年发表了两篇，取得了更大的突破，而在2017年紧接着发表了三篇。我们的cavan教授团队是第一个做的，也是目前做的最好的。目前超分辨率已经走向实时以及效果实用化的阶段，利用这项技术在某些实时监控，公安监控摄像头可以把人看的比较清晰了。

而在自动驾驶上，我们也做了大量研究，六大类别的技术，有30多个细分核心技术。我在这里面就简单举几个例子做演示。比如车的检测、行人检测、路道线的检测、实时的场景分割……我们也做了前端，用前端的芯片做实时的效果。

这是人脸的布控系统，目前已在很多城市实时布控了。还有百米之外抓人，百米之外看到一个目标拉近然后进行人脸识别。

这是视频结构化，把视频里面的人、机动车、非机动车及其特性都检测出来了，并且自动标注出来了，这样整个视频就变成了文档，可以进行文档性的搜索。

这些也都是我们所做的技术的落地产品：在中国移动的实名认证系统，去年给中国移动做了三亿人的实名认证；小米的宝宝相册；华为mate 8的智能相册；faceu、snow等做的特效；微博相机......这绝大部分是基于我们的人脸识别、人脸跟踪等技术做出来的。实际上在人工智能落地方面我们做了许多的落地产品。

在中国创业

我最后总结一下，在中国创业是一个什么感受？我觉得中国创业就像跑百米一样，要跑的非常快，第一个到达终点才可以活下来，但是这个跑道并不是塑胶跑道，而是满地都是坑的土路。这场赛跑有两个结局，一个是全力跑到最快，另外一个是刚起步就掉到坑里了。创业的困难是一定存在的，年轻人要不要创业？尽管路上的坑比较多，但还是可以试一试。

另外用什么钱创业也是个问题。什么钱可以用？什么钱不可以用？我的忠告是，首先父母的钱你不可以用，那是他们养老的血汗钱。你自己挣的钱可以用，你的第一桶金可以用，你们还年轻，用光了可以再去挣。投资人的钱是可以用的，因为大部分都是有钱人的钱，我觉得“劫富济贫”，人人有责，所以如果大家一定要创业那就创吧。

谢谢大家。

*图片由雷锋网编辑现场拍摄