数据挖掘巨擘俞士纶：真实数据源不止一个，学习不仅要有深度还要有广度 | cncc 2019 | 雷峰网-米乐m6平台

cncc 2019 俞士纶

2019/10/20 08:03

雷锋网ai科技评论报道，2019年10月17日-19日，cncc 2019在苏州金鸡湖国际会议中心举办，雷锋网作为战略合作媒体，对大会进行全程报道。

在18日上午的特邀报告中，数据挖掘领域巨擘美国伊利诺大学芝加哥分校俞士纶教授做了“broad learning：a new perspective on mining big data”（广度学习：大数据挖掘的新视角）的分享。

当前大家普遍对深度学习了解较多，而事实上对于数据我们不仅要挖得深，还需要挖得广。例如对于网页数据，深度学习能够单独学习文本数据或图像数据等里面的特性。但是真实的网页可能同时包含文本、图片、音频、链接等等的数据。

事实上，我们讲的大数据并不是说所有数据都很大，只是整体很大而已。更多的情况是，我们拥有许多不同来源的（小）数据，它们之间相互有或多或少地联系。如果能够将这些不同的数据源整合在一起，那么我们将挖掘出更多有价值的信息。

俞士纶教授认为，首先我们应当认同这样一个观点，即所有类型的数据都是可用的，换句话说就是没有没价值的数据。问题的关键就在于我们如何将这些数据融合在一起。那么如何做呢？这就需要「广度学习」了。

所谓「广度学习」，俞士纶教授认为其本质就是如何将各种各样的数据整合在一起，以获取更多的信息。

在采访中，俞教授向ai科技评论强调说，广度学习在研究上的侧重点是数据，而深度学习的侧重点则在于模型；换句话说深度学习的「深」是指对数据训练的模型层数深；而广度学习的「广」是指我们训练模型的数据类型广。这两个概念侧重的点不同，但可以结合在同一个模型当中。

要做好「广度学习」，俞教授认为需要以下三步：

首先，定义并获取相关的有用数据源，也即找到对你的问题有用的数据。
其次，设计一种模型来将异质数据源信息融合起来。
最后，基于模型整体的需求从各种数据源中深度地去挖掘信息。

而从具体的技术路线角度来看，俞士纶教授认为广度学习的类型大致可以分为三类：

首先是在同一个实体上有不同类型信息的学习。这种类型的广度学习包括 multi-view learning、multi-source learning、multi-model learning 等。
其次是在不同的但类型相似的实体上信息的学习。这包括 transfer learning。
另外是在有复杂网络类型关系的不同类型实体信息的学习。这包括基于融合的异质信息网络（hin）。

对于广度学习，最为关键的任务主要有两个：信息融合和知识发现。因此对应的就有两个基本的挑战，其一是发现什么数据是有用的，如何将这些数据融合在一起；其二就是要明白想要挖掘什么（并不是所有数据对特定的知识发现都有用），以及如何从融合的数据中挖掘出有用的知识。

这有很多例子。

例如药物发掘。新药上市通常很贵，原因在于研发新药的成本非常高，发现一个新药之前可能失败成千上万次。但如果我们能够用大数据的技术来做预测，把那些不成功的案例删除掉，那么就能够在很大程度上降低新药研发的成本。但是，决定一种药物能否治疗一种疾病，并不仅仅是看药物的化学成分的；事实上，这需要很多种不同类型的信息或数据。例如基因信息、器官组织信息、药物传播临床试验信息等。传统的数据挖掘方法仅仅能够针对一种信息进行深度挖掘，但事实上若想要取得较好的效果，则需要将多种信息综合起来。下面这张图融合了多个不同数据之间的关系，这在本质上是一个异质网络。

在这张图上，可以定义所谓的meta-path，来表示两个数据之间的关系：

比如两个数据虽然不一样，但相互有影响，那么就可以直接连在一起；两个化学药品，如果它们有相同的副作用，那么就可以说它们有关系。这种关联可以帮我们来决定一个药物是否可能有用。

再例如，在电影推荐中，传统的方法往往只是根据用户的打分信息进行推荐，但事实上用户是否喜欢一部电影往往还取决于更多的因素，例如用户的个人背景、用户的朋友圈以及其他因素（例如电影是某个导演拍摄或某个演员主演等）都会影响用户是否观影以及观影体验。

类似于前面的例子，也可以采用相似的方法将不同的信息进行融合来提高推荐的准确性。

俞士汶教授认为，在大数据时代数据是最为宝贵的资源。对个人和企业来讲，对大数据的挖掘将是一次颠覆性的机会；大数据有四个「v」，所以对大数据的挖掘同时也是一种挑战。俞教授在报告中则主要是解决大数据的variety，也即通过融合异质数据源来进行广度学习。真实生活中的数据一般都不是只有一个数据源，而是要融合多个数据源才行。因此有效的学习应当同时需要广度和深度。

雷锋网报道。

专题