美国德州农工大学胡侠教授：机器学习的可解释性与自动机器学习 | ccf-米乐m6平台

机器学习 gair

作者：刘伟

2018/07/03 16:16

雷锋网按：2018 全球人工智能与机器人峰会（ccf-gair）在深圳召开，峰会由中国计算机学会（ccf）主办，雷锋网、香港中文大学（深圳）承办，得到了宝安区政府的大力指导，是国内人工智能和机器人学术界、工业界及投资界三大领域的顶级交流盛会，旨在打造国内人工智能领域最具实力的跨界交流合作平台。

雷锋网 ccf-gair 2018 延续前两届的“顶尖”阵容，提供 1 个主会场和 11 个专场（仿生机器人专场，机器人行业应用专场，计算机视觉专场，智能安全专场，金融科技专场，智能驾驶专场，nlp 专场，ai 专场，ai 芯片专场，iot 专场，投资人专场）的丰富平台，意欲给三界参会者从产学研多个维度，呈现出更富前瞻性与落地性相结合的会议内容与现场体验。

大会最后一天的ai 专场汇聚了美国德州农工大学数据挖掘实验室主任、计算机学院终身教职系列助理教授胡侠，永辉云计算联合创始人兼cto胡鲁辉，乂学教育首席科学家崔炜，中兴力维首席技术官曹友盛，清华大学未来实验室博士后、博云视觉联合创始人高峰等重量级嘉宾。他们就各自在零售、教育、安防、艺术等领域的人工智能探索与实践做了精彩分享。

其中，胡侠教授作为开场嘉宾，发表了题为“human-centric machine learning”的精彩演讲。

胡侠教授表示，机器学习要被各行各业普遍接受和应用，前提是要具有可解释性。

赋予机器学习可解释性是一个非常难的问题。第一，可解释性没有明确的定义，可能是系统的可解释性，也可能是预测结果的可解释性，甚至可能是系统中某一个部分的可解释性。第二，如果做深度学习的可解释工作，现有的深度学习系统千千万，我们没办法对每一个系统都做。第三，让机器学习系统具有可解释性，必须大量hci、visualization专家跨学科合作，是一项巨大的挑战。

为解决这个问题，胡侠教授提出，将性能强大、不可解释的深度学习系统学到的知识，迁移到性能较弱但可解释的浅度学习系统中。

除了机器学习的可解释性，自动机器学习也是业界关注的重点。在这方面，胡侠教授带领的团队也做了很多工作。

他们挑选了约300个uci的数据，重新采样形成了4000个数据。然后把能找到的20多个分类的package全部应用到这4000个数据上去，观察效果如何。新的数据进来后，他们就找出矩阵中和新数据最像的dataset，将这个dataset上历史表现最好的模型推荐给用户。通过这种方法，将机器学习效果提升了很多。

以下是胡侠教授的全部分享内容，雷锋网做了不改变原意的整理与编辑：

感谢雷锋网的邀请！今天是大会最后一天，很高兴看到台下还有这么多人倾听我的演讲。

今天主要想给大家介绍一个概念——human-centric，以及它如何在机器学习领域落地。机器学习大家已经谈论的很多了，今天我想介绍什么是基于用户的机器学习。

基于用户的机器学习主要分两方面：一、机器学习的入口。机器学习广泛应用于各行各业，但要用好一个机器学习系统，把效果提升上去，就必须要有数据科学的背景。这大大阻碍了机器学习在各行各业的落地前景。二、数据的入口。如何做好自动的机器学习，即给定一个数据，系统自动推荐相应的深度学习算法，这是我想讲的第二个问题。

机器学习的可解释性

机器学习或深度学习被各行各业接受，前提是要具有可解释性。什么叫做可解释性？下面用几个例子来说明。

第一个例子是医疗健康领域。如果一位病人去医院检查，医生告诉他，“机器学习系统推算你三个月后会得糖尿病，五个月后会得癌症，但我们也不知道为什么”，病人和病人家属不会认可，甚至医生也不敢用这个系统。所以我们必须知道机器学习系统是怎么工作的。为什么病人会得糖尿病？是因为血糖过高还是ct扫描中出现了肿瘤？

第二个例子是自动驾驶行业。现在的自动驾驶还无法完全离开陪驶员，每隔一段时间就需要陪驶员把控一下方向盘。我们要理解这次bug，理解机器学习系统和视觉系统出了什么问题。只有这样才能不断提高自动驾驶的效率和准确率，最后真正实现自动驾驶。

再举个风控的例子。我们跟美国最大的医疗保险公司之一unitedhealth合作了一个项目。美国很多医生和病人会联合起来骗保险公司的钱。我们希望通过异常检测，检测出这些医生和病人的异常行为。但即使我们找出了这些异常行为并把它交给保险公司，后者也很难进行人为筛选。（我们的系统准确率做不到100%，所以还需要人为筛选。）如果保险公司决定起诉或采取其他进一步决策，就必须理解为什么这个医生或病人会被检测出来。但是每个医生和病人的案例文档都超过百页，非常难以理解。如何将这一百多页文档浓缩成一页，明确指出他们为什么骗保，就显得十分重要。

还有一个例子，大家可以看看下面这张图片。

图片中上面是浣熊的照片，下面是小熊猫的照片，系统把浣熊错认成了小熊猫，为什么？我们可以看到，浣熊的形象很像小熊猫，而且它有一个很强的特征——露出了红色的舌头。这是小熊猫非常喜欢做的动作，所以系统把它误认为小熊猫。如果我们理解系统是怎么工作的，就可以对其进行人为干预，提高系统的学习效果。

怎么赋予机器学习可解释性，这是一个非常难的问题。第一，可解释性没有明确的定义，可能是系统的可解释性，也可能是预测结果的可解释性，甚至可能是系统中某一个部分的可解释性。第二，如果做深度学习的可解释工作，现有的深度学习系统千千万，我们没办法对每一个系统都做。第三，让机器学习系统具有可解释性，必须大量hci、visualization专家跨学科合作，是一项巨大的挑战。

下面介绍我们的一个设想，这个想法非常简单。我们有深度学习系统，它很强大，可以做很多预测；我们也有浅度学习系统，它比较简单且具备可解释性，但预测精度不如深度学习系统。我们的想法就是，将深度学习系统学到的知识迁移到浅度学习系统中。我们将深度学习系统称作老师模型，浅度学习系统称作学生模型，通过soft labels把二者结合起来。

给大家介绍两个案例：

一、怎么做好cnn的可解释性工作。下图中有两个目标——斑马和大象，传统目标检测就可以发现这两个部分。但我们做预测和分类时，希望系统不仅能区分斑马和大象，还能标注出大象和斑马的部分，分别放到对应的分类里。我们的论文和系统已经上线，大家感兴趣可以查一下。

二、假新闻的分类，这个话题在中、美两国都很受关注。假新闻检测本身并不是我们的重点，我们的研究重点是让你知道为什么某条新闻会被判定成假新闻。我们有很多新闻内容和新闻相关信息，新闻内容包括的常用词汇和相应的语法信息，新闻相关信息包括是谁说的、什么时候发表的、在哪个刊物发表、聚焦什么话题等。我们希望借此提供更多可解释性，了解一条新闻为什么会被判定为假新闻。

自动机器学习

除了机器学习的可解释性，自动机器学习也是业界关注的重点。这方面，学术界无法跟google竞争，所以我们只做了其中一个很小的点。

介绍我们的研究成果前，先简要介绍一下什么叫做自动的机器学习。

深度学习系统涉及大量primitivs，没有非常强的数据科学背景很难训练出好的深度学习系统，也很难应用好。我们的愿景是人人都可以用得起深度学习系统。

下图是最原始、最简单的机器学习系统。我们有一组数据，想知道它是文本还是数值，具体是用text mining、classification还是regression。如果用classification，效果还不错，系统就会推荐给你。这是最原始的现有产品能实现的功能，给定一些数据后可以推荐相应的系统给大家。

这方面我们也做了相应的工作。我们挑选了约300个uci的数据，重新采样形成了4000个数据。我们的做法很简单，把能找到的20多个分类的package全部应用到这4000个数据上去，看效果怎么样。这样一来形成了4000×20的矩阵，我就大略知道什么样的分类算法在怎样的数据上会取得什么样的效果。新进来一个数据后，我们就找出矩阵中和它最像的dataset，将这个dataset上历史表现最好的模型推荐给用户。通过这个工作，效果提升了很多。

刚才介绍了非常原始、基础的自动机器学习系统。我们正在做的工作是研究怎样做好神经结构的搜索。有了数据后，系统可以自动推荐一个相应的深度学习结构给该数据。在没有资源，没有大量深度学习工程师和数据科学家的情况下，这样一个结构或许可以初步满足初创公司、社会学科和医生的数据探索需求。

具体怎么做呢？第一步，我们要根据相应模型，通过遗传算法或者强化学习来做。这一步非常耗时耗力。

第二步，有了结构后，还要从头开始训练这个深度学习系统，这样它才能应用到相应的工作中去。

无论第一步的遗传算法、强化学习，还是第二步的从头开始训练深度学习系统，都非常耗时耗力。一个简单的datasets我们都要几天才能完成。

有了深度学习系统的原始结构后，还可以将它变宽、变深、加速，让它的速度更快。

我们采用了bayesian optimization替代传统强化学习和遗传算法，让这一步变得比较快。

我们所有的学习都是基于上一步，所以第二步也能让速度非常快。我可以把时间从原始的几天压缩到一个小时内。你给定一个数据，我们很快就能推荐相应的深度学习结构给你。

下图展示了我们一个月前发布的package，我们称它auto-keras。大家有兴趣可以尝试一下。

现场有很多企业界的朋友，所以我也分享下我们实验室跟企业合作的经验。这里主要以异常检测为例，这方面我们做了大量可解释性的工作。比如我们跟阿里巴巴合作检测异常购买行为。阿里巴巴沉淀了大量购买历史记录，如果是不良商家和用户，他的行为就会产生异常，系统很容易就能够检测出来。但系统的准确率做不到100%，如果无缘无故封错用户的账号，就会流失大量用户，所以在不确定的情况下，我们需要额外雇佣人员审核用户，这时候就需要可解释性。

我们还跟全球最大的空调公司之一合作。美国很多家庭安装了中央空调，价值小一万美金，非常昂贵。如果等到你感觉不到空调制冷的时候再修就晚了，还不如重新买一个。现在的中央空调都部署了大量传感器，先是一个小部件坏了，用户感觉不出来；接着会引发小系统到整个系统的崩溃。如果我们能在较早的阶段检测出异常，就能减小损失。异常检测也需要可解释性，因此我们在指挥系统方面做了大量工作。

此外，我们跟苹果合作，一起检测系统入侵，准确率还是做不到100%。举一个简单的例子，我们发现检测结果中有人前一秒还在北京，下一秒就在别的地方访问系统。我们认为这是异常，把结果提交到苹果运营团队，结果他们告诉我，这是一个vpn在操作。所以一定要有可解释性，异常检测才能在各个行业的不同任务中落地。

以上是我的全部分享内容，谢谢大家。

专题

2018 ccf-gair 全球人工智能与机器人峰会查看更多文章

美国德州农工大学胡侠教授：机器学习的可解释性与自动机器学习 | ccf-米乐m6平台

机器学习的可解释性

自动机器学习

美国德州农工大学胡侠教授：机器学习的可解释性与自动机器学习 | ccf-gair 2018