深度 | 邓力：从语音 ai 到金融 ai，挑战有哪些？ | 雷峰网-米乐m6平台

邓力语音识别

2019/07/20 12:33

雷锋网 ai 科技评论按：7 月 12 日-7 月 14 日，2019 第四届全球人工智能与机器人峰会（ccf-gair 2019）于深圳正式召开。峰会由中国计算机学会（ccf）主办，雷锋网、香港中文大学（深圳）承办，深圳市人工智能与机器人研究院协办，得到了深圳市政府的大力指导，是国内人工智能和机器人学术界、工业界及投资界三大领域的顶级交流博览盛会，旨在打造国内人工智能领域极具实力的跨界交流合作平台。

7 月 12 日，加拿大工程院院士、citadel 首席人工智能官、前微软 ai 首席科学家、ieee fellow 邓力教授为「人工智能前沿专场」带来了《ai models：from speech and language to financial markets》的大会报告。以下为邓力教授所做的大会报告全文。

本次我演讲的主题可能跟其他演讲者不太一样，但我相信其中还是有一些共性值得我们探讨。因为人工智能涵盖了很多领域，其中就包括刚才 hackman 教授提到的重要主题，即人工智能和教育以及人工智能如何在教育领域实现更多的应用，我认为这一类的落地应用绝对是人工智能领域未来发展的重点之一。

今天我要重点分享的内容包括两个部分：第一部分是人工智能语音语言领域的应用，比如说语音识别和语言处理；第二部分是过渡到人工智能在金融领域的一些前沿进展和挑战。

1、语音历史

首先，我先介绍一下目前深度学习（即现代人工智能技术）在一些领域中现有的成功应用。

近年来，深度学习的发展特别快，例如语音识别，自然语言处理、机器人、计算机视觉等领域取得了非常大的进展。同时我也认为，这些领域在接下来的几年时间内还将实现更大的发展。

另外，我认为一些大家比较关注但是还没有通过媒体上看到的取得特别大进展的行业，如农业、教育、金融以及零售等，也具有非常大的潜能。在这里，我会重点介绍人工智能在金融领域的可行性。

在此之前，我先问大家一个问题，大家觉得人工智能在推动金融市场（包括商业模式和交易）的转型上有多大的潜力？为了让大家更好地回答这个问题，我们先来回顾一下大概十年前发生的一件事。

2009 年 12 月 12 日的 nips 上，我负责主办了一个 workshop，当时我邀请了微软和多伦多大学的同事们参加，与俞栋、geoffrey hinton 一同探讨了深度学习未来的发展前景，并通过调查研究从不同的维度来分析深度学习和神经网络在语音语言领域未来几年的发展态势。

之后，我们微软在语音识别和翻译领域投入了很多人力，希望通过深度学习、神经网络来实现机器语音识别和翻译。经过微软两年高强度的研究，2012 年，深度学习在语音识别领域取得了较大的进展，这也是深度神经网络研究在语音识别领域上的一次早期的大规模尝试，也是深度学习第一次在工业界取得成功的案例。

2012 年，正好就在中国天津，我当时所在的微软研究院尝试使用语音识别和翻译技术来对演讲进行英到中的口语自动翻译。这可以说是语音识别领域的一个里程碑式的时刻。在这前后，科大讯飞、百度等很多公司都加入到这个领域的研究中来，研发基于深度学习的新一代语音识别和翻译技术。

而更早之前，大约从 1993 年开始，我和很多同行者就开始研究即时语音识别技术。到 2000 年，即时语音识别的错误率非常明显得在不断下降，但当时基于隐马尔科夫模型的语音识别技术在 2000 年至 2009 年期间一直处于瓶颈停滞期，而在 2009 年引入深度学习以后开始有了新的进展：2009 年至 2012 年又有了第二轮更明显的错误率的下降。1993 年到 2000 年、2009 年至 2012 年是这项技术的两个标志性的阶段。

十年以后的今天，大家可能认为这一切都发展得自然而然，对人工智能领域的所有概念都习以为常，但在那个时候，深度学习的应用是非常罕见的。

2、从语音到金融

上图是用于语音识别的常见深度神经网络架构，获得了很大的成功，我们同样也希望让这项深度学习技术在金融领域发挥同样的作用。

上图是常见的语音识别系统的基本组成模块。我们将麦克风拾取的声音和文本作为数据，通过声学模型、词义模型和语言模型等不同的模块来训练完整的语音识别系统。我展示这个图主要就是想给大家看我们最早期的研究方式是怎么样分步训练完整的语音识别系统的，就是说在真正的深度神经网络开始之前，我们会使用不同的语音和文本数据来训练这些不同的模型模块。

这些不同的模型模块的研发过程中往往是相对独立的，即便是微软这样的公司，在早期都是独立组建团队去专门负责声学模型和语言模型不同模块的研发。但是发展到后期，由于有了深度神经网络端到端学习的能力，我们就可以建立综合性的米乐m6平台的解决方案，将所有不同的声学模型模块和语言模型模块连接起来综合训练。

金融界的从业者应该都知道，目前量化交易的系统也分成许多不同的模块，类似于深度神经网络端到端学习之前的语音识别系统。现代语音识别从独立研究不同模块的方式转变成一体化模型研发，使得模型的综合性越来越高，这应该有助于启发研究者们思考怎样改善基于相对独立模块的量化交易的金融系统。

在自然语言处理方面，深度学习同样起到了颠覆性的作用。其中就包括机器翻译，关于这个部分，周明博士会在今天下午的演讲中跟大家详细分享。

而深度学习等热门技术的挑战在哪里呢？主要还在于需要设计一个正确的、合适的架构来落地，包括清楚相应应用领域的机器学习难点，同时也需要足够的有标注的数据来训练机器解决问题。前一轮的人工智能技术无法成功解决大型的问题，需要通过现在新一轮的人工智能技术来解决。

简单介绍一下深度学习在自然语言处理的一个有趣的应用 --- 看图说话。上面这张图像是奥巴马的夫人和她的女儿们以及彭丽媛的合照，人工智能技术可以通过脸部识别与数据库进行比对来识别他们的身份，然后用一个自然语言的句子来描述这张照片的内容。这是人工智能技术应用得非常成功的案例之一。

3、三大独特挑战

作为一个非常特殊的领域，金融领域在人工智能技术应用层面所面临的挑战要比我在前面介绍的语音语言领域更大，其中以三大挑战最为典型，包括：

其一是金融数据的噪音非常大，不仅在输入端，更在输出端。在金融市场中，比如说股市存在的大量市场数据就有非常大的噪声，这些数据很多时候不能反映真实的股票市场情况，甚至噪声还会覆盖掉有用的信息。因此需要人类分析师或人工智能去对这些数据进行提炼，从而获得有价值的信息。也就是说，如果你要基于一些金融机构提供的数据做预测，首先就需要排除噪音，而对于语音识别、自然语言处理等领域而言，这一类挑战几乎是不存在的。目前，金融领域还没有相应的成熟机制来解决这一问题，所以需要探索各类人工智能技术来解决这一难题，而我们目前也看到了一些前进的方向。
其二是由于数据共享缺失以及数据和市场的非稳定性所导致的人工智能建模问题。这个挑战很大程度上是由于金融领域的竞争特性所决定的。金融公司的算法和数据基本上都无法像很多巨头科技公司那样将很多算法和数据进行开源分享，所以竞争激烈的金融领域是无法像自然语言处理等领域那样，能够基于过去的大数据用统计学的方法进行大数据分析，只能对一些在不断变动的波动数据进行分析。同时，激烈的竞争还会让新开发的统计模型和算法渐渐失去他们的有效性，远快过自然语言处理和语音识别的模型和算法。因此，这个在金融领域独有的棘手和难以驾驭的问题同样也需要非常特殊的人工智能技术来解决。
其三是异构数据问题，包括非传统金融数据和传统金融数据的整合和综合利用。以华尔街的金融分析师为例，他们并不都在使用标准数据。传统的金融数据包括很多种，其中一种是市场信息，很多技术分析师都使用一套规则和模板识别来分析股票；另一种叫做基本面数据，即分析师根据公司过去、现在和将来的盈利分析来预测未来的股市变化。他们会基于金融市场的过去数据和公司的基本面数据来看其呈现的动态，从而进行宏观和微观经济学分析。非传统金融数据，也称为另类数据，包括对金融市场有影响的海量文本、卫星图像和语音数据等等。这种数据的多样性就是这里讲的异构数据的问题。它对于传统的统计方法和金融数据分析而言，是一个巨大的挑战。而有了人工智能赋能后，金融投资领域就能够对异构或非标准金融数据进行更精准的分析。这是因为深度神经网络可以很自然地将异构数据整合在一起。

4、如何应用 ai ？

现在，华尔街的很多金融机构都关注或应用了人工智能技术，其中一些我熟悉的对冲基金也聘用了同我有类似背景的人工智能专家来帮助他们开发相应的人工智能技术。在两年多前，我们（citadel）就启动了相关的研究项目，而我们的竞争对手如 two sigma、de shaw、jp morgan、goldman sachs 等也在一年前聘用了人工智能科学家，跟进了相关的工作。它们现在也在人工智能人才上同我的团队竟争。金融机构争相勘实自己的人工智能技术的这一现状，也间接说明了人工智能技术的应用对于金融投资领域的作用不言而喻。在使用人工智能分析金融市场时，能用到一些比较明显的异构数据。这里我举两个例子，都是来源自金融学的学术文献。

一个例子是新闻社交媒体的文本数据。比如说，我们可以采用人工智能来分析一些新闻社交媒体对于市场行情的分析和讨论，以了解机构投资者以及散户投资者对于金融市场的情绪。这一点是非常重要的，因为金融市场实际上包含心理学上的博弈，也就是说这是买卖双方在市场上的博弈，由此形成金融市场的走向。因此，自然语言处理等技术对于金融分析而言，是非常有意义的。
另一个例子是公开演讲或访谈的数据。这种数据对于金融投资分析来说，也是一种有用的异构数据。举个例子，在 enron 出事的前段时间，我们是否能从这家公司 ceo 的某个采访中看到一些欺诈或遮掩的猫腻？他们在访谈中可能会透露一些微弱的信号，也可能会故意说假话，并且在说假话时的说话方式可能会跟说真话的时候不太一样，当时呈现的语音语调、互动表情都能够成为寻找蛛丝马迹的点，也都可以成为分析金融市场的波动和走向的信息源。投行等机构，也都会在与一些公司的 ceo 打交道和交通的过程中对其进行分析，以获得一些有价值的信息。而这个寻找一些蛛丝马迹来分析问题的过程，实际上是可以通过人工智能赋能金融市场来完成的。

那么为什么这样的一些另类（异构）的数据对于金融市场的研究至关重要，且是独一无二的呢？因为其实人工智能的很多落地经常只会用到单类或至多两类数据：影像数据和文本数据。而对分析金融市场有用的数据则更加复杂、更加多类。一般分析师通过基本面数据来分析上市公司在金融市场、实体经济中的市场表现等，这些数据可以充分展现某家公司目前的财务状况、经营状况，同时，它可以同历史市场数据以及图像，文本，甚至和语音数据综合起来应用。而这个将所有数据整合起来的过程，是能够通过人工智能来助力和赋能，整合分散的多类数据，从而挖掘更多真相。

那投行和对冲基金等在使用人工智能技术分析金融市场时还能注意其他哪些事情，未来能做什么呢？

首先，我们要确保数据的可获得性，也就是说让更多的人更好地获得一些对他们的研究有帮助的有价值的数据，这样我们才有更大发挥空间。
其次，我们要确保数据不侵犯隐私，控制好金融风险。对冲基金公司虽然拥有非常多的数据，但是需要更加精准地去筛选合适的数据并不侵犯隐私。
同时，我们需要招募到一些具备良好金融素养的又精通人工智能的有价值的人才，同时也需要对有潜力的人才进行培训。一般而言，拥有很强金融背景的人可能不太精通人工智能，所有我们特别需要招募到既有金融背景又懂人工智能的人才，他们就是我们所说的「明星雇员」。
最后，我们也需要针对金融领域的数据分析定制算法，从而更好地应对金融领域所面临的独特的挑战。

谢谢大家聆听我的演讲。

演讲结束后，雷锋网 ai 科技评论也对邓力教授进行了提问，在提问中问到了大家都比较关注的两个问题：一是邓力教授与 geoffrey hinton 教授的渊源；二是邓力教授从微软离职进入金融领域后的一些感想。雷锋网 ai 科技评论整理如下：

ai 科技评论：您放下神经网络的研究再到重拾该方向的研究并取得突破性的进展，似乎都与 geoffrey hinton 存在着某些联系，您怎样评价 hinton 对您研究生涯的影响？

邓力教授：是的，hinton 对我的职业生涯帮助很大，主要体现在两个方面：

第一个是我在他身上看到了信念的力量。hinton 从神经网络的研究初期，也就是大家非常质疑这种方法的时候，他始终都坚持神经网络能够解决人工智能问题，一直到现在，我个人真的非常佩服他。
第二个是思维方法。在跟 hinton 的合作中，他教给了我很多好的思维方法。

ai 科技评论：在此前媒体对您离职微软的报道中，了解到您曾表示「我觉得现在金融领域已经非常成熟了，可以让人工智能来大显神威。」您进入金融领域两年多，想法是否还与当年一样呢？

邓力教授：进入金融领域之前和之后的感受是完全不同的。

在进入之前，我当时的想法是，我自己在语音识别及信息和语言处理等领域已经研究得比较不错的，对于我而言不再具有特别大的挑战性，所以我就想换到一个更具挑战性的领域去展开研究。当时考虑到金融领域的数据量特别丰富，更多的数据就能够让我的研究工作做得更好，而需要用到的最基本方法与我之前用的那一套不会相差太远。当时就觉得到金融领域做研究问题应该不大，并且非常具有前景性。

但是真正转到金融领域后，我才发现，该领域在应用人工智能方面的挑战性远远要比其它我熟悉的领域大得多，就比如我在演讲中提到的数据的噪声大、由竞争导致的非稳定性以及异构数据问题，这都是非常复杂有趣的。不过我们目前也取得了不少技术成果，能够比较好地解决金融领域的特殊问题。

雷锋网 ai 科技评论报道