京东安全硅谷研究院负责人jimmy su: 不断升级的验证码战斗丨ccf-米乐m6平台

机器学习

2018/07/05 19:57

雷锋网编者按：随着柯洁和李世石败给了人工智能机器人，深度学习其实已经在不同领域有非常显著的发展，而京东的ai在账号安全场景上已经运用一段时间。在6月30日举办的ccf-gair智能安全专场中，京东安全北美研究院院长苏志刚jimmy su主要分享《机器人与对抗性机器学习：不断升级的验证码战斗》这个演讲。

苏志刚（jimmy su）加州大学伯克利分校（university of california at berkeley) 计算机系博士，京东安全硅谷研究中心负责人，研究领域主要聚焦在：账号安全、apt防御、人机识别，数据安全，ai安全应用，大数据，iot等方面。

进入京东之前，是火眼（fireeye）研究院总监，研发了多项国际先进产品，领域包括网络安全，移动安全，反欺诈，电子邮件安全，端点安全等。

2018 全球人工智能与机器人峰会（ccf-gair）于6月29日在深圳召开。本次大会共吸引超过2500余位 ai 业界人士参会，其中包含来自全球的 140 位在人工智能领域享有盛誉的顶级嘉宾。

以下是他在现场的演讲，雷锋网做了不改变原意的编辑整理。

大家好，我是京东安全苏志刚，很高兴能跟大家分享京东最近的一些研究成果，今天分享的是《机器人与对抗性机器学习：不断升级的验证码战斗》。

众所周知，机器学习在不同领域里已经有非常显著的发展，在围棋方面，阿法狗已经打败世界冠军柯洁。除此，深度学习还有非常丰富的场景，比如京东的咚咚音响、无人机、无人车等智能设备中的应用。

随着深度学习的广泛应用，攻击的规模和复杂性都在增加。在安全层面，京东的ai在帐号安全等场景已经有了深度应用，比如，注册，登录，以及订单等各个业务环节。在账号安全阶段，我们通常会从三个维度来对抗黑产。

事前：通过黑产舆情监控，风控黑手机号、黑ip、黑产工具等，提取威胁信息在事前拦截。

事中：利用设备指纹、行为识别等技术，甄别黑产和正常用户。顾客安装京东的app后，我们会通过移动sdk功能来采集设备的指纹（这也是用户身份标签），在注册阶段，我们会通过生物探针检查注册的行为是来自人的还是机器的。用户登录以后，我们还会做行为分析和异常检测。

事后：前两阶段可能做不到100%的拦截，在后续的订单环节，我们利用大数据建模功能，来进一步辨别黑产和正常用户，查找蛛丝马迹（比如黑产的机器行为相似度等）在后续的订单等环节拦截处理。比如，我们会根据从不同的im渠道收集的黑产情报（包括高危地理地址、黑手机号、黑ip等）做风控处理，在下单环节做拦截。同时，我们还会根据风控的各类问题，来查找业务漏洞，及时止损。

欺诈行为有哪些？

现阶段的电商购物环境下，我们会看到各种欺诈行为，包括机注、刷单、黄牛、刷券、恶意订单和虚假评论等。

黄牛

黄牛是一个非常有组织的黑产行为，并且有精细的分工，每一个分工都由不同团队完成。

第一步，黑产也有爬虫，这种爬虫会实时监控到我们某一些促销活动，优惠券和商品价格等。

第二步，大黄牛会分布式的用im，用qq跟微信把信息发送给小黄牛完成任务。分布式是为了绕过我们的人机识别，因为小黄牛跟机器下单不同，他们的行为统计是不一样的，用一些基础的人机识别是不能识别出来的。

第三步，当小黄牛收到任务以后，通常会用一些通用的黑产软件去做登录，定时下单。这里有一些非常成熟的工具，包括火牛跟刀锋。

这些黑产软件也会用到一些有ai技术。比如，黑产软件登录以后，会碰到不同的验证码，图片验证、手势验证、动作验证等。针对不同类型的验证码里面会用一些不同的打码平台。

一般的数字、图片验证等，有ai模型的打码平台，通过机器就可以批量验证；也有人为验证，为的是躲过人机识别拦截，所以就出现了大佬在屋里喝茶收钱，小兵在偏远山区，几百个人坐在一起解验证码的情况。

上面的图片是采购黑产工具的地方。

这个图片是人工打码平台，每个人是有一个工号，而且要在十秒钟内就把图片验证码解开，十秒钟内反馈给黑产工具，黑产工具就可以继续做注册。

注册完成之后，也可以卖这些注册账号，这些被卖的账号也分不同类型，非实名帐号比较便宜，实名帐号比较贵，而这些灰产的销售平台通常是电商网站，也会通过社区和一些批发网站，这些销售渠道也需要我们进行实时监控来观察其在黑市走势。

有了账号以后，其中一个欺诈行为他们可以做的就是刷单，目的就是利用虚假订单提高第三方商家的排名。再有一个，就是恶意订单，也是第三方厂商之间的恶意竞争，这个目的就是去破坏对手促销的活动，做恶意订单能够打击第三方对手的存货量。

最后黄牛把货拿到手以后，再想办法洗白兑现，然后就把赚到的钱继续从整个环境里跑下去。

我们的对抗方法

在黑产的每一个环节里我们都有机会用一些防守技术做拦截。

首先在爬虫这层，我们会用一些反爬的技术，让黑产不能这么容易实时知道某一些促销活动的存在，如优惠券是什么时候开始发的。

第二步，我们会渗透到大量黑产群里，用我们自己的爬虫爬取信息，比如，会用nlp的技术监控黑产的活动，黑产所用到的工具、技术等。

我们要知道实际攻击的工具、技术跟场景，才能够有效做防守。

首先会用无监督学习，做聚类，把一大波一大波的机注账号、黄牛订单先找出来。其次，我们会通过数据建模做行为分析，比如在pc端，我们会用到键盘跟鼠标的行为作为人机识别的特征。如果在app上，我们用什么角度掌控手机的，或者怎么样滑动手机的手势，还有gps各种不同的特征等。

我们得到黑产工具以后，会有团队做黑产软件的逆向，通过逆向我们发现黑产其实是用了某一些业务漏洞或者关口，进而推动我们做业务整改。

打击黑产平台其实就是一个ai对抗ai的过程。也会产生一些高对抗性的样本，比如我们会针对黑产也应用ai对抗，来给出一些样本，正常情况下，黑产平台可以正确的把这些数字都识别出来，但通过我们一些改动，新的样本出来以后变成模型，就会识别错误。但从人的肉眼其实可以很明显看到，变化后的样本跟原本的样本是有差别的，所以对一个人来说还是可以验证成功的。

到了收货地址这一步，我们还是有机会去拦截的，因为地址会有聚类，我们发现黄牛收货地址是有区域性的。一个例子，我们发现在湖北某一个地区，持续做黄牛奶粉活动，拿到奶粉以后就会兑现变成现金。在广东佛山有一个地方做高价手机的黄牛。因为它有固定区域比较容易让他把手机第二次卖出，兑现成现金。

当然这些对抗也不是一成不变的，黑产也在研究你，也在不断进步。我们观察到这半年黑产技术快速迭代，攻防周期是一两天左右。我们上一个新的策略，黑产会很迅速地一两天后就出现新的版本。我们持续监控黑产工具，可以看到迭代非常频繁。

京东安全有非常广泛的ai应用场景，ai应用是能让我们高效运作的唯一途径，所以刚才其实我们只是看了一个例子，就是电商和黑产之间是有持续的高对抗性的攻防。

谢谢大家。

问答部分

雷锋网：您怎样看待在电商平台间持续的黑产对抗中ai扮演的角色？

jimmy su：其实ai是一个攻防都可以用的武器，或者已经变成攻防都必须用的武器，否则就是落后。

刚才在演讲中我提到说攻击者利用ai技术可以非常高准确率的解决图片验证码。从防守的角度来说，如果不用一些ai技术对其进行破解话，可能整个验证过程都会被击破。其实验证过程很重要，因为它分两部分。首先在前面会有一些风控模型告诉我们，比如100个账号是有风险的。后面就需要一个验证码对这100个账号做二次验证。如果验证码不够强，可能这100个有问题的账号中通过了99个，这样即使风控模型识别出来了，但是还是没有达到作用。

雷锋网：ai技术运用在电商平台狙击黑产的困境是什么？

jimmy su：主要问题是若要做到全面防守，需要覆盖无数可能被攻击的点，但其实黑产只需要突破一个点，就已经得到它想要的东西。

所以很多时候我们会看到一些，比如我们在app端提高了人机识别技术，但很快黑产就会以一个pc端或者另外一个我们还没有应用这项技术的端进来。毕竟我们这些新的技术都会从不同时间、不同的端去部署，其实我们最后要做到的就是能够统一防守的技术，保护所有的渠道。

但这是很难的，因为我们的渠道非常多，也会越来越多。所以，从我们的角度，我们要防住每一个漏洞，但是黑产其实只需要突破一个。

雷锋网：关于用户隐私保护这方面京东是如何做的？

jimmy su：这其实是我们持续会去对抗的场景。很多时候某一个友商的平台被黑产做了拖库，得到了大量账号名或者是手机号加密码。随后很快（大概一、两周）我们就会看到黑产会用这批被拖的账号对京东做撞库，看一看这些账号或者是手机号，在京东能否登录。

所以，我们在这方面在做一些实时的撞库拦截，我们会突然看见很多失败的登录。当然，因为很多人都会重复使用密码，所以也会一定比例的账号密码。但是我们会做一些设备指纹，以及异地登录的检测。如此一来，即使黑产得到了正确的密码，但是它登录设备与我们保护的这个顾客不一样时候，我们会对它做二次验证。所以，很多拖库账号都不能进来。

雷锋网：目前在我们的app或者其他客户端都增加了不少认证手段确保安全性，但对用户来说增添了操作步骤，这种适用性和安全性是否需要平衡？

jimmy su：肯定需要平衡。

用户可能会担心自己的一些敏感数据或者行为被收集，但其实我们并不会收集这种私人行为。就像刚才说的，我们会在pc注册页面查看用户鼠标和打键盘的行为，但不会记录这个用户打了哪些字或者是按了哪些键，我们只是通过鼠标的加速、减速，或者打键盘的不同速度，去做一个用户画像，看看是不是这个用户来登录或者注册，但是敏感信息我们不会收集。这些都会在装app之前很明显的告知顾客，提示我们需要收集的信息，当然，这么做也是为了更好的保护用户隐私。

收集上述信息比如键盘操作主要有两种作用：

第一，识别是一个人的行为，不是一个机器的行为。

第二，识别是用户本人登录的，而不是另外一个人去盗号登录的。一旦识别出来非正常操作会增添二次验证，有时候会是验证码或是一个语音识别。

雷锋网：京东准备之后如何用ai技术打击黑产呢？

jimmy su：人机识别我们会坚持做，之后我们会通过人机识别里面的一些特征去做用户画像，做到就算盗号者用我的手机，有我的密码，但他登录进去也会被识别出来，这个技术现在已经在京东app里面了。

还有一个需要做的就是把一些离线的深度学习模型变成是实时的。因为我们发现其实黑产的动作很快，他有可能从注册登录到下单，整个流程都是自动化的，所以现在很多模型都在改造成实时模型。

专题

2018 ccf-gair 全球人工智能与机器人峰会查看更多文章

京东安全硅谷研究院负责人jimmy su: 不断升级的验证码战斗丨ccf-米乐m6平台

问答部分

京东安全硅谷研究院负责人jimmy su: 不断升级的验证码战斗丨ccf-gair 2018