用 AI 怼黑产是一种怎样的体验？（上）

导读：2017年8月31日，由腾讯安全科恩实验室主办的“2017腾讯安全国际技术峰会（TenSec 2017）”落下帷幕，本次峰会聚焦安全行业前沿技术，覆盖时下最热的安全议题。在为期两天的议程中，来自腾讯、微软、谷歌等国际工业界和学术界顶级的研究员共带来15个安全议题，现场干货满满，堪称一场技术研究人员的盛会。

本篇文章正是选择了AI的这个热点，全文刊登了腾讯安全平台部总经理coolc关于“AI技术在信息安全领域的应用”的现场演讲发言。

首先跟大家做一下自我介绍，我在安全行业已经工作十几年了，可以说在安全攻防这个领域，我是一个老兵，但是在AI安全相关的内容上，我觉得我还是一个新人。其实大家担忧AI会抢去我们工作，这件事情发生或没有发生，或者在某些领域正在发生。

危机

AI助力安全再上新台阶

作为安全行业来说，我们确实也感受到AI给我们带来一些实实在在的好处，比如说我们传统的安全领域最常用的，如用密码来鉴别用户身份这个领域。随着AI技术的到来，其实我们在慢慢让生物识别变成可能，比如人脸的识别，我们这里就使用了很多AI中图像识别的技术，让这些功能成为可能。

同时，当我们把机器学习的方法用于恶意代码的识别，其实也极大地提升了对恶意代码的对抗和识别能力，我觉得这都是一些积极的变化。但在安全这个领域，我们确实也在学术界发现了很多问题。人工智能应用最广泛的应该是三个领域，第一个是图像识别领域，第二个是语音识别领域，保证自然语音识别，第三个是包括机器学习的通用技术的使用。

AI的应用也增加了新风险

在图像识别领域，生成对抗网络这块，已经有很多学术界的专家或者学术界的人，他们已经做出一些样例。比如说下面这幅图，这是交通标志的一个图，实际上通过加一些特定的噪点，可以让对方对交通标志的识别出现错乱，进行错误的识别。

而下面这幅图就是在人脸识别领域，这是一个大学的研究团队，他们制造了一个比较特殊的研究，当你带这个特殊眼镜的时候，会引导机器做出错误判断，把自然人A识别成自然人B，这都是学术界已经开始发现并且指出的一些问题，并且在特定的实验环境上得到了验证。

实战

业务安全人机对抗

实际上这些学术上的尝试，我觉得都是很积极的，而且他们确实也告诉我们，在我们大量地使用这种机器学习、算法和AI识别算法的时候，其实我们还是有很多隐患和安全问题是有待解决的，这些隐患是真实存在的。

所以我觉得这些东西，我们大概是在差不多一年多、两年前也关注到了这些变化，实际上当我们看到各个知识社区，包括安全社区，大家谈到越来越多的人工智能问题，机器学习问题的时候，我们也意识到几个问题：

第一，在实践中更多地去尝试和探讨AI技术作为实际工作中的一个技术的使用可能。

第二，随着越来越多的业务使用，这种AI技术、机器学习技术，包括我们也在尝试着使用这种机器学习技术，是否黑客也在尝试使用这种技术。

第三，当我们和业务去使用这种技术用于业务和安全建设的时候，当我们不恰当地使用，或者使用的算法存在某种缺陷，会导致黑客或黑产利用缺陷达成一种攻击，或者取得更高的获利或效果？这是我们的思考，所以在这一年多、两年的时间进行了一些实践，下面我跟大家分享的就是我们一些实践的经验。

首先我讲的是在业务安全领域的人机识别场景的黑产对抗和应用的情况。腾讯作为中国最大的社交网络，一天大概会受到针对帐号的45亿次攻击尝试。尝试成功一个账号，会给他0.008元人民币，换算下来，一天3600万元人民币（大概数字）。正是这样一笔获利丰厚的生意，很多技术非常优秀的人投身黑产。而正是因为社交网络背后的价值非常巨大，包括用户的数据、隐私，包括背后所衍生的，比如说电子商务、虚拟财产安全等等，而且这些东西会变成十倍、百倍的利益。正因为有如此大的利益驱动，让从事黑产的人非常有动力投入和进行技术的探索。

AI时代攻防战场对抗升级

大家经常会听到黑产，黑产到底是什么样？我很难用具体的词汇描述，但跟传统意义的黑客、极客不一样，这种黑产更多是以金钱为目的，而并不是以技术精神达到极致为目的。

上面所说的黑产有几大特点。第一，具备工具化，是以规模化、批量化生产为依托，实际上更像一个小型的工厂或工业体系。而且大家可以看到，这里面有很多配套的硬件设施和设备去支持它。

大家可以看到，右侧插着很多卡的图，这个在国内我们叫做猫池，实际上是一个一个猫，上面插了大量电话卡，可以实现电话卡的拨号，实际上很多体系是基于电话卡来进行自然人识别，但实际上在黑产下完全无效，因为他们有专业的设备和大量的电话卡去使用，完全可以突破这种体系。

黑产工具化

再往下大家可以看到，就是像墙一样放满各种各样手机的设备，实际上在对抗很多自动机的场景下，很多人会觉得，如果我有一些模拟软件的识别，我加上一些协议识别是可以对抗的。现在已经进行到可以构建这样一个墙，装满真实的手机，在上面进行自动化模拟，这里的对抗实际上非常剧烈，而且大家也可以通过这个，这实际是我们抓到的一个黑产团伙，大家可以通过这个团伙看到，对方的武器装备也是非常先进的，对方不仅仅是像我们想象那样，仅仅有大刀、长矛，实际上人家也是有坦克、飞机、大炮的。

黑产智能化

这是我们最终起获的，前面是硬件装备，这是软环境，或者说可以是研发环境的简单陈述。他本身的架构设计还是非常有条理性的，并且有蛮豪华的硬件设施，而且他搭建了一个用人工智能去识别验证码的平台，可以批量化地去攻破这种账号登录体系。当他批量化地登录账号体系时，每攻破一个就可以达到0.008人民币，拿到这笔钱，如果用机器跑一天可以跑多少？一天可以跑上千万次，这是一个非常丰厚的收入回报。

同时，他搭建的这套人工智能体系是基于神经网络的，我们当时查获以后去测试了一下，对市面上几乎所有的验证码识别率很高，也就是对市面上的所有的识别完全失效，这个团伙实现了工业化的进步，用人工智能达到了他这个行业的垄断和霸主地位。我们当时去预估了一下，这个打码平台占到黑产在这个行业攻破自动机80%的市场份额，可以说是完全垄断了这个行业。

像这种人工智能打码，他跟以前的OCR有什么区别？OCR也有很多是可以做到比较高的识别率，我这里给大家一个很有意思的例子来让大家感受一下，不仅仅是简单的图像识别问题，确实包含一些深层次的智能对抗问题。因为验证码往往是分层的，在这种情况下已经是被识别成比较可能是坏人的情况下，所以这个验证码是比较难于识辨的，或者人类看起来有点费劲，人类肉眼已经比较难识别出这一串字母了。这已经是我们识别高概率，但实际上他的机器还是可以识别到95%。那怎么办？我们当时使用了一些小技巧，大家可以看到上面的小字是中文，请你按顺序输入第5位、第2位和第3位，目的是为了避免他用人工智能图像识别的技术，把这些字母输入识别出来以后，按顺序直接输出，于是我们调整了一些语义，让他按次序进入，这样我们就可以大家对抗图像识别的能力来进行对抗。

我们用了这个小技巧以后，作为对方使用了神经网络的对抗体系跟我们对抗的时候，他们用了大概是一天半的时间攻破。一天的时间我们观测了一下，从我们自己构建一个蓝军平台看，一天可以做到百分之四五十，就很快了。黑产我们观测了一下，大概在一天半左右，对于这种比较简单语义的，他打开是一天半的时间就可以做到80%、90%，所以神经网络对于比较简单的逻辑，比较相对固定的答案，或者逻辑不是很复杂的这种情况下，他的变种能力、对抗能力是非常强的，不仅仅是一个图像领域的对抗问题，他就是智力领域的对抗问题。

这也给我们一个深深的启示，实际上我们传统用于黑客攻防对抗的，不管是攻方还是防御方，你的策略对抗这个领域其实慢慢在分级，也许一些弱的逻辑，一些简单的策略，慢慢机器会越来越有优势，而人类的优势已经不在，人类也许需要，才能我们能固守的领域，从现有来看，这就是一个现实的例证。

黑产收益暴增

前面大家看到的机架上的，那套我认为非常奢华的服务器，就是我们起获的。这个所谓的“企业”其实只有80个人，他们一天就可以挣到30万。这80个人里，其实有相当一部分人的收入非常低，因为他们是客服。这80人的核心团队里，只有两到三名是最核心的研发和搭建体系的人，这些人是真正的大头。一旦这种技术被扩散和广泛使用，在人机对抗领域，我们面临的挑战是非常大的。

大概是一两年前，我们发现并开始应对、处置了这种问题，在今年各种场合下的安全会议上，包括工业的会议上，大家对人工智能的话题谈的越来越多。黑产学习研究并且付诸于实施和使用的时间已经是在将近三年前了。对手的能力和速度，对技术的执着和进取心，我觉得对我是一个很大的鞭策。

让黑产AI陷入混沌

我们受这件事的启发，开始反思，在传统领域跟他进行对抗的同时，尝试引入了一些AI的技术。

下面的这个例子，我们依然是打出验证码，我们根据各种各样的策略信息判断出他使用的是一套AI平台，但AI也会犯错，所以我们也在研究AI在图形、图片领域的缺陷和问题。比如像之前的CSS大会他们提到的，可以进行错误的引导和训练。我们尝试把这种技术用在验证码领域，我们发现在这种技术使用的时候，其实我们可以引导机器去做出错误的识别和判断。比如说验证码hsql，实际上我们引导机器做出了错误的识别，把s识别成b。这种技术提升了用户的体验，但没有增加用户识别的的难度。

我们有什么办法让AI不再进行那么高效的识别？我们想到把这套技术加进了中间，并且把我们AI在尝试识别的验证码里加入了一些代码进行混淆识别，我们发现如果进行适当的算法调整，可以引导AI的错误识别率提升33.5%，所以我认为这里面有一个非常大的研究潜力。因为当AI技术和机器学习技术进入了攻击这个领域，这个趋势是不可阻挡的，如果你想做好防御和对抗工作，那在这个领域，你保持学习进取和创新探索，就非常必要。

而实际工业上的实践结果证明，经过不长一段时间的探索，这里提升和完善的空间还是很大的。请大家注意，刚才我们看到的验证码实际上尺寸是非常小的，如果我们相对来说有一个比较大的人机对抗的界面和场景，这里的改善空间、完善空间和优化空间会更大。因为比较小的验证码做图像对抗的战场也过小，所以你优化和对抗的空间也会很小。