KDD 2017最佳论文得主叶艳芳专访：AI时代的互联网安全

KDD 2017最佳论文得主叶艳芳专访：AI时代的互联网安全 – 攻与防的黑白博弈

2017 年 11 月 23 日 AI科技评论 晓凡

AI科技评论按：大家可能还记得，数据挖掘顶会 KDD 2017的最佳应用论文奖由华人学者叶艳芳博士带领的团队摘得，老师本人也在会议中做了现场演讲介绍了研究内容，效果非常出色（现场演讲内容请见 KDD2017最佳应用论文演讲全文：如何用行为表征揪出恶意软件？）。

AI科技评论了解到，叶艳芳博士一直以来的主要研究领域有互联网安全、机器学习和数据挖掘，而且她先在业界公司工作了6年，然后离开业界来到学校开展安全研究。作为安全领域的专家，叶艳芳博士如何看待人工智能、机器学习对安全领域的影响，以及她为何要“逆潮流而行”，在许多学校教授纷纷下海的时候来到学校呢？我们带着以上疑问对她进行了一场专访。

（叶艳芳老师和她的学生们，图中第一排黑色短上衣为叶老师）

叶艳芳，博士，现为美国西弗吉尼亚大学（West Virginia University）计算机科学与电子工程系助理教授，博士生导师。其研究兴趣主要包括网络安全，数据挖掘，机器学习及生物信息等领域。叶教授曾任Comodo Security Solutions Inc. 首席科学家，金山互联网安全技术副总监。其在大数据挖掘及机器学习在网络安全，尤其是恶意软件检测方面，做出了开创性和前瞻性的研究；其提出的算法及技术具有相当的影响力，并已成功应用于多个商业反病毒软件中。叶教授在网络安全及机器学习方面的研究于2016年获美国自然科学基金委NSF SaTC Award （2016-2019），其近期获得了美国西弗吉尼亚大学工程学院杰出青年教授奖（2016-2017）、ACM SIGKDD 2017最佳论文及最佳学生论文奖、IEEE EISIC 2017最佳论文奖。（个人网页：http://community.wvu.edu/~yaye/ ）

以下为采访内容。

关于此次获奖论文

AI 科技评论：再次恭喜您获得最佳论文奖！您觉得这篇论文得到最佳应用论文的主要竞争力是哪些？

叶艳芳：我们的这篇文章（「HinDroid: An Intelligent Android Malware Detection System Based on Structured Heterogeneous Information Network」）是第一次提出把HIN，也就是异构信息网络，用在手机的病毒检测当中。恶意软件检测如果想要用机器学习的算法，传统的做法主要是基于浅层学习。这首先就要做feature engineering，要先提特征，提完特征再用各种学习算法进行模型的构建。

而基于HIN的检测框架有一个好处就是，可以用很多不同的关系描述两个文件的相似性。比如说，如果两个文件尽管从反编译出来的二进制上看不尽相同，但如果它们都去连接网络、都获取了手机里联系人的信息，代码风格相近（例如来源于同一个恶意软件作者），或者是用同一种自动的生成工具打包等等，这些复杂的关系都可以通过HIN来刻画，从而用于恶意软件检测。对比于传统的特征表达，基于HIN的检测框架就非常灵活，它不仅可以描述特征本身，而且对特征之间各种复杂关系的描述提供了一个有效的表达方法；这种框架具有较强的可扩充性，不仅对于feature engineering，还有每种不同相似度的权重衡量都有非常大的扩展性。

AI 科技评论：论文中介绍的方法是识别安卓系统中的恶意软件。它也能用于识别PC上的病毒吗？

叶艳芳：不仅限于安卓，它也能够适用于PC的恶意软件检测。甚至可以在更多的领域。我们现在也有尝试将基于HIN的这个检测框架用于医疗或者生物信息方面，比如我们最近有个项目，在社交网络当中识别这个用户是不是你关心的目标用户，是不是毒品上瘾者之类的。在比较好的定义了研究的问题之后，这个框架不仅可以用于互联网安全领域，也可以用于其他很多种方面。

AI 科技评论：运行安卓系统的设备存在比较严重的版本分裂问题，这给您的研究带来了额外的困难吗？如果是的话，您是如何应对的？

叶艳芳：安卓系统的设备存在比较严重的版本分裂的问题，这对提出来的整个框架不是一个问题，反而是这样的一个框架有优势去解决这样的问题。

为什么呢？比如说不同系统当中有不同的API，可以通过调用的API或者API之间的关系，看它是不是属于同一个版本，看是否存在版本不同的问题。那么就可以把这个关系和特征表述出来，然后自动地集成到这整个框架当中。这不仅不是challenge，我觉得反而是我们提出来的这个系统的一个优势。

AI 科技评论：HinDriod是用已经收集到的恶意软件进行训练，然后根据学习到的特征和关系判断目标软件的。HinDriod从软件行为的层面进行分析，可以防止改变代码写法、躲避检测，那么新生的软件是否能够通过新的种类的恶意行为躲避检测呢？

叶艳芳：首先不管什么样子的机器学习和数据挖掘算法、或者AI技术，要取得好的应用效果都需要基于大量的有标签的样本进行学习。即使是AlphaGo Zero在没有human knowledge的情况下取得了突破性的成功，这也是在这样一个强条件下：（1）下围棋的规则是明确的；（2）在self-learning的过程中自动产生了海量的带标签的数据。所以，对于通常的某一种变种，或者是某一种组合的变形的话，用这样的框架只要训练集当中有原始的近似样本话，那就有一定的就是防御能力能够抵御这个变种或恶意软件。

对于全新的，比如从动物进化到人这样生物特征都变了，比如一个蠕虫病毒进化到现在流行的勒索软件，这样完全不一样的东西，甚至对人来说都是全新的话，那我们可能需要更加先进的办法才能把它检测出来。如果是一个全新的事物，对它的认识是有一个过程的。

AI 科技评论：能不能透露一下HinDriod的训练速度和推理速度如何？HinDriod现在还有哪些函待解决的问题？

叶艳芳：HinDriod主要是基于HIN，然后用multi-kernel的架构来集成不同的similarity measures来构建识别能力更强的分类器。HIN本身对于高维的海量数据存在一些拓展性的问题，现在也已经有很多的工作在尝试解决这个问题，比如说用矩阵分解或者graph embedding的方法。

AI 科技评论：在安全领域，总的来说还有哪些重大的问题？深度学习近年来在数据挖掘的作用越来越突出，那么它能同样在安全领域中发挥巨大作用吗？

叶艳芳：这是一个很棒的问题。不管其他领域（比如AI）有多火、能火多久，目前来看，安全或者说对抗性的问题和研究会一直存在和被需要；就像警察跟小偷的博弈一样，我觉得这个问题很有趣。这也是我为什么在这个领域做了这么多年，而且越做越有兴趣、一直能够保持很高的热情的原因。安全的对抗问题是是一个evolving的问题，我在这个领域里做了十多年，觉得非常有意思；在这么一个对抗的过程重，道高一尺魔高一丈，总有很好玩、很新、很challenging的问题。

我和我的团队最近也在致力于一个项目：目前不论是网络的攻或防，即使是从特征码查杀时代升级到了云时代应用各种机器学习的模型进行检测及相对于的adversarial machine learning，这些攻击和对抗还都主要是人跟人之间对抗；随着AI、深度学习的发展，尤其是AlphaGo Zero带来的breakthrough，我认为未来的恶意软件攻防亦或是网络安全攻防应该是机器跟机器之间对抗（AI-vs-AI competence）。这是非常有意思，也有挑战的一件事。以前在电影或者是电视当中看的黑客帝国，或者“超级黑客”好像离现实蛮远的，但我觉得在不久的将来是一个现实。我们最近正在致力于这方面的前瞻性研究，争取实现安全领域的“AlphaGo Zero”！

关于学术生活

AI 科技评论：您加入西弗吉尼亚大学（WVU）之前在业界工作了大约六七年，那您从业界来到大学的原因是什么？您觉得您在业界和大学做的事情有多大的区别？

叶艳芳：我是在国内拿的博士学位，在我做博士期间就已经入职金山互联网安全公司担任技术副总监。我博士毕业以后，到了总部在美国新泽西的Comodo 安全公司担任首席科学家，负责他们北京的公司和美国的一些研发。

关于我为什么从工业界到到学术界：从个人方面讲是我想尝试一下不同的lifestyle；从研究上面来讲，工业界的节奏特别快，更多受产品发布驱动，所以一定时间或程度上可能就没有luxury对某个自己特别感兴趣的领域做更深入、更基础性、或者更前瞻性的研究。如果你要负责几个产品、有几项业务的话，也许你的时间和商业竞争的形势都不太允许自己“沉淀下来做一些前瞻性的研究”。比如说明天要发一个版本，那这个版本相关的许多事情都要处理、有很多东西要去打磨、要花很多时间管理和沟通。如果你自己想要做一些整个领域的前瞻性和发展性的研究的话，需要有一个比较完整、比较长的时间。工业界跟学术界的侧重毕竟会稍微不一样。不过现在工业界也有不少这样的机会，比如最近阿里提出来的达摩院。

AI 科技评论：您在中国的金山和美国的Comodo都工作过，您觉得两国的企业对安全研究的思路和方法区别大吗？

叶艳芳：中美的安全形势和背景不太一样。打个比方吧，在中国盗版比较多，容忍度也比较高；但在美国这边的话，做盗版的代价非常大。

根据我在工业界工作的那几年来说：当时中国2C端的安全强调的更多；美国的话，尤其是我工作的这个公司，它更多的是针对2B端的业务。那么做2C的安全和2B的安全，侧重点和总体思路差别还是很大的，在研究方法和侧重上面也会有比较大的不同。比如说2C端特别强调小步快跑，允许试错，从用户的反馈当中改进产品方案和研究方向；那2B的话，放出去给企业用的东西就要强调版本的稳定性和健壮性，最终提出来的安全解决方案会有比较大的不一样。

AI 科技评论：在机器学习/深度学习的热潮中，您对自己、对所带的学生和广大的中国学生有何期待？

叶艳芳：我觉得作为导师、作为教授的话，我们的责任之一就是必须要能够站得比较高、站在整个领域和行业的高度上面，要有很好的vision，能够看到未来几年研究的方向在哪里，哪些是前瞻性的课题，哪些是有比较大影响力的工作，如何做才能够对整个行业有比较大的推动和改变。比如说我现在探索的一些课题就是自己觉得未来应该有比较大的开创性和前瞻性的研究。

我对我学生的期待就是，他/她能够在自己的研究方向上有“代表作”，能产生较大的影响力。举个例子来讲，我的两位开门弟子：一位叫候实夫，做恶意软件智能检测，就是Hindriod的第一作者，获得了今年KDD的最佳论文及最佳学生论文奖；另一位叫陈玲威，致力于对抗机器学习的研究，在这方面的工作也获得了认可并获得了IEEE EISIC 2017最佳论文奖。我对我学生的另一个要求，同时也是我对国内学生的一个期待，就是不要随大流，一定要坚持。不要每个东西都去试、都去做，要去坚持在一个领域里面扎根、发展。

AI 科技评论：您如何看待人工智能/机器学习的未来？发展速度/社会价值/能否完全替代原有技术/对人类就业的影响等层面上？

叶艳芳：随着互联网或物联网的发展，获取数据的便利性大大增加了；越来越多的领域（包括军用、民用、商用等等）都应用到了机器学习/数据挖掘方法或AI技术。对于AI或机器学习，我个人的观点是，我没有觉得这是一个威胁论或者是怎么样，因为可能这个技术的发展和推动反而会提升人的水平。比如，原来简单的重复性的工作可以被机器替代，那么这就迫使人类更进一步提升自己的水平，学习怎么来操纵这些东西，甚至在更高一个层面考虑怎么来更好的设计这些东西。社会在发展，科技在进步，人类到一定阶段也会有相应的进化。

（完）

叶艳芳博士的回答中不仅展现了她对安全领域的热忱和期待，也体现了她“要有前瞻性，也要有切实的研究成果”的学术风采。AI 科技评论后续会继续向大家介绍叶艳芳博士在安全领域的对抗机器学习方面的研究成果，同时也祝叶艳芳老师和她的学生们在未来的研究中继续带来大的突破！

生成对抗网络GAN在NLP领域有哪些应用？

————— AI 科技评论招人啦！ —————