雷锋网按:近期由中国计算机学会(CCF)主办,雷锋网、香港中文大学(深圳)承办的全球人工智能与机器人峰会(CCF-GAIR)将于 6 月底在深圳举办,其中 哈尔滨工业大学刘挺教授 将担任自然语言处理专场主席。
雷锋网了解到,刘挺教授作为国内 NLP 方向的领军人物,其 Google Scholar 总引用率高达 8412 次,顶会论文总量世界排名第八。其所带领的哈工大社会计算与信息检索研究中心(HIT-SCIR)已然成为国内顶尖 NLP 研究机构之一,在 NLP 领域具有极高的影响力,推出了语言技术平台、大词林等一大批核心技术。此外,该中心先后培养出 200 多名学生,广泛分布于百度、腾讯、阿里、微软、讯飞等企业,为国内 NLP 的研究和落地贡献了有生力量。
近期,哈工大 SCIR 也动作频繁。进入 2018 年后,哈工大 SCIR 先后有近 20 篇论文被各大顶会录用;今年 2 月初,刘挺教授出任云孚科技首席科学家;5 月初,哈工大成立人工智能研究院,刘挺教授担任研究院副院长。
由此自然的问题是,作为全国顶尖的NLP研究重镇,SCIR 在做什么?他们有什么样的研究思路和规划?作为该中心的带头人,刘挺教授对 NLP 的研究前景有什么思考?对实验室的未来有何布局?在他看来,NLP 又该如何做研究?
雷锋网藉此 CCF-GAIR 大会的机会有幸针对这些疑问对刘挺教授进行了专访,深入探究了哈工大 SCIR 发展的基本理念以及刘挺教授对相关问题的思考。其大的思想格局无论是对 NLP 研究的资深学者还是对初步入这一领域的学生都有极大的参考价值。
下面为雷锋网根据采访内容整理而成,在不改变原意的情况下略有改动,以飨读者。
刘挺,哈尔滨工业大学教授,哈尔滨工业大学人工智能学院副院长,计算机学院社会计算与信息检索研究中心主任,云孚科技首席科学家。哈工大人工智能与中文信息处理方向带头人,主要研究方向为自然语言处理和社会计算;国家“万人计划”科技创新领军人才;中国计算机学会理事、中国中文信息学会常务理事,多次担任国家863重点项目总体组专家、基金委会评专家;主持研制“语言技术平台LTP”、“大词林”等,被业界广泛使用;曾获国家科技进步二等奖、省科技进步一等奖、钱伟长中文信息处理科学技术一等奖等;2012-2017年NLP顶级会议论文数,世界排名第8(据剑桥大学统计)。
刘挺:作为大学里的实验室,我们始终把人才培养和学术研究放在最重要的位置上,过去如此,未来也将如此。2018 年,到目前为止,我实验室已经有 12 篇论文被顶级国际会议(CCF A 类)录取,包括 5 篇 IJCAI,4 篇 AAAI 和 3 篇 ACL,另有 8 篇论文被重要国际会议录取,包括 6 篇 Coling 和 2 篇 NAACL。
哈工大被誉为培养「工程师的摇篮」,我们实验室一贯重视学术界与工业界的无缝对接,致力于做出「顶天立地」的科研成果。为了更好地推进成果转化,实现「以中文技术,助民族复兴」的理想,2018 年 2 月,我们正式与云孚科技(北京)有限公司开启全面深入的合作,我本人兼任了该公司的首席科学家,不过,我的工作重心仍然在学校,在学术界。
刘挺:最近一年多,在原有工作基础上,我们在科研和系统开发方面又有了很多进展。我介绍两个最有代表性的工作吧,一个是事理图谱,一个是对话技术平台(DTP)。
我们原创性地提出了事理图谱的概念。事理图谱是一个事理逻辑知识库,描述事件之间的演化规律和模式。举例说明:一个人买房子,买完房子下一步就是装修,装修完了就会买家具,这是顺承关系链。再举一例:汽油价格上涨会导致航空公司成本提高,利润下降,以至于股票价格下跌,这是因果关系链。
知识图谱的研究对象为名词性实体及其关系,而事理图谱的研究对象是谓词性事件及其关系。知识图谱主要知识形式是实体属性和关系,事理图谱则是事理逻辑关系以及概率转移信息。实体之间的关系基本是稳定的,而事件间的演化关系多数是不确定的。事理图谱概念是对知识图谱概念自然地补充和拓展,是知识描述的一个更高级的阶段,符合产业界的客观需求。
所以,事理图谱的概念一经提出,就得到了业界的认可。我们在事理图谱方面的研究工作发表在顶级国际会议 WSDM2017 和 IJCAI2018 上面,同时,我们还在开发出金融领域事理图谱,该事理图谱包含了 1,542,516 个事件节点以及 1,873,140 条因果边。未来我们一方面还会在事理图谱的研究方向上深耕细作,同时,也会不断扩展事理图谱的应用场景,例如在医疗、司法等领域构建事理图谱。
DTP(Dialog Technology Platform,对话技术平台)是搭载了我中心多年积累的自然语言处理(NLP)和人工智能(AI)技术,专为开发者打造的中文对话机器人搭建平台。开发者可以通过 DTP 轻松赋予自身产品智能对话交互的能力,这大大降低了开发对话机器人的技术门槛,并提高了开发效率。DTP 给开发者提供了语义理解模块和对话管理模块的算法黑箱,开发者不需要了解构建对话系统的复杂模型,只要上传一定量的语料和定义系统所需要的各种特定参数和规则,就可以创建出一个用来完成特定意图功能的任务型对话系统。通过借助 DTP 提供的云服务,开发者无需亲自掌握 NLP、AI 等技术,只要基于 DTP 的会话 API 即可在多种终端(网站、移动 APP、智能硬件)中构建自己的智能会话机器人界面。DTP 测试版地址是:http://dtp-cloud.cn,欢迎学界和工业界的同仁试用。
刘挺:哈工大是一个典型的工科大学,哈工大 SCIR 的研究工作既不是纯理论的,也不是工程性的,而是应用基础研究,这是我们对自己研究工作的一个基本定位。我们一方面密切关注机器学习、脑认知等更基础的研究领域的前沿进展,另一方面通过与企业界的合作深入了解企业的真实需求,尤其是具有前瞻性的技术需求,然后综合这两方面的因素,确定我们的科研选题。按照这个定位,我们是不去碰与语言无关的纯机器学习问题的,同时也避免承担企业马上就要求解决而且的确通过工程手段有可能解决的问题。
我们在研究中有几个自己的特点:
1. 化繁为简
我们比较注重问题描述和解决方案的简单性。2000 年我们实验室刚成立不久,就开展了句法分析的研究工作,当时国内外多数人都在做短语结构文法,少数人做依存文法,依存文法直接反映出句子中词间关系,不需要一套再另外搞一套非终结符号,因此从简单性原则出发我们选择了依存文法。多年过后,依存文法成为学术界的主流。在语言知识库方面,我们选择了《同义词词林》体系,并扩展为《大词林》,词林与其他一些中文语言知识库相比,具有简单性的特点,便于理解、扩展和应用推广。
2. 尊重实际
我们只尊重实际,不迷信外国的东西,尤其是我们搞的是中文处理,尤其需要尊重中文的实际情况。我们认为英文重形合,中文重意合,因此中文分析不要在句法层面一直纠缠,而是可以跳过句法层面直接做语义,为此我们一直在推动中文语义依存技术的发展,并深信在语义分析阶段,中文的技术指标将赶上英文。
3. 强调动手
我们实验室每个研究生毕业时,都不只是有论文,而且要有演示系统。我们非常鼓励学生们自己动手把想法实现出来,既便于激发自己的探索兴趣,又可以发现真实问题,还能够方便地对外展示,获得外界的反馈意见,一举多得。最典型的是我们研制的语言技术平台 LTP,从学生们自己做的演示系统,发展为中文处理领域一个重要的开源开放基础平台。
4. 拓展式创新
从句法依存分析到语义依存分析,是从句法形式场面深入到语义内容层面;从知识图谱到事理图谱,是从以名词概念为核心进入到以抽象事件为核心;从《同义词词林(扩展版)》到《大词林》,是从人工构建语言知识库到自动构建语言知识库。我们遵循技术发展内在的逻辑脉络进行创新,这样的创新更有根基,更易持续。
刘挺:我中心研究方向总体规划为句子级 NLP、人机对话、篇章级 NLP 以及社会计算四大研究方向。这四大研究方向又可以细分成七个研究小组。分别是
语言分析组,主要研究句法分析、语义分析、任务型对话、文本顺滑。
问答系统组,主要研究深度问答和客服机器人。
对话机器人组,主要研究对话机器人和营销机器人。
阅读理解组,主要研究阅读理解、篇章语义、信息抽取、大词林。
文本生成组,主要研究作文生成、新闻写作、公文写作。
情感分析组,主要研究倾向性分析、观点分析、情绪分析、情感对话。
社会预测组,主要研究消费意图挖掘、事理图谱和股市预测。
这几大研究方向的选择也对应着我中心对 NLP 未来发展趋势的布局。从 NLP 的底层基础研究到上层应用,我们都有对应的老师及学生从事相关科研工作。目前,我实验室在校师生已近超过百人,而且仍然是一个紧密合作的整体,而不是松散的组合,所以,我们能够有效地把师生组织到不同的方向上去,并让做不同方向的研究组可以相互配合。
刘挺:首先我们来回顾一下,去年我提出的十个 NLP 发展趋势分别是:
趋势 1:语义表示——从符号表示到分布表示;
趋势 2:学习模式——从浅层学习到深度学习;
趋势 3:NLP 平台化——从封闭走向开放;
趋势 4:语言知识——从人工构建到自动构建;
趋势 5:对话机器人——从通用到场景化;
趋势 6:文本理解与推理——从浅层分析向深度理解迈进;
趋势 7:文本情感分析——从事实性文本到情感文本;
趋势 8:社会媒体处理——从传统媒体到社交媒体;
趋势 9:文本生成——从规范文本到自由文本;
趋势 10:NLP+行业——与领域深度结合,为行业创造价值。
从今年的发展来看,NLP 的十个发展趋势都一一印证,并且还将在一段时间内持续。
刘挺:我中心在这十个方向上都有所布局。首先 语义的分布式表示 以及 深度学习方法 已经成为 NLP 领域的主流研究方法。今年我们又推出了 对话技术平台(DTP) 来帮助开发者快速地构建自己的智能会话机器人。在大词林的基础上,我们提出了事理图谱的概念并自动化构建了金融和出行两个领域的事理图谱。我们的对话机器人「笨笨」也在多个不同的场景下得到了应用,例如在用户购物前的导购环节,通过对用户消费意图的准确判断,进而推荐更合乎用户需求的产品。我们与讯飞的联合实验室在机器阅读理解领域权威评测大赛 SQuAD 连续三次夺得第一名。
情感分析一直是我中心的重点研究方向之一,去年我们又获得了一项国家自然科学基金重点项目「社交媒体中的文本情感语义计算理论与方法」。文本生成目前我们重点在作文生成以及根据结构化的数据生成描述性的文本。最后,我们在 NLP+司法、NLP+教育两个领域都在与科大讯飞公司紧密合作,在 NLP+金融方向也积累了多年的经验,已经研制出智能投顾演示系统,最近我们启动了 NLP+医疗的相关研究工作。
刘挺:我认同这种观点。微软全球执行副总裁沈向洋也在公开演讲时说:「懂语言者得天下……下一个十年,人工智能的突破在自然语言的理解……人工智能对人类影响最为深刻的就是自然语言方面」。深度网络之父 Geoffrey Hinton 说:「深度学习的下一个大的进展应该是让神经网络真正理解文档的内容」。
但是,我们也要清醒的看到,自然语言处理技术产业化还有很长的路要走。自然语言处理的技术难度大,应用场景复杂。计算机视觉的物体识别准确度可以达到 90% 以上,甚至接近百分之百,这对于安防及身份认证等领域来讲足以将其落地成实际应用的产品。
然而要真正理解一篇文本的内容非常难,科幻影片中那种通用的人机对话机器人短期内还无法研制出来,机器翻译对于结构或背景复杂的句子仍然翻译不准,这也是目前自然语言处理产业化的最大阻碍。前段时间就有文章讨论过为什么自然语言处理领域很难出现「独角兽」,主要原因可以归纳为两点:一是自然语言处理技术没有达到计算机视觉技术那么高的准确率,二是没有找到合适的商业模式将自然语言处理技术落地,人们习惯了免费的自然语言处理技术,对付付费模式就很难接受,例如付费的机器翻译软件就很少会有人用,但是付费的安防系统,我们几乎每天都在使用。
不过,我们也要看到自然语言处理技术与很多行业的结合可能会是自然语言处理产业化的一条新途径。2018 年 4 月 12 日,总理主持召开国务院常务会议,确定发展「互联网+医疗健康」措施,提高医疗服务效率,让患者少跑腿、更便利,是更多群众能分享优质医疗资源。医疗领域有大量的病历、医学文献等文本数据,自然语言处理技术可以在此基础上构建大规模医学知识图谱,并用于健康咨询和初步诊断。
刘挺:人机对话主要分成任务型对话和聊天。任务型对话方面:传统的任务型对话系统一般包含三个模块,语言理解、对话管理和语言生成。每个模块往往独立实现,并需要针对不同的领域进行设计和标注大量的数据,不利于系统的迁移。为解决此问题,最近出现的一些端到端的任务型对话系统是一个有益的尝试,端到端的系统一般使用一个 seq2seq 模型,根据用户的输入,直接生成相应的回复,具有结构简单,便于移植的优点。
当然,由于任务型对话的特殊性,使用简单的 seq2seq 模型无法生成时效性、地点相关等回复,所以还需要辅以相应的知识库。因此,一些最新的研究集中于如何基于知识库,进行 seq2seq 的回复生成。这也是符号计算与神经计算相结合的一个典型案例。
机器人聊天或闲聊的功能,通常的作用是为了增加人机对话系统的用户粘性,增进人和机器之间的情感沟通,在一定的场景中,聊天机器人可以扮演倾诉对象和情感抚慰者的角色,聊天功能的完善,能够极大增加机器人的拟人属性的强度,因而聊天功能尽管「无用」,但却是人机对话系统的核心功能。
在过去的几年,聊天技术取得了较大的进展,从检索式到生成式再到两者的结合,从单轮到多轮的建模发展,从内容高度依赖模型主导的生成到内容可控的生成,从自由文本的学习到从结构化文本的学习,从深度学习到强化学习的对话建模,这些技术都在不断的发展。
2017 到 2018 这两年聊天技术的发展,还是有一些代表性的工作值得我们关注的,比如在聊天建模中考虑人的主观情绪,立场等反馈信号;以特定领域和话题为背景的受限主题的聊天;面向情感抚慰的包含特定情感的聊天等等。
我们一直认为评测是推动技术进步的重要途径,我们也一直坚持中文技术评测应该由中国人来推动,我们与科大讯飞、华为公司联手在 2017 年的全国社会媒体处理大会(SMP)上组织了首届中文人机对话技术评测,吸引了来自高校,大型互联网企业和创业公司的众多队伍报名参赛,评测非常成功,有力地促进了中文人机对话技术的交流,今年我们也将继续组织第二届SMP中文人机对话评测,同时,国际上对于人机对话的评测也开展的如火如荼,如 2017 年 NIPS 上的人机对话评测,亚马逊的 Alexa Prize 以及举办了很多届 DSTC 等,相信在技术评测的推动下,人机对话技术会持续的进步。
刘挺:在设计论坛议程上,首先我们要选择 NLP 最近的热点研究方向及话题来和大家分享,例如知识图谱、人机对话、情感分析等研究方向以及 NLP 如何产业化等热点话题。其次,由于 CCF-GAIR 是一次大同行的聚会,因此,我们不会在论坛中涉及到过多的 NLP 技术细节,这与顶级国际会议学术报告不同,本次论坛主要还是对 NLP 的发展历史做一个梳理同时探讨 NLP 的未来发展方向。最后,我们期望能够在论坛上探讨一些 NLP 与其他学科交叉的问题,例如,NLP 与医学、金融等领域的学科交叉是很有意义的研究方向。
刘挺:近年来 NLP 成为人工智能领域的一大热点,很多毕业生的工资也都随着水涨船高,但是我们也应该冷静的看到 NLP 技术还有很多瓶颈有待突破。我主要就如何选题谈几点我的见解。
1、 要有实际需求
一个课题必须有实际需求,可能是现实的需求,也可能是潜在的需求;可能是直接的需求,也可能是间接的需求,总之是的的确确被人们所需要的。举个反例,比如自动文摘,自动文摘是我的博士论文课题,但是实际应用需求始终不清楚,自动文摘的结果用于编辑出版,质量肯定无法保证,用于帮助人们快速浏览资料吧,搜索引擎提供的包含查询词的网页中的片段(Snippet)就起到了这个作用。因此,时至今日,站在作者角度给出的能够概括全文主旨的自动文摘技术到底用到哪里,仍然不清楚。
2、 有较大的未知空间
有些技术已经成熟,相关产品在市场上已经大面积应用了,在研究上就不宜再展开。
3、 与自己以往的工作有关联
如果你觉得自己的研究领域太窄,或者竞争对手太多,或者自己缺乏兴趣,则可以适当扩展研究方向,但最好是相关性地扩展,比如从自然语言处理(NLP)扩展到社会媒体计算,这种扩展是从底层技术到应用系统的扩展,很自然。如果跳跃性太大,和文本处理完全脱节,这种做法一方面无法发挥既有的技术积累,另一方面也让同行感觉你不够专注,不容易得到认可。
4、 有可能得到国家的支持
对于资深学者,他选定一个课题后,可以写出立项建议,去说服政府或军方支持他的工作,从而填补国家空白,成为国内这个方向的先驱。对于刚出道的年轻人,无力直接影响政府,那只有自己预先判定一个几年后可能成为热点的方向,先走一步,做出一些成绩来,等到大气候适宜的时候,由于他已经取得了一定的成果,也有可能被认可为这个领域的先行者,得到国家的支持。