关于NLP研究，关于人工智能发展，干货在这……

2017 年 6 月 22 日 狗尾草智能科技 小白

今天，我们不谈娱乐，不谈风月，聊点儿带技术含量的。

IJCAI（国际人工智能联合学术会议）是人工智能领域的顶级学术会议，也是该领域内最具权威性、最为活跃的科学盛会,可谓人工智能界的奥林匹克。首届IJCAI大会追溯至1969年，此后逢奇数年举办。

——中科院自动化研究所

该会议自2016年起每年召开一次。今年落户澳大利亚墨尔本。

在刚刚过去的上周末，由中国人工智能学会与中文信息学会联合主办，Gowild智能科技赞助的首届“人工智能前沿技术研讨会暨 IJCAI 2017 论文报告会”在深圳圆满落幕。作为全球人工智能的旗舰会议，国内学者可谓收获颇丰，有多篇论文被IJCAI录用。在会议召开之前，有幸邀请到这些论文的作者来做一次提前剧透，让不能参加IJCAI的吃瓜群众也有机会可以了解人工智能的各种热点和趋势。

据资料显示，来自香港科技大学、清华大学、北京大学、中科院、哈工大等境内外高校和腾讯、百度、华为、美的、招商银行等企业的研究生和科研人员 200 余人参加了论文报告会。

报告精彩纷呈。而我们看到，无论是社交关系的抽取，主体关联的情感分类，基于目标注意力的立场检测，基于医疗论坛上下文的表示学习，还是远距离监督关系抽取，都体现了更加具体的学习任务的细分。在模型的层面，多位报告人通过在传统深度学习模型中添加不同的优化方法，形成包括对生成式对抗网络的改进，以及深度记忆网络的改进等。

重要的是，本次报告会还有两个来自工业界的重量级报告，包括腾讯公司张玥博士，对多任务学习在智能客服领域的应用进行了描述，并给出了利用不同辅助任务的方法；来自Gowild智能科技有限公司的王昊奋博士，结合聊天机器人的具体应用，阐述了聊天机器人的发展、技术现状和知识图谱的应用，并分享了聊天机器人技术发展所面临的机遇和挑战。

腾讯：张玥博士

Gowild智能科技：王昊奋博士

总的来看，深度学习仍然比较火热，其触角正在伸向更加细致的任务分类和结合其他优化方法的组合型算法。只有少数报告是在经典方法上做改进，包括东北大学肖桐教授给出的神经语言模型上的快速平行训练算法。

以下，我们就对其中一些工作做简单的介绍。

【1】

Conditional Generative Adversarial Networks for Commonsense Machine Comprehension

来自中科院自动化研究所的Bingning Wang 介绍了他们利用条件生成对抗网络（GAN）做常识理解的工作。在Story Cloze Test数据集上，训练数据大多是无监督的，也就是说，一段文档后面，只给出了一个正例答案，而并没有任何的负例答案。为了解决这个问题，王博士团队提出了条件GAN方法，利用生成器去生成负例答案。有别于图像语音场景中使用训练后的生成器（Generator）来生成更逼真图像或合成的语音，这个工作利用训练得到的判别器（Discriminator）来预测答案，取得了不错的效果。

【2】

Interactive Attention Networks for Aspect-Level Sentiment Classification

来自北京大学的Dehong Ma博士，介绍了他们在情感分类问题上所做的工作。一般的情感分类算法，先将句子中的主体识别出来，然后根据上下文判断整体句子的情感，而忽略了每一个主体所对应的情感。

比如说，在评论一个餐馆的句子里，可能包含多个主体，包括就餐环境、工作人员态度、食物质量和味道等。Ma博士团队提出的算法，可以从上下文中提取不同的主体，并且针对每个主体做情感的判断。实验数据也证明了算法的有效性。

【3】

Learning Sentence Representation with Guidance of Human Attention

现有的一些模型中，认为句子里的所有单词重要程度是一样的。但在实际应用中，人们在读句子的时候会对句子中每个词有不同的关注程度。

来自中科院自动化所的王博士，提出了一种结合人的注意力机制的句子表示算法，算法中会对句子中的每个单词赋予不同的权重，取得了比较良好的效果。这项工作的亮点在于结合眼动实验（Eye-tracking）的数据来指导注意力机制的设计和注意力的学习，进而更好的学习句子的语义表示。

【4】

ContextCare:

Incorporating Contextual Information Networks to Representation Learning on Medical Forum Data

人工智能越来越多地参与医疗辅助领域。通常来说，人们获取医疗信息的来源有两种，分别是搜索引擎和诊疗论坛。如何将不同来源的这些疾病和诊疗方法关联起来，就成为一个很重要的问题。

比如说“睡眠差”和“睡觉非常不好”其实是代表同一种症状，因此，来自于哈尔滨工业大学的Sendong Zhao博士，提出了利用关联内容的学习算法，从而做到疾病和诊疗方法有较好的匹配。

【5】

Stance Classification with Target-specific Neural Attention

同样来自哈尔滨工业大学的Jiachen Du博士，介绍了他们基于立场目标注意力的神经网络模型。

所谓立场检测任务，就是给定立场目标的前提下，分析文本表达的立场倾向性，比如说“二胎了，小伙伴替我想个好名字”，表达对于“二胎政策”的立场就是“支持”。但是，文本立场倾向性依赖于文本情感表达和给定立场目标两个因素，给定的立场目标不一定会出现在文本中，而且通常与文本讨论情感对象之间关系较弱。因此，作者提出的基于立场目标注意力的神经网络模型，就很好地考虑到了立场对象对立场检测任务的重要性，在中英文数据集上均表现优异。