AI 科技评论按:作为自然语言处理领域的顶级会议之一,EMNLP 2018 今日在比利时首都布鲁塞尔正式召开。10 月 31 日至 11 月 1 日为 Tutorial 及 Workshop 环节,正会从 11 月 2 日开始,11 月 4 日结束。为期五天的大会将包括 3 场 Keynote、6 场 Tutorial 以及 14 场 Workshop。去年,雷锋网 AI 科技评论第一时间为大家分享了论文录用情况、最佳论文解读。今年,会上的精彩内容也不容错过。以下便是今年的参会亮点。
亮点 1 :大咖云集
Keynote 是大会重头戏,今年有三场 Keynote,主讲人为 Johan Bos 、Julia Hirschberg 和 Gideon Mann。
Johan Bos 是来自荷兰格罗宁根大学的计算机语义学教授,他的演讲题目为《The Moment of Meaning and the Future of Computational Semantics》,他将在本次演讲中分享计算语义学在自然语言处理应用程序中所起的作用,他认为学界不应将眼光局限于语义分析,一旦中性语义表示可以用来描述推论,事情将变得非常有趣。届时他会以一个由正式语义表示构成、包含多语注释文本的语料库作为辅助说明。
Johan Bos
Julia Hirschberg 是哥伦比亚大学计算机科学系主任,她本次的演讲题目为《Truth or Lie? Spoken Indicators of Deception in Speech》,她会在演讲中分享一个通过口语检测来识别欺骗行为的方法。在这项研究工作中,分类器被置放于包含欺骗性语料与非欺骗性语料的语料库中进行训练,为了更好地区分真话和谎言,他们甚至运用了韵律声学、词汇学、人口统计和个性分析等手段进一步完善工具。他们进一步研究了基于性别、个性和母语的欺骗行为的差异,并将他们的系统与人类表现进行比较。他们还扩展研究,以识别可信的言语和不可信的言语中的特征,以及这些特征在听话者和说话者间的差异。
Julia Hirschberg
Gideon Mann 是彭博有限合伙企业(Bloomberg L.P.)的数据科学部门主管,他的演讲题目为《Understanding the News that Moves Markets》,他将在演讲中与大家回顾语言技术是如何让资本市场参与者快速对世界重大事件与突发商业事件做出响应的,接着他会分享 NLP 在金融应用方面的最新进展,以及新兴研究正在试图解决的一些问题。
Gideon Mann
今年的大会主席是来自美国犹他大学的 Ellen Riloff,她因为在 bootstrapping 和信息提取领域的工作而闻名。值得一提的是,苹果也将参加本届 EMNLP 大会,这是苹果首次以企业身份参加人工智能学术会议,届时他们会安排 NLP 专家在展台与参会者展开学术交流。
亮点 2 :熟悉的中国面孔
AI 科技评论发现今年有两场 Tutorial 出现国人身影,分别是 10 月 31 日早上由新加坡理工大学助理教授 Yue Zhang 主讲的《 NLP 联合模型》,以及 11 月 1 日下午由微软亚洲研究院武威与北京大学助理教授严睿主讲的《聊天机器人的深度学习模型》。
《NLP 联合模型》着重介绍当下 NLP 研究中热门的联合模型,该模型允许相关任务共享信息,避免错误传播,Yue Zhang 教授还将与大家回顾统计和神经模式的几个主要建模方法;《聊天机器人的深度学习模型》着重介绍聊天机器人对话模型的建模工作,总结分享开放型对话建模所面临的挑战、任务型对话模型与开放型对话建模的区别,以及开放型对话领域的一些最新建模方法。
领域主席方面,我们同样发现了来自中国高校与企业的身影,其中台湾大学的 Hsin-Hsi Chen 教授担任文本挖掘与信息检索领域主席;香港中文大学的 Kam-Fai Wong 教授担任社交媒体、计算社会科学与情感/观点分析领域主席;北京大学的万小军教授担任叙述、对话、总结、生成与多模态 NLP 领域主席;清华大学的刘洋副教授与腾讯AI lab 的涂兆鹏博士担任机器翻译与多语现象领域主席。
这也意味着,中国的学者与企业研究员将在 EMNLP 2018 中扮演关键的对话角色。
同样活跃的还有来自中国的企业赞助商。EMNLP 2018 赞助商分为6 个等级(钻石、铂金、黄金、白银、青铜、支持者),其中百度、京东为铂金赞助商,视源股份、依图科技、搜狗为黄金赞助商,华为与香侬科技为白银赞助商。共有7 家国内企业赞助了 EMNLP 2018。
EMNLP 2018 发放的官方手提袋
亮点 3:干货满满
Workshop 方面,除了多年延续下来的几场专题会外,今年还新增由由亚马逊公司赞助的《NLP神经网络的分析与阐释》 以及专注可验证知识提取的 《事实提取和验证》Workshop。
参会者在聚精会神听演讲
今年的获奖论文也已经公布,作为颁奖礼上最重磅的环节,大家可以与最佳长论文、最佳短论文、最佳资源论文作者交流经验,探讨学术。获奖论文具体信息如下:
最佳长论文
1)《Linguistically-Informed Self-Attention for Semantic Role Labeling》(用于语义角色标注的考虑语言学信息的自我注意力方法)
论文链接:http://cn.arxiv.org/abs/1804.08199
论文提出基于语言学的 self-attention(LISA),该神经网络模型将 multi-head self-attention 与多任务学习相结合,包括依赖解析、词性标注、谓词检测和语义角色标记。与先前需要大量预处理来准备语言特征的模型不同,LISA 可以仅使用原始的 token 对序列进行一次编码,来同时执行多个预测任务。
2)《Phrase-Based & Neural Unsupervised Machine Translation》(基于词语的、无监督神经网络的机器翻译)
论文链接:https://arxiv.org/abs/1804.07755
本文探讨了如何在只有大规模单语种语料库的情况下进行机器翻译,并提出了两个模型(变式):基于神经网络/基于短语。两个模型使用了精心设计的参数初始化、语言模型的降噪和基于迭代反向翻译的并行预料生成。模型的优势在于操作上更简单,同时具有更少的超参数。
最佳短论文
《How Much Reading Does Reading Comprehension Require? A Critical Investigation of Popular Benchmarks.》(阅读理解模型的阅读量需求?一项关于流行基准的批判性调研工作)
论文链接:https://arxiv.org/pdf/1808.04926.pdf
本文为 bAbI、SQuAD、CBT、CNN 和 Whodid-What 数据集建立了合理的基线模型,发现只带有问题或文章的模型一般有更好的表现。
最佳资源论文
《MultiWOZ - A Large-Scale Multi-Domain Wizard-of-Oz Dataset for Task-Oriented Dialogue Modelling》(MultiWOZ—面向任务型对话建模的大规模跨领域数据集)
论文链接:http://cn.arxiv.org/abs/1810.00278?context=cs.CL
尽管机器学习已是对话研究领域的关键场景,然而可用的数据规模依然很少,阻碍了该研究领域的进一步突破。为了解决这一问题,本文引入了 Multi-Domain Wizard-of-Oz 数据集(MultiWOZ)——这是一个涵盖多个领域和主题的书面对话标注数据集。
按照往年惯例,EMNLP 将在开幕式当日公布大会论文收录情况,从某些方面来说,这些信息也能反映自然语言处理领域的某种研究趋势,AI 科技评论将持续关注大会动态,为大家带来更多最新信息。