自然语言处理顶会EMNLP最佳论文3项出炉：Facebook智能体创造“语言”获奖

2017 年 8 月 18 日 新智元

1新智元报道

作者：胡祥杰刘小芹

【新智元导读】 EMNLP刚刚公布了本年度的最佳论文归属，其中被评为最佳长论文之一的《男人也爱购物：用语料库级别约束减少性别偏见的扩大》探讨对数据库的控制可以如何提升模型的准确性。另外，Facebook的关于智能体对话创造新语言的研究拿下最佳短论文。

即将于2017年9月7日至11日在丹麦哥本哈根举行的自然语言处理国际顶级会议 EMNLP （Conference on Empirical Methods in Natural Language Processing）官方Facebook主页日前公布了2017年的最佳论文名单：

EMNLP 通常评选三个论文奖项：最近长论文、最佳短论文和最佳资源论文。

最佳长论文 2 篇：1. Men Also Like Shopping: Reducing Gender Bias Amplification using Corpus-level Constraints https://arxiv.org/abs/1707.09457 ； 2. Depression and Self-Harm Risk Assessment in Online Forums。
最佳短论文： Natural Language Does Not Emerge ‘Naturally’ in Multi-Agent Dialog. https://arxiv.org/abs/1706.08502
最佳资源论文: Bringing Structure into Summaries: Crowdsourcing a Benchmark Corpus of Concept Maps. https://arxiv.org/abs/1704.04452

本届大会概况：提交论文多了40%，但是录取率依然控制在20%左右

本年度的EMNLP大会包含三场主旨演讲，15个workshop和7个讲座。

三场主旨演讲：

1. 斯坦福大学 Dan Jurafsky《 "Does This Vehicle Belong to You”?

Processing the Language of Policing for Improving Police-Community Relations》

Dan Jurafsky 是斯坦福大学语言学系主任和教授，也是计算机科学系教授。他的研究重点是提取文字和言语的意义，意图和影响，中文处理，以及将自然语言处理应用于认知和社会科学。Dan对NLP教育的深切兴趣促使他与Jim Martin共同撰写了一部被广泛使用的教科书《自然语言处理综论》（Speech and Language Processing），并与Chris Manning共同主讲自然语言处理方面的第一个MOOC课程。Dan是2002年麦克阿瑟奖的获得者，他由于著作《餐桌上的语言学家：从菜单看全球饮食文化史》获得2015年詹姆斯‧比尔德奖提名。

2. 爱丁堡大学Sharon Goldwater：《 Towards more universal language technology: unsupervised learning from speech》

Sharon Goldwater 是爱丁堡大学信息学院准教授，曾在语言、认知与计算研究所任职。她于2007年从布朗大学获得博士学位，并在斯坦福大学攻读博士后两年，之后加入爱丁堡大学。她的研究兴趣包括语言和语言处理中的无监督学习，儿童语言习得的计算机建模和语言使用的计算研究。 Goldwater 博士共同主持了2014年计算语言学协会欧洲分会会议，并当选EACL主席。她曾在计算语言学协会，计算语言学杂志和OPEN MIND：认知科学进展（一本新的开放获取期刊）的交流委员会任职。2016年，她获得了英国计算机学会的Roger Needham奖。

3.谷歌 DeepMind Nando de Freitas：《Physical simulation, learning and language》

讲者：Nando de Freitas

以下是Nando de Freitas的自我介绍：

我出生于津巴布韦，曾患疟疾。我是莫桑比克战争的难民，感谢我的父母借债从腐败的官员那里帮我买了护照。我在葡萄牙长大，没有水和电，也没父母陪伴，他们都忙着赚钱偿还债务。 8岁，我到委内瑞拉和父母生活在一起，开始上学，并见到了上帝之城。高中毕业后，我搬到南非，在黑色乡镇非法出卖啤酒，直到1991年。种族隔离是我经历过的最糟糕的事情。我在威特沃特斯兰德大学获得电气工程理学学士学位和硕士学位，在那里我努力向种族主义者证明任何人都可以成为最好的学生。

随后，我在剑桥大学三一学院获得贝叶斯神经网络的博士学位，在伯克利加州大学获得博士后学位。我曾在不列颠哥伦比亚大学担任全职教授，之后于2013年加入牛津大学。我于2017年离开牛津大学，全职加入DeepMind，在那里我领导机器学习团队。我的目标是解决机器智能问题，让后代有更美好的生活。

我曾长期担任加拿大高级研究所高级研究员。我最近的一些奖项，主要得益于我的合作者，包括： ICML 2016 的最佳论文奖，ICLR 2016的最佳论文奖，IJCAI2013年杰出论文奖，Charles A. McDowell 优秀研究奖（2012年）和信息技术与复杂系统数学青年研究员奖（2010年）。

本年度，EMNLP 提交论文总数1509篇，比去年提升了40%。审阅论文1418篇（836篇长论文，582篇短论文），总共收录了323篇论文（长论文216篇，接受率25.8%，短论文107篇，接受率18.4%）。

有51位领域主席，980名审稿人。51名领域主席名单：David Bamman, Mohit Bansal, Roberto Basili, Chris Biemann,Jordan Boyd-Graber, Marine Carpuat, Joyce Chai, David Chiang, Jinho Choi, Jennifer Chu-Carroll, Trevor Cohn, Cristian Danescu-Niculescu-Mizil, Dipanjan Das, Hal Daume, Mona Diab, Mark Dredze, Jacob Eisenstein, Sanja Fidler, Alona Fyshe, DanGildea, Ed Grefenstette, Hannaneh Hajishirzi, Julia Hockenmaier, Kentaro Inui, Jing Jiang（新加坡管理大学）, Philipp Koehn, Mamoru Komachi, Anna Korhonen, Tom Kwiatkowski, GinaLevow, Bing Liu（伊利诺伊大学芝加哥分校）, Nitin Madnani, Mausam, Rada Mihalcea, Marie-Francine Moens,Saif M. Mohammad, Mari Ostendorf, Sameer Pradhan, Alexander Rush, Anoop Sarkar,William Schuler, Hinrich Schütze, Sameer Singh, Thamar Solorio, Vivek Srikumar, Amanda Stent, Tomek Strzalkowski, Mihai Surdeanu, Andreas Vlachos, Scott Wen-tau Yih, Zhang Yue（新加坡科技设计大学）。

最佳论文解读：Facebook智能体“对话产生语言”的研究获奖

先来看下这四篇有趣又干货满满的论文

第一篇最佳长论文：《男人也爱购物：用语料库级别的约束减少性别偏见的扩大》，作者是弗吉尼亚大学和华盛顿大学的 Jieyu Zhao，Tianlu Wang，Mark Yatskar，Vicente Ordonez和 Kai-Wei Chang。

【摘要】配合来自网页上的图片集，语言正越来越多地被用于定义大量的视觉识别难题。在这些任务中，结构化预测模型被使用，以利用利用共同标签与视觉输入之间的相关性，但是这种方法会无意识地将网络语料库中存在的偏见也进行编码。

在这项工作中，我们研究了与多标签对象分类和视觉语义角色标签相关联的数据和模型。我们发现（a）这些任务的数据集包含明显的性别偏差，（b）基于这些数据集训练的模型进一步放大了现有的偏差。

例如，在训练数据集中，烹饪行为涉及女性的可能性比男性高33％，而训练好的模型在测试时会进一步将差异放大到68％。

我们建议加入语料库级别的约束，用于校准现有结构化预测模型，并设计一种基于拉格朗日松弛（ Lagrangian relaxation）的算法进行集体推理。

我们的方法在潜在的识别任务中，几乎不会导致任何性能的损失，同时分别将多重标签分类和视觉语义角色标记中的偏差放大幅度分别降低了47.5％和40.5％。

第二篇最佳长论文：《在线论坛中的抑郁与自我危害风险评估》。作者：Andrew Yates, Arman Cohan 和 Nazli Goharian。（目前还没有公开论文细节）

最佳短论文：《多智能体对话中，自然语言的出现并不那么“自然”》作者包括来自卡耐基梅隆、弗吉尼亚理工大学、佐治亚理工大学和Facebook AI 研究院的 Satwik Kottur， José M.F. Moura， Stefan Lee和 Dhruv Batra 。

【摘要】最近的一些工作声称已经提出了在多智能体合作中用于端到端交流的通信协议的技术，同时，他们在智能体自己发展出来的协议中（这些协议都是智能体在没有人类监督的情况下自学习得到的），也发现了基于人的可解释语言的基础。

在本文中，通过使用两个智能体间的Task＆Talk参考游戏作为测试平台，我们提出了一系列“负面”结果，最终导致“积极”的结果，表明大多数智能体发明的语言都是有效的（即，获得近完美的任务奖励），但是他们肯定是不能解释或解构。实质上，我们发现自然语言不会自然而然地出现，尽管在近期的一些文献中，你可能会查到有人称自然语言出现是很容易的。

在研究中，我们讨论了如何通过增加对两个智能体可能沟通的限制条件，来将它们发明的语言来变得越来越人性化和结构化。

最佳资源论文：《将结构带入概括：众包概念地图基准语料库》。作者是达姆施塔特工业大学的Tobias Falke 和 Iryna Gurevych。

【摘要】抽象概念图可用于简明扼要地表示重要信息，并将结构带入大型文档集合。因此，我们研究了以概念图形式生成摘要的多文档摘要的变体。但是，目前缺少适用于此任务的评估数据集。为了弥补这一差距，我们提出了一个新创建的概念图语料库，它总结了有关教育主题的多样文件集合。它是使用新颖的众包方法创建的，可以有效地确定大型文档集合中的重要元素。我们发布语料库以及基准系统和提出的评估方案，以便进一步研究这种概括变体。

全部接收论文汇总：http://emnlp2017.net/accepted-papers.html