作者 | 智源社区&AI科技评论2020年10月30日—11月1日,“第十九届中国计算语言学大会” (The Nineteenth China National Conference on Computational Linguistics, CCL 2020)成功在线召开。本届会议由中国中文信息学会主办,海南大学承办,智源社区提供技术支持。 本次会议汇集了国内大多数自然语言处理领域的专家、学者、学生及从业人员,数万人同时在线观看,成为我国计算语言学领域的一次盛会,同时也是我国自然语言处理领域当前研究全貌的一次剪影。本次大会收到303篇投稿(中文204篇,英文99篇),录用109篇论文(中文74篇,英文35篇)。总体录用率35.97%,中文论文录用率36.27%,英文论文录用率35.35%。最终来自北京大学的李素建团队和来自中科院自动化研究所的赵军团队分别获得英文最佳论文,来自南京师范大学的周俊生团队和来自北京理工大学的慧慧团队获得中文最佳论文,另外来自北京语言大学的朱述承、刘鹏远等获得最佳海报奖,腾讯AI Lab获得最佳系统展示奖。本届会议共包含了 7 场特邀报告、4场前沿讲习班,并围绕会议论文、科研经验、前沿动态综述、系统平台展示进行了全方位的展示。 1
特邀报告
10月31日上午,由来自北京大学的陆俭明教授做开场报告《亟需解决好中文信息处理和汉语本体研究的接口问题》。陆俭明教授是汉语言学界的泰斗,在学界被誉为20世纪中国现代汉语语法研究八大家之一。他在报告中指出,如今NLP研究如火如荼,然而汉语本体的研究成果却没能在当下的人工智能研究中派上用场,其根本原因在于没有解决好中文信息处理与汉语本体研究的接口问题。这一方面导致汉语言学的“掉队”,另一方面也使得NLP中缺乏“语言知识”。因此他建议,汉语本体研究应当更多地关注中文信息处理的需求,从当下的注重“理论”思辨,转向深入句法语义等的研究。随后刘群教授围绕预训练模型做了主题为《预训练语言模型研究进展和趋势展望》的报告。刘群教授是华为诺亚方舟实验室语音语义首席科学家,曾获2019 年ACL最佳论文奖。刘群教授在报告中指出当前预训练语言模型的近期进展朝向五个方面发展,即更强大(大力出奇迹)、更小巧(压缩与加速)、更优秀(功能更多、性能更高、训练更快)、更聪明(外部知识融入)、更能干(跨界出圈)等。结合提到的这五个维度,刘群教授认为预训练语言模型的研究方兴未艾,未来还有无限的想象空间。此外,他还介绍了诺亚方舟实验室在NLP预训练模型方面的研究工作,包括哪吒(NEZHA)模型、BERT压缩三剑客(TinyBERT、DynaBERT、TernaryBERT)以及在多语言、解释、任意词序生成、融合知识、文本搜索等方面进行的预训练语言模型,基本是沿着五大维度进行开展。(Slides下载:https://liuquncn.github.io)10月31日晚,来自德国汉堡大学的张建伟教授,做了《跨模态学习的自适应、预测和交互》的主题报告。张建伟教授是德国汉堡大学多模态技术研究所所长,德国汉堡科学院院士,是机器人领域专家。在单一模态信息匮乏的情况下,其他模态的信息将在总体上增强系统的鲁棒性、适应性和预测性。张建伟教授在报告中,分析了目前人工智能在机器人领域的发展现状,通过“2.0机器人与2.0人类”的项目介绍了大脑启发式深度学习、多模态数据处理、图像信息的语言理解、人机协作中的跨模式感知和学习等技术。来自爱丁堡大学的Mirella Lapata教授,分享了其将NLP技术应用到电影分析(Movie Analysis)中的研究,主题报告为《What's This Movie About? Automatic Content Analysis and Summarization》。电影分析是许多任务的总称,包括自动解释、提取和总结电影的内容。Mirella 教授的研究根据编剧理论中的转折点等将电影生成形式化,并基于语言和视听信息,提出了一个图神经网络模型。Mirella指出,将荧幕剧本(screenplays)表示成(稀疏)图有助于提升可解释性。11月1日上午,清华大学施路平教授做了主题为《面向人工通用智能的类脑计算》的报告。施路平教授是清华大学类脑计算研究中心主任,其研制的全球首款异构融合类脑计算“天机芯”曾被作为封面文章发表在《Nature》期刊上。类脑计算,简单来说是借鉴人脑存储处理信息的方式发展、基于神经形态、面向通用人工智能的的新型计算技术,这种技术打破了传统“冯·诺依曼”架构,具有学习能力,且具有超低功耗。施路平教授详细介绍了该领域的最新进展,极大开拓了自然语言处理领域学者的视野。来自微软亚洲研究院的刘铁岩博士的报告主题为《四两拨千斤:实现高效的NLP模型预训练》。刘铁岩博士是微软亚洲研究院副院长,被公认为“排序学习”领域的代表人物,近年来他在深度学习、强化学习等方面也颇有建树,特别是最近研发的麻将AI Suphx火爆一时。报告中,刘铁岩博士介绍了他所带领的团队在NLP模型训练效率问题上的一些研究,他们分别从数据处理、模型结构、损失函数、优化算法等维度,将训练效率提升了一个数量级。德国达姆施塔特技术大学的Iryna Gurevych教授的报告为《Let’s Argue: Understanding and Generating Arguments》,即理解和生成论据。Iryna 教授是计算论据(computational argumentation)领域的创始人之一,曾担任ACL 2018大会的程序委员会主席。分析和生成论据,即使对于人类来说也是一件相当困难的事情,如何利用NLP技术来解决该问题具有极大的挑战性。Iryna在报告中完整阐述了这一领域的进展,特别是他们发起的ArgumenText 项目。由以上 7 场特邀报告可以看出,特邀嘉宾分别来自不同领域,研究主题与NLP研究或紧密或无关,这充分体现了CCL会议的深度性、前沿性和开放性。 2
论文收录&最佳论文奖
本届会议收录论文303篇,相比于2019年的371篇,出现大幅度下降,这很大程度是受疫情影响。从另一方面,本次会议收录论文在各个分领域的收录数量基本持平,NLP应用近两年增长迅速。论文录用率上,本年度无论是中文还是英文都保持在40%以下。本年度投稿论文来自108个大学和研究所,其中投稿最多的机构包括北京语言大学、苏州大学、清华大学、北京大学、新疆大学等,录用论文最多的机构前5名分别是北京语言大学、苏州大学、北京大学、清华大学和北京交通大学。此外,组委会对收录论文的主题进行词云分析,其中中文论文中“汉语”、“分析”、“方法”为关键词,二英文论文则以“Network”、“Multi”、“Chinese”、“Model”等为主。经由组委会评定,本届会议评选出4篇最佳论文(英文2篇,中文2篇)、1篇最佳海报奖、1项最佳系统展示奖。1. 最佳论文奖(1)“Towards Causal Explanation Detection with Pyramid Salient-Aware Network”, Xinyu Zuo, Yubo Chen, Kang Liu, Jun Zhao, 中国科学院自动化所
(2)“LiveQA: A Question Answering Dataset over Sports Live.” Qianying Liu, Sicong Jiang , Yizhong Wang and Sujian Li. 北京大学
刘群,华为诺亚方舟实验室语音语义首席科学家,负责语音和自然语言处理研究,研究方向主要是自然语言理解、语言模型、机器翻译、问答、对话等。他的研究成果包括汉语词语切分和词性标注系统、基于句法的统计机器翻译方法、篇章机器翻译、机器翻译评价方法等。刘群承担或参与过多项中国、爱尔兰和欧盟大型科研项目,在国际会议和期刊发表论文 300 余篇,被引用 10000 多次,培养国内外博士硕士毕业生 50 多人,获得过 Google Research Award、ACL Best Long Paper、钱伟长中文信息处理科学技术奖一等奖、国家科技进步二等奖等奖项。他曾任爱尔兰都柏林城市大学教授、爱尔兰 ADAPT 中心自然语言处理主题负责人、中国科学院计算技术研究所研究员、自然语言处理研究组负责人,分别在中国科学技术大学、中科院计算所、北京大学获得计算机学士、硕士和博士学位。