机器能跟人类交流吗?能像人类一样理解文本吗?这是人类对人工智能最初的幻想。除了大家比较熟悉的感知智能(如图像识别、语音识别)、行动智能(如机器人)外,语言智能(如自然语言处理)也是人工智能的核心领域之一。
(“图灵测试”被公认为测试计算机是否具有智能的实验,在这个实验中,人和计算机的问答都是通过自然语言进行)
“理解自然语言”到目前为止还只是人类独有的特权,因此如果语言智能实现突破,将会推动整个人工智能体系的进步。
其中,指代理解(Coreference Resolution)又是语言智能的核心问题之一。
💡指代理解是机器理解自然语言的关键
一篇文章在进行过程中需要描述不同实体间的关系,实体串联起了文章各个句子的核心线索,因此做好指代理解是理解多句话和一篇文章的重点,也是更好地构造智能对话系统的基础——机器才能理解《诗经》中的“君子”从一见钟情到蠢蠢欲动到日思夜想的感情线索,你的Siri也才有可能不止于跟你一问一答地单句聊天,而是更好地懂你。
比如,想要理解《诗经·关雎》的这些语言描述了什么场景、传递了什么情感,首先要理解各个“之”指的是什么。在上图中,同种颜色标注的词语指向同一个实体,指代理解就是要让机器明白红色的“之”不是指“雎鸠”“君子”“参差荇菜”“左右”等其它对象或文本,而就是“窈窕淑女”;蓝色的“之”不是指“在河之洲”“君子”“窈窕淑女”等,而就是“参差荇菜”。
要是指代理解不给力,机器认为君子日思夜想的是关关和鸣的雎鸠,那故事的延续岂不就成了风流君子奏起琴瑟、敲起钟鼓来取悦那对雎鸠?指代理解问题的探索突破则可以使得机器对不同事物间的指代关系有更加明确的理解。
💡依图提出全新数据集探索指代理解问题
自然语言处理领域顶级会议 EMNLP 2018 不久前(10月31日-11月4日)在比利时布鲁塞尔落下帷幕,依图论文 PreCo: A Large-scale Dataset in Preschool Vocabulary for Coreference Resolution 被录用为Oral文章。在论文中,依图提出了一个全新数据集 PreCo,用于探索计算机语言学的核心问题之一——指代理解,并宣布对外开放该数据集。
相较于现有数据集,PreCo 更能体现实体表示等指代理解涉及的核心困难。其数据规模约为目前常用指代理解数据集 OntoNotes 的 10 倍,并标注出了所有无指代关联的名词短语。
(依图在 EMNLP 2018)
其实在 PreCo 之前,依图已经耕耘自然语言处理领域多年,并将技术应用于智能医疗辅助诊断等方面。如今开放全新数据集 PreCo 则是希望能够帮助更多研究者可以接触和使用开源的数据集进行开发,切实提升算法优化的验证效率,共同探索 AI 领域最有价值的技术问题。
探索的动机源于对智慧无限的好奇,对依图来说,PreCo 正是这种好奇推动下在自然语言处理领域的成果。愿与你分享这一份好奇。
PreCo开放地址:
https://preschool-lab.github.io/PreCo/
延伸阅读
中国每1亿人中有1个人跟你长得一模一样!以及,为啥是1亿人?
当视觉成为实现通用人工智能路径上最关键的一环时 | 依图德尔非聚集地