学界 | 让计算机明白「天天」代表「每一天」之后,如何避免让它认为「爸爸」代表「每个爸」

2018 年 8 月 3 日 AI科技评论

AI 科技评论按:类比推理是反映语言规则的一种高效方式,本文将介绍一种汉语语言推理任务,论文作者来自北京师范大学和中国人民大学,论文题为:汉语形态语义关系的类比推理(论文地址:http://aclweb.org/anthology/P18-2023)。该论文在 ACL 2018大会上发表,相关资源在Github发布后获得了超过2000星好评。AI 科技评论将论文内容概括如下(感谢论文作者对本文的审核和修改)。

类比推理可以很好地刻画语言规则,举例说明,「人」等价于person,「人人」则等价于英文的 every person,那么如果「天」代表 day,我们就可以类比推理「天天」代表 every day。目前类比推理也是评估词嵌入的一个可靠方法。类比推理还可以用于词形转换、语义关系探测和翻译未知词等任务。但是不同语言之间拥有很大的形态差异,类比推理针对各个语言的研究也不尽相同。以汉语来说,汉语是公认的缺乏词形变化的分析性语言。目前汉语类比推理的相关工作也屈指可数,仅有的中文类比数据集也只是英文数据集的部分翻译,且数据规模较小,只包含 134个 中文词,并且不涉及到任何语法知识。因此,作者团队决定深入研究汉语类比推理,并且发布了一个标准 benchmark 用以评估中文词嵌入(地址见文末)。

在词法关系方面,作者主要研究了两个内容,一是重叠(Reduplication),二是半词缀(Semi-affixation)。所谓重叠就是词语中的部分汉字以一定的形式发生重叠,从而引起语法或语义差异,作者总结出六种重叠模式,如下图所示。

以 A-A 为例,对于汉语中的名词来说,这种结构可以表示“亲属关系”(爸->爸爸)或者表示“每一个”(天->天天),对于动词来说,这种结构可以表示动作时间短暂或尝试(看->看看),这种结构还能将形容词转为副词(深->深深)。

由于汉语缺乏典型的词缀,一些成分既发挥了类似词缀的作用同时又能当作独立使用的语素,这些成分按刘月华老师的观点称之为半词缀。目前作者团队总结了 21 个半前缀,和 41 个半后缀。例如,半前缀可以将数词变为序数词,如「第」(一->第一),半后缀还有将形容词名词化的能力,如「子」(胖->胖子)

在语义关系方面,作者团队从地理、历史、自然和人物四个方面提出了 28 种语义关系。举个地域方面的例子,「浙江」是省名,「浙」是「浙江」简称,「杭州」是「浙江」省会,「越剧」是「浙江」代表戏剧,这就是他们之间的语义关系。通过语义关系可以形成类比问题(如「皖」是「安徽」的省会,那么「浙」是哪个省的省会?)。

为了满足汉语类比推理任务的要求,作者团队自建了 CA8 数据集(共17813 个问题),包含大量的类比问题,对语法和语义都有涉及。CA8 相较于之前翻译自英文数据集的 CA_translated 有很大改进。如下图所示。

最后,作者的实验基于 68 种形态关系和 28 种语义关系,他们采用基于词向量的计算方法来挑战这个任务。实验结果表明,向量表示模型、上下文特征和训练语料库都对汉语类比推理有重要影响。同时实验也证明了 CA8 的确是评价汉语词嵌入的可靠 benchmark。 CA8 和同期发布的上百种中文词向量资源将成为汉语 NLP 任务的坚实基础。论文相关资源和代码在 Github 发布以来,已获得超过2000星,是今年NLP领域最受欢迎的项目之一。

以上就是 AI 科技评论对于这篇论文的全部介绍。

详情请查看论文:http://aclweb.org/anthology/P18-2023 

Github项目:https://github.com/Embedding/Chinese-Word-Vectors

想知道关于自然语言处理的更多知识?

欢迎点击“阅读原文”

或者移步 AI 研习社社区~

登录查看更多
0

相关内容

类比推理亦称“类推”。推理的一种形式。根据两个对象在某些属性上相同或相似,通过比较而推断出它们在其他属性上也相同的推理过程。它是从观察个别现象开始的,因而近似归纳推理。但它又不是由特殊到一般,而是由特殊到特殊,因而又不同于归纳推理。分完全类推和不完全类推两种形式。完全类推是两个或两类事物在进行比较的方面完全相同时的类推;不完全类推是两个或两类事物在进行比较的方面不完全相同时的类推。
还在修改博士论文?这份《博士论文写作技巧》为你指南
六篇 EMNLP 2019【图神经网络(GNN)+NLP】相关论文
专知会员服务
71+阅读 · 2019年11月3日
【书籍】深度学习框架:PyTorch入门与实践(附代码)
专知会员服务
164+阅读 · 2019年10月28日
周志华教授:如何做研究与写论文?
专知会员服务
154+阅读 · 2019年10月9日
一起来看看词性标注
AINLP
8+阅读 · 2019年4月9日
学界 | 跟着大神回顾ACL 2018:大会亮点一览
机器之心
4+阅读 · 2018年8月9日
Marcus十大理由质疑深度学习?LeCun说大部分错了
大数据文摘
4+阅读 · 2018年1月4日
473个模型试验告诉你文本分类中的最好编码方式
炼数成金订阅号
7+阅读 · 2017年8月17日
为什么不能和阿里巴巴好好说话呢?
创业邦杂志
3+阅读 · 2017年7月3日
S4Net: Single Stage Salient-Instance Segmentation
Arxiv
10+阅读 · 2019年4月10日
TensorMask: A Foundation for Dense Object Segmentation
Arxiv
10+阅读 · 2019年3月28日
Arxiv
3+阅读 · 2018年2月12日
Arxiv
5+阅读 · 2018年1月30日
Arxiv
7+阅读 · 2018年1月24日
Arxiv
27+阅读 · 2017年12月6日
VIP会员
相关VIP内容
相关资讯
相关论文
Top
微信扫码咨询专知VIP会员