如何用一句话证明你学过 NLP ?

2020 年 4 月 2 日 THU数据派

来源:AI科技评论


本文约1299字,建议阅读3分钟

本文 介绍为语言的丰富常常会导致理解的歧义,对NLP研究带来了巨大的挑战,但微博为做自然语言处理的人提供了一个交流乐趣的平台。


Time flies like an arrow.

时光苍蝇喜欢一支箭.

                                    

枯燥的研究中充满乐趣,对于做自然语言处理(NLP)的人来说更是如此。语言的丰富性常常会导致理解的歧义,这一方面为NLP研究带来了巨大的挑战,而同时也给这群乐在其中的NLPer 带来许多自我调侃的乐趣。

 

在日常生活中,这些NLPer 对于语言的敏感和“特殊癖好”常常难以向常人道,而微博则提供了一个平台,让这些共同爱好者欢快地交流彼此的乐趣。

 

我国著名NLP学者刘群教授(目前担任华为诺亚方舟实验室语音语义首席科学家)便是这样一位真正热爱自然语言的学者,在微博中,他与清华刘知远副教授并为#自然语言理解太难了#的两位大咖。

emmm……,从微博名字就可以看出他们的喜爱

昨晚深夜,刘群教授在微博发了这样一个推送(如果关注他的微博会发现,这是常态)。
  

时蝇喜箭 or 时光如矢?
  
如何用一句话证明你学过 NLP?这引来大量 NLPers 的围观和自我调侃。如下截取部分:
 

解析:这个句子用来说明句法可以脱离语义独立存在;这个句子语法上没有任何问题,但意义上完全无法解释。(刘群)
 

解析:自然语言处理中最为经典的词类比:国王-男人+女人=皇后。出自2013年Tomas Mikolov发表的《Efficient estimation of word representations in vector space》。
 

解析:「Time flies like an arrow. Fruit flies like a banana.」是一个幽默说法,这是语言歧义的经典案例。「时间苍蝇喜欢箭,果蝇喜欢香蕉」

  

解析:
中国:我们 (的疫情) 快完了
欧洲:我们 (的国家/人民) 快完了
中国:我们 (的疫情状况) 好多了
欧洲:我们 (的病人数量) 好多了(冯志伟)
 
 
解析:[CLS]为BERT的第一个标志,而每句话结尾必须是[SEP]。
 

解析:NLP 课程上一个翻译的玩笑,how are you?怎么是你?how old are you?怎么老是你?(刘群)
 
 
解析:这女孩用望远镜看到那个男孩 or 这个女孩看到了那个带望远镜的男孩。经典句法歧义。
 
 
解析:在机器翻译研究的初期,人们经常举一个例子来说明机器翻译任务的艰巨性。在英语中“The spirit is willing but the flesh is weak.”,意思是“心有余而力不足”。但是当时的某个机器翻译系统将这句英文翻译到俄语,然后再翻译回英语的时候,却变成了“The Voltka is strong but the meat is rotten.”,意思是“伏特加酒是浓的,但肉却腐烂了”。从字面意义上看,“spirit”(烈性酒)与“Voltka”(伏特加)对译似无问题,而“flesh”和“meat”也都有肉的意思。那么这两句话在意义上为什么会南辕北辙呢?关键的问题就在于在翻译的过程中,机器翻译系统对于英语成语并无了解,仅仅是从字面上进行翻译,结果自然失之毫厘,差之千里。 (刘知远)
 
解析:emm,这个就不介绍了。 
…… ……
……
 
类似这样的内容,在刘群教授的微博经常会出现,他也以此为乐。

事实上,在微博上有一个最大的调侃聚集地,便是热门话题 #自然语言理解太难了#
 
 
这里面多是一些国内知名的自然语言处理大咖,例如刘群、马少平、邱锡鹏、陈博兴、王斌、者刘知远副教授等。
 
只有那些真正热爱自然语言的人才会时刻关注着生活当中语言的歧义与丰富。我们在此也列举最近几天在话题中的部分内容,可一窥这个聚集地的烧脑,
 
「3月8日,是老子的生日」
 
 
「这不是为了对手的保护,而是为了对手的保护」
 
 
「中国:我们这边快忙完了」
 
 
「咱们交交心」

 
回归原题,所以,你如何用一句话证明学过 NLP 呢?


——END——


登录查看更多
1

相关内容

刘群,华为诺亚方舟实验室语音语义首席科学家,负责语音和自然语言处理研究,研究方向主要是自然语言理解、语言模型、机器翻译、问答、对话等。他的研究成果包括汉语词语切分和词性标注系统、基于句法的统计机器翻译方法、篇章机器翻译、机器翻译评价方法等。刘群承担或参与过多项中国、爱尔兰和欧盟大型科研项目,在国际会议和期刊发表论文 300 余篇,被引用 10000 多次,培养国内外博士硕士毕业生 50 多人,获得过 Google Research Award、ACL Best Long Paper、钱伟长中文信息处理科学技术奖一等奖、国家科技进步二等奖等奖项。他曾任爱尔兰都柏林城市大学教授、爱尔兰 ADAPT 中心自然语言处理主题负责人、中国科学院计算技术研究所研究员、自然语言处理研究组负责人,分别在中国科学技术大学、中科院计算所、北京大学获得计算机学士、硕士和博士学位。
专知会员服务
142+阅读 · 2020年6月15日
斯坦福大学经典《自然语言处理cs224n》2020课件合集
专知会员服务
94+阅读 · 2020年5月25日
【ACL2020-复旦大学NLP】异构图神经网络的文档摘要提取
专知会员服务
34+阅读 · 2020年5月1日
深度学习自然语言处理概述,216页ppt,Jindřich Helcl
专知会员服务
209+阅读 · 2020年4月26日
深度学习自然语言处理概述,116页ppt,Jiří Materna
专知会员服务
78+阅读 · 2020年3月10日
BERT进展2019四篇必读论文
专知会员服务
65+阅读 · 2020年1月2日
【NLP】NLP未来发展趋势&ACL 2019回顾
产业智能官
5+阅读 · 2019年8月27日
NLP is hard! 自然语言处理太难了系列
AINLP
8+阅读 · 2019年1月24日
如何在NLP领域干成第一件事
AI100
6+阅读 · 2018年2月3日
干货 | 元旦,一起NLP!(上)
AI科技评论
4+阅读 · 2017年12月30日
深度 | 为什么要利用NLP做情感分析?
大数据文摘
4+阅读 · 2017年12月22日
独家 | 为什么要利用NLP做情感分析?
THU数据派
6+阅读 · 2017年12月19日
如何在NLP领域干成第一件事?
AI研习社
13+阅读 · 2017年11月26日
如何编写一个拼写纠错器?
Python开发者
4+阅读 · 2017年11月6日
Natural 自然语言处理(NLP)「全解析」
人工智能学家
14+阅读 · 2017年9月23日
How to Fine-Tune BERT for Text Classification?
Arxiv
13+阅读 · 2019年5月14日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
Arxiv
21+阅读 · 2018年8月30日
Doubly Attentive Transformer Machine Translation
Arxiv
4+阅读 · 2018年7月30日
Arxiv
5+阅读 · 2018年6月4日
Arxiv
27+阅读 · 2018年4月12日
Arxiv
5+阅读 · 2018年1月18日
VIP会员
相关资讯
【NLP】NLP未来发展趋势&ACL 2019回顾
产业智能官
5+阅读 · 2019年8月27日
NLP is hard! 自然语言处理太难了系列
AINLP
8+阅读 · 2019年1月24日
如何在NLP领域干成第一件事
AI100
6+阅读 · 2018年2月3日
干货 | 元旦,一起NLP!(上)
AI科技评论
4+阅读 · 2017年12月30日
深度 | 为什么要利用NLP做情感分析?
大数据文摘
4+阅读 · 2017年12月22日
独家 | 为什么要利用NLP做情感分析?
THU数据派
6+阅读 · 2017年12月19日
如何在NLP领域干成第一件事?
AI研习社
13+阅读 · 2017年11月26日
如何编写一个拼写纠错器?
Python开发者
4+阅读 · 2017年11月6日
Natural 自然语言处理(NLP)「全解析」
人工智能学家
14+阅读 · 2017年9月23日
相关论文
How to Fine-Tune BERT for Text Classification?
Arxiv
13+阅读 · 2019年5月14日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
Arxiv
21+阅读 · 2018年8月30日
Doubly Attentive Transformer Machine Translation
Arxiv
4+阅读 · 2018年7月30日
Arxiv
5+阅读 · 2018年6月4日
Arxiv
27+阅读 · 2018年4月12日
Arxiv
5+阅读 · 2018年1月18日
Top
微信扫码咨询专知VIP会员