干货 | 元旦,一起NLP!(上)

2017 年 12 月 30 日 AI科技评论 DA Techie

AI 科技评论按:本文作者田宇菲,本文首发于公众号紫冬青协(ID:asta201409),AI 科技评论授权转载。

第一部分 | NLP的诞生史

《圣经》关于巴别塔的故事

1.从前,巴比伦人想建造一座塔直通天堂。

建塔的人都说着同一种语言,心意相通、齐心协力。上帝看到人类竟然敢做这种事情,就让他们的语言变得不一样。因为人们听不懂对方在讲什么,于是大家整天吵吵闹闹,无法继续建塔。后来人们把这座塔叫作巴别塔,而“巴别”的意思就是“分歧”。

2.虽然巴别塔停建了,但一个梦想却始终萦绕在人们心中:人类什么时候才能拥有相通的语言,重建巴别塔呢?

机器翻译被视为“重建巴别塔”的伟大创举。假如能够实现不同语言之间的机器翻译,我们就可以理解世界上任何人说的话,与他们进行交流和沟通,再也不必为相互不能理解而困扰。

知乎@刘知远老师的回答

于是 ,为了能够让机器理解文字

1949年,美国人威弗提出了机器翻译设计方案

随着时间的推移

新的想法推翻了陈旧的偏见

算法、处理器和数据集的飞跃发展

使得这个领域终于迈出了低谷

经验主义走向了理性主义

90 年代以来

基于统计的自然语言处理就开始大放异彩了

直到今天

它已经初步走向了成熟

好了!这就是自然语言处理的全部内容!

各位再见ヾ( ̄▽ ̄)

这当然是不可能的

接下来...

第二部分 | 从ArXiv 看 NLP 应用

研究领域

下图是和Natural Language Processing联系最紧密的一些词语。需要说明的是,做这个的时候DL还没有火,最近两年的热点词也没有出现。可以看出,当时的技术并不成熟,voice recognition,sentence models仍旧是比较热门的研究领域。

下图是从2011年开始,累计5年发表论文最多的5个领域,这5个领域可以说是当前国际自然语言处理的研究热点:

我挑选了一些近期比较有意思的应用领域,在此和大家分享:

1.文本生成

文本生成是比较学术的说法,通常在媒体上见到的“机器人写作”、“人工智能写作”、“自动对话生成”、“机器人写古诗”等,都属于文本生成的范畴。

除了生成(虚假)毕业论文,任何指定风格的语句(D.J. Trump,Shakespear, etc.),我们还可以利用神经网络来给图像、动图添加标题和评论。下面就是一个例子,来自Karpathy。

实际上,关于NLG的有趣的应用数不胜数,在此提供一个连接,有兴趣的同学可以深入了解~(https://www.zhihu.com/question/36853910)

2.虚拟助理

关键词:  Question Answering / Sentiment Analysis / Open-Domain Chatting / Task-Oriented Dialogue

1)基于数据集和阅读理解的问答

2)开放领域闲聊

下面是基于阅读理解的开放领域闲聊工作机制,图片来自Reading Wikipedia to Answer Open-Domain Questions (陈丹琦)

3)任务导向的人机对话

图中是机器通过与用户交流,完成餐厅选择、预定任务。具体的模型将在后文中有所展开

许多人(包括我自己)在Siri刚刚问世的时候得到了并不愉快的体验,于是对人机问答的水平感到失望,并且再也没有尝试过用它。

其实,最近几年NLP的进展非常快,几乎两三年就能解决一个子领域的特定问题,所以我强烈建议大家多和Siri,Cortana,小冰,Echo等语音助手进行互动,你将被她们的进步所打动~

3.常识推理

关键词:Commonsense / Machine / Comprehension

深夜,父亲捧着故事书来到小儿子的床边,温柔的念到:“……王子看着躺在面前的睡美人,轻轻的俯身吻了下去……”“爸爸,睡美人是还没醒吗?”父亲轻声地说:“刚才爸爸讲了什么来着,王子出发之前吃了四碗韭菜大蒜馅的饺子,所以睡美人终于还是忍不住醒了。”

(¬、¬)


故事型常识阅读理解(Story Cloze Test (SCT))是近几年新提出的一个文本理解任务,在这个任务中,给定背景的四句话,我们需要从两个候选句子中选择出哪一个可以被前四句话推导出来。要完成这个任务,我们需要深入理解背景的四个句子,进行推理。

与之类似的还有ROC story cloze task,这个数据集涵盖了5W+篇短小的故事,每个故事由5句话组成。

数据集的任务是,给定前4句话组成的一个小故事,在候选的两句话中选出更合适作为当前故事的结尾的那句——所以是一个二分类任务。并且因为这些故事是人为干预的,所以保证在涵盖标准答案的5句话中,不会有杂乱无关的信息,所有信息都是为核心故事服务的。来看一个例子:

这些好玩的东西是怎么实现的?机器真的可以代替川普发言吗?所以计算机到底有没有理解语言文字?RNN、LSTM模型听起来很耳熟?敬请期待明天的《元旦,一起NLP!(下)》


图片介绍来自 I   ArXiv.org

黄民烈老师的课题组介绍

其他内容来自 I   PaperWeekly 公众号

 程序媛的日常 公众号

                             整理  I  编辑  I     Figo

版权归原作者  I  如有侵权  I 请联系删除

文案|田宇菲


————— 新人福利 —————

关注AI 科技评论,回复 1 获取

【数百 G 神经网络 / AI / 大数据资源,教程,论文】


—————  AI 科技评论招人了  —————

AI 科技评论期待你的加入,和我们一起见证未来!

现诚招学术编辑、学术兼职、学术外翻

详情请点击招聘启事


—————  给爱学习的你的福利  —————

上海交通大学博士讲师团队

从算法到实战应用,涵盖CV领域主要知识点;

手把手项目演示

全程提供代码

深度剖析CV研究体系

轻松实战深度学习应用领域!

详细了解请点击阅读原文

————————————————————

登录查看更多
4

相关内容

NLP:自然语言处理
Yoshua Bengio最新《深度学习》MLSS2020教程,附104页PPT及视频
专知会员服务
128+阅读 · 2020年7月10日
深度学习自然语言处理概述,216页ppt,Jindřich Helcl
专知会员服务
212+阅读 · 2020年4月26日
Python数据分析:过去、现在和未来,52页ppt
专知会员服务
99+阅读 · 2020年3月9日
机器翻译深度学习最新综述
专知会员服务
98+阅读 · 2020年2月20日
六篇 EMNLP 2019【图神经网络(GNN)+NLP】相关论文
专知会员服务
71+阅读 · 2019年11月3日
2018年最全干货总结
计算机视觉战队
3+阅读 · 2018年10月15日
2018年暑假最全的干货总结
计算机视觉战队
3+阅读 · 2018年8月11日
干货 | 自然语言处理入门资料推荐
机器学习算法与Python学习
14+阅读 · 2018年1月2日
干货 | NLP 书单推荐!
翻译技术沙龙
11+阅读 · 2017年12月21日
干货 | 自然语言处理(1)之聊一聊分词原理
机器学习算法与Python学习
5+阅读 · 2017年12月7日
Python NLP入门教程
计算机与网络安全
9+阅读 · 2017年11月21日
综述 | 一文读懂自然语言处理NLP(附学习资料)
PaperWeekly
9+阅读 · 2017年11月14日
独家 | 一文读懂自然语言处理NLP(附学习资料)
数据派THU
9+阅读 · 2017年10月11日
Arxiv
4+阅读 · 2018年9月6日
Arxiv
22+阅读 · 2018年8月30日
Arxiv
6+阅读 · 2018年3月27日
Arxiv
10+阅读 · 2018年3月22日
Arxiv
7+阅读 · 2018年3月21日
Arxiv
6+阅读 · 2018年2月24日
VIP会员
相关资讯
2018年最全干货总结
计算机视觉战队
3+阅读 · 2018年10月15日
2018年暑假最全的干货总结
计算机视觉战队
3+阅读 · 2018年8月11日
干货 | 自然语言处理入门资料推荐
机器学习算法与Python学习
14+阅读 · 2018年1月2日
干货 | NLP 书单推荐!
翻译技术沙龙
11+阅读 · 2017年12月21日
干货 | 自然语言处理(1)之聊一聊分词原理
机器学习算法与Python学习
5+阅读 · 2017年12月7日
Python NLP入门教程
计算机与网络安全
9+阅读 · 2017年11月21日
综述 | 一文读懂自然语言处理NLP(附学习资料)
PaperWeekly
9+阅读 · 2017年11月14日
独家 | 一文读懂自然语言处理NLP(附学习资料)
数据派THU
9+阅读 · 2017年10月11日
相关论文
Arxiv
4+阅读 · 2018年9月6日
Arxiv
22+阅读 · 2018年8月30日
Arxiv
6+阅读 · 2018年3月27日
Arxiv
10+阅读 · 2018年3月22日
Arxiv
7+阅读 · 2018年3月21日
Arxiv
6+阅读 · 2018年2月24日
Top
微信扫码咨询专知VIP会员