AI 科技评论按:本文作者田宇菲,本文首发于公众号紫冬青协(ID:asta201409),AI 科技评论授权转载。
第一部分 | NLP的诞生史
《圣经》关于巴别塔的故事
1.从前,巴比伦人想建造一座塔直通天堂。
建塔的人都说着同一种语言,心意相通、齐心协力。上帝看到人类竟然敢做这种事情,就让他们的语言变得不一样。因为人们听不懂对方在讲什么,于是大家整天吵吵闹闹,无法继续建塔。后来人们把这座塔叫作巴别塔,而“巴别”的意思就是“分歧”。
2.虽然巴别塔停建了,但一个梦想却始终萦绕在人们心中:人类什么时候才能拥有相通的语言,重建巴别塔呢?
机器翻译被视为“重建巴别塔”的伟大创举。假如能够实现不同语言之间的机器翻译,我们就可以理解世界上任何人说的话,与他们进行交流和沟通,再也不必为相互不能理解而困扰。
知乎@刘知远老师的回答
于是 ,为了能够让机器理解文字
1949年,美国人威弗提出了机器翻译设计方案
随着时间的推移
新的想法推翻了陈旧的偏见
算法、处理器和数据集的飞跃发展
使得这个领域终于迈出了低谷
从经验主义走向了理性主义
90 年代以来
基于统计的自然语言处理就开始大放异彩了
直到今天
它已经初步走向了成熟
好了!这就是自然语言处理的全部内容!
各位再见ヾ( ̄▽ ̄)
这当然是不可能的
接下来...
第二部分 | 从ArXiv 看 NLP 应用
研究领域
下图是和Natural Language Processing联系最紧密的一些词语。需要说明的是,做这个的时候DL还没有火,最近两年的热点词也没有出现。可以看出,当时的技术并不成熟,voice recognition,sentence models仍旧是比较热门的研究领域。
下图是从2011年开始,累计5年发表论文最多的5个领域,这5个领域可以说是当前国际自然语言处理的研究热点:
我挑选了一些近期比较有意思的应用领域,在此和大家分享:
1.文本生成
文本生成是比较学术的说法,通常在媒体上见到的“机器人写作”、“人工智能写作”、“自动对话生成”、“机器人写古诗”等,都属于文本生成的范畴。
除了生成(虚假)毕业论文,任何指定风格的语句(D.J. Trump,Shakespear, etc.),我们还可以利用神经网络来给图像、动图添加标题和评论。下面就是一个例子,来自Karpathy。
实际上,关于NLG的有趣的应用数不胜数,在此提供一个连接,有兴趣的同学可以深入了解~(https://www.zhihu.com/question/36853910)
2.虚拟助理
关键词: Question Answering / Sentiment Analysis / Open-Domain Chatting / Task-Oriented Dialogue
1)基于数据集和阅读理解的问答
2)开放领域闲聊
下面是基于阅读理解的开放领域闲聊工作机制,图片来自Reading Wikipedia to Answer Open-Domain Questions (陈丹琦)
3)任务导向的人机对话
图中是机器通过与用户交流,完成餐厅选择、预定任务。具体的模型将在后文中有所展开
许多人(包括我自己)在Siri刚刚问世的时候得到了并不愉快的体验,于是对人机问答的水平感到失望,并且再也没有尝试过用它。
其实,最近几年NLP的进展非常快,几乎两三年就能解决一个子领域的特定问题,所以我强烈建议大家多和Siri,Cortana,小冰,Echo等语音助手进行互动,你将被她们的进步所打动~
3.常识推理
关键词:Commonsense / Machine / Comprehension
深夜,父亲捧着故事书来到小儿子的床边,温柔的念到:“……王子看着躺在面前的睡美人,轻轻的俯身吻了下去……”“爸爸,睡美人是还没醒吗?”父亲轻声地说:“刚才爸爸讲了什么来着,王子出发之前吃了四碗韭菜大蒜馅的饺子,所以睡美人终于还是忍不住醒了。”
(¬、¬)
故事型常识阅读理解(Story Cloze Test (SCT))是近几年新提出的一个文本理解任务,在这个任务中,给定背景的四句话,我们需要从两个候选句子中选择出哪一个可以被前四句话推导出来。要完成这个任务,我们需要深入理解背景的四个句子,进行推理。
与之类似的还有ROC story cloze task,这个数据集涵盖了5W+篇短小的故事,每个故事由5句话组成。
数据集的任务是,给定前4句话组成的一个小故事,在候选的两句话中选出更合适作为当前故事的结尾的那句——所以是一个二分类任务。并且因为这些故事是人为干预的,所以保证在涵盖标准答案的5句话中,不会有杂乱无关的信息,所有信息都是为核心故事服务的。来看一个例子:
这些好玩的东西是怎么实现的?机器真的可以代替川普发言吗?所以计算机到底有没有理解语言文字?RNN、LSTM模型听起来很耳熟?敬请期待明天的《元旦,一起NLP!(下)》
图片介绍来自 I ArXiv.org
黄民烈老师的课题组介绍
其他内容来自 I PaperWeekly 公众号
程序媛的日常 公众号
整理 I 编辑 I Figo
版权归原作者 I 如有侵权 I 请联系删除
文案|田宇菲
————— 新人福利 —————
关注AI 科技评论,回复 1 获取
【数百 G 神经网络 / AI / 大数据资源,教程,论文】
————— AI 科技评论招人了 —————
AI 科技评论期待你的加入,和我们一起见证未来!
现诚招学术编辑、学术兼职、学术外翻
详情请点击招聘启事
————— 给爱学习的你的福利 —————
上海交通大学博士讲师团队
从算法到实战应用,涵盖CV领域主要知识点;
手把手项目演示
全程提供代码
深度剖析CV研究体系
轻松实战深度学习应用领域!
详细了解请点击阅读原文
▼▼▼
————————————————————