百度技术委员会主席吴华:NLP技术要让机器具有人类语言交流能力

2017 年 11 月 29 日 全球人工智能 品途商业评论


——免费加入AI技术专家社群>>

——免费加入AI高管投资者群>>

——日薪5k-10k招兼职AI讲师>>

--全国招募1000名AI推广大使>>

“要让人工智能走进人类的生活,就需要让它们具有与人类交流的语言能力。自然语言处理(NLP)是人工智能的核心领域之一,是解决这一问题的核心途径。研究好NLP就能让计算机理解和生成人类语言,以我们熟悉的方式服务人类。”百度技术委员会主席吴华在国际自然语言处理与中文计算会议(NLPCC)上诠释了NLP技术的重要意义。

NLPCC 2017由中国计算机协会(CCF)主办,是具有国际影响力的学术与创新交流平台。百度技术委员会主席、百度自然语言处理部门技术负责人吴华应邀出席,并在会上介绍了百度NLP技术的发展现状和产品应用能力。

吴华表示,百度NLP以大数据和知识图谱为立足点,基于机器学习和语言学方面的积累,拥有一流的文本理解与生成技术,由此构建起问答、机器翻译和对话系统,并以平台化的方式对更多产品进行支持,如NLPC(NLP Cloud)和百度AI开放平台。百度NLP技术已经应用在搜索、信息流、DuerOS等百度的众多产品上。

凭借多年的技术积累,百度研发了一套联合统一的词法分析方案,极大提高了机器正确识别和标注句子中词的概率。吴华表示,词法分析是自然语言处理的基础,其准确程度直接影响后续一系列分析处理任务的效果。百度的这套方案将专名识别(NE Recognition)、分词和词性标注统一在一个框架中,得到语义更合理和完整的词语切分与词性标注序列;另一方面,百度特有的海量点击反馈数据辅助词性标注将词性标注语料从20万迅速扩充到1亿3千万个句子,标记数据精度超过95%,提升了自动分词和词性标注的准确率。

在介绍百度先进的文本理解与生成技术能力时,吴华强调,不同应用对文本理解的程度和解析粒度的要求不同,一套固定的解决方案无法满足所有需求。目前,百度NLP不仅拥有通用的理解技术,更面向不同任务提供相应的文本理解技术,实现更精准的意图理解、推荐、人机对话等。在搜索中,使用基于深度学习模型的多层次语义匹配技术,搜索结果的关联度将大幅提升。例如,在应用深度学习模型前,搜索“水泵忽强忽弱”结果是不相关的,应用之后的关联度大幅提升。而在基于知识库问答和面向任务的对话系统中,使用精细的句法分析和语义角色标注技术,可以准确定位和理解用户意图。

篇章理解是文本理解的另一核心组成,吴华表示,“NLP技术可以通过用户兴趣网络和文档语义网络形成标签图谱,最终得到‘不搜即得’的智能推荐。”该技术以用户兴趣为出发点,依托从搜索、贴吧、百科等不同渠道获得的有明确含义的主题、话题或实体等内容标签,形成可实时更新的关注点标签图谱。在下面这张关注点标签图谱中,“AI”话题与“科技”、“VR”等话题,“乌镇峰会”等事件关联在一起。基于关注点图谱对文档内容进行标注,可以更好地描述用户与文章之间的关系,从用户的视角对篇章进行更合理的分类和有效的推荐。

吴华在现场向观众展示了两首五言绝句,多数人都难以区分哪一首是由百度机器创作的。目前,百度人工智能撰写的文章通过消息推送、资讯流、开放订阅、百家号等途径进行分发,供用户阅读。

基于上述多项技术能力的积累,百度已经构建起问答、对话和机器翻译三大系统。在问答方面,面对用户提出的问题,系统可基于知识图谱加以回答。吴华坦言,没有理解或推理仍是问答领域的巨大挑战,对此,百度日前推出了世界上最大的中文机器阅读理解数据集——DuReader,该数据集基于真实应用需求,所有问题来源于百度搜索用户的真实问题,文档来自全网真实采样的网页文档和知道UGC文档,答案基于问题与文档人工撰写生成,目前拥有20万个问题和100万个文档;同时,数据集标注了问题类型、实体和观点等丰富信息,弥补了现有主流数据集对于观点类问题覆盖不足的问题。

对话系统以基于意图图谱的核心技术与用户进行多轮交互(multi-turn interaction)。吴华说道,目前面向任务的对话模式将不同的任务分发给对应的bot,使任务管理低效而复杂,而意图图谱将所有意图容纳到一张图中,从而能够进行连续一致的对话管理。

吴华表示,百度已经将NLP技术应用在众多百度的产品当中。2015年5月,百度将神经网络机器翻译技术应用到百度在线翻译服务中,推出了全球首个基于深度学习的大规模在线翻译系统。今年,百度还推出了一款兼具Wi-Fi与翻译双重功能的Wi-Fi翻译机,自带80多个国家的移动数据流量,支持实时语音翻译。

另外,百度也通过平台化的方式对更多产品进行支持。百度开发的自然语言理解一站式解决平台NLPC(NLP Cloud),已经可以提供25种NLP模块,每天被调用超过2000亿次。百度AI开放平台开放了80多项百度核心AI技术能力,其中包含NLP模块、UNIT、翻译在内的十多项自然语言处理方面的能力,供开发者与合作伙伴接入。

近几年来,NLP技术的发展受到了世界各国的高度重视。在美国AI创业公司中,自然语言处理领域的创业公司数量最多。中国的AI创业公司中自然语言处理领域的创业公司位居第三。NLP技术的发展和应用正推动人机交互走进一个新的时代。吴华指出,百度自然语言处理技术将持续高速优化升级,持续为开发者、合作伙伴赋能。智能时代即将来到,百度将让AI更懂人类。


热门文章推荐

招聘|AI学院长期招聘AI课程讲师(兼职):日薪5k-10k

浙大才女:用人耳听不到的超声波(攻击)控制语音助手!

Science:最新发现哈希可能是大脑的通用计算原理!

厉害|波士顿动力新版人形机器人Atlas,后空翻很完美!

吴恩达:AI论文已经够多了,赶紧“搞点事”吧!

厉害了!吉利宣布收购飞行汽车公司Terrafugia !

周志华:实验表明gcForest是最好的非深度神经网络方法

黑科技|Adobe出图象技术神器!视频也可以PS了!!

史上第一个被授予公民身份的机器人索菲亚和人对答如流!

浙大90后女黑客在GeekPwn2017上秒破人脸识别系统!

周志华点评AlphaGo Zero:这6大特点非常值得注意!

登录查看更多
2

相关内容

NLP:自然语言处理
专知会员服务
155+阅读 · 2020年4月21日
专知会员服务
199+阅读 · 2020年3月6日
【CAAI 2019】自然语言与理解,苏州大学| 周国栋教授
专知会员服务
62+阅读 · 2019年12月1日
2019语言与智能技术竞赛报名开启
中国计算机学会
16+阅读 · 2019年2月26日
中文自然语言处理入门实战
人工智能头条
16+阅读 · 2019年1月11日
招聘|国内语义理解最好企业「三角兽」招贤纳士
机器人大讲堂
3+阅读 · 2018年11月12日
干货篇|百度UNIT对话系统核心技术解析
InfoQ
23+阅读 · 2018年9月20日
最全面的百度NLP自然语言处理技术解析
InfoQ
7+阅读 · 2017年11月12日
百度NLP模块使用手册--深度直击最新进展
InfoQ
20+阅读 · 2017年10月30日
Tutorial on NLP-Inspired Network Embedding
Arxiv
7+阅读 · 2019年10月16日
Arxiv
22+阅读 · 2018年8月30日
QuAC : Question Answering in Context
Arxiv
4+阅读 · 2018年8月21日
VIP会员
相关VIP内容
专知会员服务
155+阅读 · 2020年4月21日
专知会员服务
199+阅读 · 2020年3月6日
【CAAI 2019】自然语言与理解,苏州大学| 周国栋教授
专知会员服务
62+阅读 · 2019年12月1日
相关资讯
2019语言与智能技术竞赛报名开启
中国计算机学会
16+阅读 · 2019年2月26日
中文自然语言处理入门实战
人工智能头条
16+阅读 · 2019年1月11日
招聘|国内语义理解最好企业「三角兽」招贤纳士
机器人大讲堂
3+阅读 · 2018年11月12日
干货篇|百度UNIT对话系统核心技术解析
InfoQ
23+阅读 · 2018年9月20日
最全面的百度NLP自然语言处理技术解析
InfoQ
7+阅读 · 2017年11月12日
百度NLP模块使用手册--深度直击最新进展
InfoQ
20+阅读 · 2017年10月30日
Top
微信扫码咨询专知VIP会员