声明:本文转载自公众号 哈尔滨工业大学
早在1950年,阿兰·图灵就提出了“计算机能思考吗?”的问题,为了回答这个问题,图灵创造性地提出了用一种让计算机(程序)模拟人类之间对话的方式,来验证上述问题,即如果计算机(程序)理解了人类的语言并作出相应的拟人化的回复,则认为该计算机(程序)能够思考,并具备了人类的智能。这种方式后来被命名为“图灵测试”。很长一段时间里,以及近期,“图灵测试”都被认为是人工智能的终极目标。而在人工智能想方设法通过“图灵测试”的过程中,自然语言起着关键的作用。
那么,如何让计算机更好地理解人类的语言呢?哈工大社会计算与信息检索研究中心 (HIT-SCIR)给出了答案。
哈工大社会计算与信息检索研究中心 (HIT-SCIR)成立于2000年9月,研究方向包括语言分析、信息抽取、情感分析、问答系统、社会媒体处理、用户画像和人机对话等7个方面。已完成或正在承担国家973课题、国家自然科学基金重点项目、国家863重点项目、国际合作、企业合作等课题60余项。已完成的项目包括LTP语言技术平台、开放域中文知识图谱《大词林》、聊天机器人笨笨、情绪地图、事理图谱等多项产品。
HIT-SCIR主页链接:http://ir.hit.edu.cn/
对于“如何让计算机更好地理解自然语言”这个问题,哈工大社会计算与信息检索研究中心认为有两个切入点:让计算机理解语言和让计算机认知社会,同时他们正以这两个切入点为方向进行深入的研究,目前取得了不错的成绩。
如何理解语言
“语言技术平台LTP”是一款中文语言处理系统。历时十年,由哈工大社会计算与信息检索研究中心独立研发,目前已免费共享给500多家研究机构,百度、腾讯、华为、讯飞等企业付费使用。该成果获2010年钱伟长中文信息处理科学技术一等奖,2016年黑龙江省科技进步一等奖。
2010年钱伟长中文信息处理科学技术一等奖
2016年黑龙江省科技进步一等奖
“语言技术平台LTP”效果展示
语言知识图谱“大词林”是一个开放域命名实体知识库自动构建系统,系统从Web搜索结果、在线百科和命名实体字面等多个信息源挖掘命名实体的类别,并从Apriori关联项、后缀上位词、分类层次化和词汇分布表示等多个角度学习获取类别之间的层次化关系。相比于人工的开放域实体知识库,“大词林”的构建不需要领域专家的参与。目前,大词林拥有千万规模以上的实体,并被科大讯飞、腾讯、奇虎 360 等多所公司以及高校付费使用。
开放式实体及其类型识别方法发明专利
“大词林”效果展示
怎样认知社会
“笨笨”聊天机器人是由哈工大社会计算与信息检索研究中心自主研发的一款面向普通用户的聊天机器人,主要提供一对一的聊天功能以及其他生活服务及问答功能。该成果获2016年“合创杯”第二届全国青年人工智能创新创业大会三等奖,2017年中国人工智能学会最佳青年科技成果奖。2016年6月6日正式对外发布,搭载于微信公众号平台之上,同时具备实体形态。截至2018年4月20日,关注人数达到5000余人。
“合创杯”第二届全国青年人工智能创新创业大会
三等奖
中国人工智能学会最佳青年科技成果奖
“笨笨”聊天机器人公众号二维码及效果展示示例
情绪地图以基于深度学习的语义情感分类模型,在人类常见情绪分类的基础上,对社会化媒体文本大数据中的潜在情绪进行判别和归类统计,最终呈现为情绪在时间和空间维度上的分布。
微博情绪地图效果展示
事理图谱用于刻画事件演化规律和模式的知识库。事理图谱可以为揭示和发现事件演化规律与人们的行为模式提供强有力的支持。目前,金融领域事理图谱包含150多万的事件节点以及180多万条有向边;出行领域事理图谱包含近3万的事件节点以及23万多条有向边。
金融事理图谱网址链接:http://eeg.8wss.com/
金融事理图谱效果展示
自然语言理解是计算机科学领域与人工智能领域中的一个重要方向,也是人工智能研究中的热点和难点。哈工大社会计算与信息检索研究中心在这方面的造诣,将对知识学习、问题求解、语言翻译、软件工程乃至软件生产自动化都具有深远的影响力,也将推动中国人工智能向前快速发展。
本期责任编辑: 张伟男
本期编辑: 蔡碧波
“哈工大SCIR”公众号
主编:车万翔
副主编: 张伟男,丁效
责任编辑: 张伟男,丁效,赵森栋,刘一佳
编辑: 李家琦,赵得志,赵怀鹏,吴洋,刘元兴,蔡碧波,孙卓
长按下图并点击 “识别图中二维码”,即可关注哈尔滨工业大学社会计算与信息检索研究中心微信公共号:”哈工大SCIR” 。