动态 | AI能看懂英文,阿里巴巴夺实体发现测评全球第一

2017 年 11 月 24 日 AI科技评论

AI科技评论消息,全球顶级的知识库构建测评KBP2017日期公布了最新排名。阿里巴巴人工智能研究机构iDST斩获英文实体发现测评全球冠军,在准确率和召回率上均表现出色,核心指标F1达到0.811。这次测评吸引了全球20多支顶尖团队参与,包括IBM Research, BBN, Stanford Univ, CMU Univ, UIUC Univ, Columbia Univ, 腾讯等。

KBP是由NIST(National Institute of Standards and Technology,美国国家标准与技术研究院)指导、美国国防部协办的赛事,主要任务为从自然书写的非结构化文本中抽取实体,以及实体之间的关系。

这项测评要求AI算法在“读完”一篇英文文章后,构建一个物理世界的命名实体和实体之间关系的知识库,如“克林顿和希拉里之间是夫妻关系”、“克林顿毕业于耶鲁法学院”这样一个个实体的关系。

阿里巴巴iDST自然语言处理首席科学家司罗介绍,他们的算法可以做到对文章上下文的理解。比如,文章出现了Apple,再出现Jobs,就可以辨别出这个Jobs指的是乔布斯,而不是工作。再比如,文章出现了Microsoft,那么Apple就更有可能是苹果公司,而不是一种水果。

“另外,我们构建了一个算法去学习不同领域之间共同的部分,通过迁移学习提升我们学习的准确度。对于不同领域数据,我们取其精华,去其糟粕,进行智能学习”,司罗说。

在这次测评中,iDST团队采用经过改良的深度神经网络架构对文本进行理解。改良的架构有三个主要特点:首先该模型可以自动阅读海量文章(如维基百科)并从中汲取经验;其次,该架构可以智能选择训练数据集以保证训练数据的准确性;最后,我们采用post regularization的办法保证模型结果的一致性。

对于KBP2017的成绩,司罗表示:“很荣幸能够同全球的同行分享阿里巴巴的研究成果,人工智能在机器阅读理解和知识库构建上还处在起步阶段,我们正在积极和同行业顶尖机构学习交流,推动行业发展。比如我们内部建设的信息抽取平台AliIE项目就在同斯坦福大学展开积极合作”。

阿里巴巴正在将这样的信息抽取技术广泛的应用到实际业务当中,并致力于让更多的中小开发者从中收益。他们搭建的信息抽取平台AliIE拥有最顶尖的AI技术,并从一开始的架构设计就考虑到平台的开放性和可扩展性。可以让更多的开发者、研究员共同开发,并将成果回馈给这个社区。

阿里巴巴iDST自然语言处理首席科学家司罗

司罗是全球权威机器智能学者,曾担任美国普渡大学计算机系终身教授,主持的20余个项目得到美国政府、工业界资助,先后获得美国国家科学基金会成就奖、雅虎、谷歌研究奖等。

由他领导的自然语言处理团队目前支持了阿里巴巴大生态每天多达600亿次的自然语言处理需求,团队横跨杭州、北京、硅谷、西雅图(新加坡)多地,成员大多拥有10年以上的研发经验。检索招聘网站可以看到,他们依旧在不断扩充团队。

 推荐阅读 

阿里知识图谱首度曝光:用机器学习构建推理引擎,让千万黑心商家无处可逃

已经进驻天猫精灵的阿里KDD论文成果:新型文本语义编码算法conv-RNN

阿里iDST的CVPR论文:剁手有了新方法,明星同款边看边买

—————  AI 科技评论招人啦!  —————

我们诚招学术编辑 N 枚(全职,坐标北京)、新媒体运营 N 枚(全职,坐标深圳)、学术兼职 N 枚。

详情请参见AI科技评论招人啦,新媒体运营、学术编辑、学术兼职虚位以待!

欢迎发送简历到 guoyixin@leiphone.com

————  GAIR 智能驾驶峰会 2018  ————

10年前的DARPA挑战赛是催生自动驾驶商业化的里程碑,10年后的硅谷和匹兹堡成为全球自动驾驶研发和部署最激进的两个大本营。除了两地的斯坦福大学和卡耐基梅隆大学,Google、Uber、Tesla等大公司以及传统车企的超前研发也为美国的自动驾驶行业培养了大量人才。

而在地球的另一端,中国已经是最大的汽车消费市场,市场规模、特色的道路和法规环境让中国市场成为一个独特且极具吸引力的市场。即便在美国,华人势力也是自动驾驶创新领域一支重要的主力军。

2018年1月16日,雷锋网将在旧金山湾区举办GAIR硅谷智能驾驶峰会,我们希望汇集中美两地最强的自动驾驶研发力量,与学界、互联网大公司、汽车行业以及新技术公司一起来一场自动驾驶领域的大party。

详细了解点击文末阅读原文

————————————————————

登录查看更多
3

相关内容

实体(entity)是有可区别性且独立存在的某种事物,但它不需要是物质上的存在。尤其是抽象和法律拟制也通常被视为实体。实体可被看成是一包含有子集的集合。在哲学里,这种集合被称为客体。实体可被使用来指涉某个可能是人、动物、植物或真菌等不会思考的生命、无生命物体或信念等的事物。在这一方面,实体可以被视为一全包的词语。有时,实体被当做本质的广义,不论即指的是否为物质上的存在,如时常会指涉到的无物质形式的实体-语言。更有甚者,实体有时亦指存在或本质本身。在法律上,实体是指能具有权利和义务的事物。这通常是指法人,但也包括自然人。
知识图谱推理,50页ppt,Salesforce首席科学家Richard Socher
专知会员服务
105+阅读 · 2020年6月10日
【斯坦福】凸优化圣经- Convex Optimization (附730pdf下载)
专知会员服务
220+阅读 · 2020年6月5日
中文知识图谱构建技术以及应用的综述
专知会员服务
312+阅读 · 2019年10月19日
阿里健康夺冠中文电子病历实体识别评测任务
AI掘金志
40+阅读 · 2018年8月17日
腾讯AI Lab斩获知识图谱顶级赛事KBP 2017世界冠军
全球人工智能
10+阅读 · 2017年12月1日
Efficiently Embedding Dynamic Knowledge Graphs
Arxiv
14+阅读 · 2019年10月15日
Arxiv
9+阅读 · 2018年10月18日
Arxiv
4+阅读 · 2018年9月6日
Learning Blind Video Temporal Consistency
Arxiv
3+阅读 · 2018年8月1日
Arxiv
4+阅读 · 2018年4月17日
Arxiv
10+阅读 · 2018年2月17日
VIP会员
相关论文
Efficiently Embedding Dynamic Knowledge Graphs
Arxiv
14+阅读 · 2019年10月15日
Arxiv
9+阅读 · 2018年10月18日
Arxiv
4+阅读 · 2018年9月6日
Learning Blind Video Temporal Consistency
Arxiv
3+阅读 · 2018年8月1日
Arxiv
4+阅读 · 2018年4月17日
Arxiv
10+阅读 · 2018年2月17日
Top
微信扫码咨询专知VIP会员