会员服务 ·

连夺4项第一！AI常识推理和人类又近了3%

2022 年 4 月 28 日 新智元

新智元报道

编辑：好困桃子

【新智元导读】让机器像人一样思考又迈进了一步？

最近，第十六届国际语义评测大赛（SemEval 2022）落下帷幕。

科大讯飞认知智能国家重点实验室率队杀出重围，连夺3个主要竞赛项目的冠军。

就在几天之前，实验室还以76.06%的准确率，刷新了常识推理挑战赛CommonsenseQA 2.0的世界纪录，比第二名领先了近3个百分点。

那么，这些所谓的挑战，到底难度如何呢？

刷新常识推理世界纪录

故名思义，常识推理就是利用自身了解的知识，比如科学事实、社会惯例等，再结合特定的背景来推断出某个问题的答案。

对于人类来说，用「常识」去解决问题这件事本身，就是一个「常识」。

然而对于现在的阅读理解AI来说，如果原文没有，那基本就算是「两眼一抹黑」了。

想要让这些模型利用常识去推理出某个问题的答案，是非常困难，也是亟待解决的。

因此，在这样的一个背景下，CommonsenseQA 2.0（CSQA2）国际常识推理评测数据集在艾伦人工智能研究院的主导之下应运而生。

它吸引了包括Google、Allen Institute for AI、华盛顿大学等众多国际顶尖机构参与挑战。

简单介绍下，CSQA2是一个二元分类数据集，包含14343个问题，主要分为训练/开发/测试集，需要判断常识性陈述是对还是错。

其1.0版本所考察的问题，是基于现有常识知识库ConceptNet中的知识三元组构建的，这使得机器在处理该任务时，有能直接聚焦参考的知识。

CommonsenseQA 1.0任务示例

随后，艾伦人工智能研究院又推出了2.0版本将挑战升级成了「判断题」，难度明显比1.0的「选择题」提高不少。

新版的的推理问题，不仅具有庞大的想象空间，而且大部分是无法被现有的知识库所覆盖的。同时，在构造评测数据的过程中，还通过人与机器博弈对抗的方式，不断迭代设计。

如果派出业界主流的中等大小预训练模型来作答，准确率只能达到55%，比随机猜测的水平稍高。

在此之前，最优的方法则通过1750亿级参数量大小的GPT3模型生成针对CommonsenseQA 2.0常识推理问题的相关知识，并基于T5模型进行融合处理之后，才把准确率提到了73%。

CommonsenseQA 2.0任务示例

首次参赛的科大讯飞，创新性地提出ACROSS模型（Automatic Commonsense Reasoning on Semantic Spaces），并由此实现了统一语义空间下外部知识的有效融合，显著改进了超大规模预训练模型所存在的问题，在CommonsenseQA 2.0任务上取得76%的准确率。

ACROSS模型通过借鉴人类的解题思路，先是收集了大量知识库和互联网的相关信息，然后在统一的语义空间中进行融合处理。最终，超大规模预训练模型便拥有了更强的知识输入，从而实现准确的常识知识推理。

不过，这个成绩仍远低于人类94.1%的水平，可见在常识性推理方向仍有很大挑战和进步空间。

多语种语言理解三连冠

取得三连冠的SemEval 2022评测，是由国际计算语言学协会（Association for Computational Linguistics，ACL）旗下SIGLEX主办的，迄今已举办了16届。

参赛者覆盖国内、外一流高校及知名企业，包括达特茅斯学院、谢菲尔德大学等，代表着最前沿国际技术和水平。

经过角逐，科大讯飞联合团队分别在「多语种新闻相似度评测任务」（Task 8）、「多语种惯用语识别任务」子赛道（Task 2: Subtask A one-shot）、「多语种复杂命名实体识别任务」（Task 11）三个子赛道中拿下冠军。

新闻相似度评价

在多语种新闻相似度评价任务中，科大讯飞与哈尔滨工业大学联合组建的「哈工大讯飞联合实验室」（HFL）以显著优势摘得冠军。

多语种新闻相似度评测任务

那么，新闻相似度究竟比的是什么呢？

就拿下面两篇相似度极高的新闻稿件举个例子吧。

首先，参赛队伍需要将文中相似的主要元素剥离出来并逐一分析，比如地理信息、叙事技巧、实体、语气、时间及风格。并最终判断出两则新闻的相似程度，以1-4分打分。

比赛共涉及10种语言，分别为阿拉伯语、德语、英语、西班牙语、法语、意大利语、波兰语、俄语、土耳其语和中文。

与普通的文章相比，比赛更强调跨语言理解能力，除了写作风格和叙述方式外，还需要把握文章中描述的具体事件。

也就是说，当AI练好了这门本领之后，就可以甄别外网的一些新闻报道是否存在偏差与曲解，从而有效预防虚假信息、不良信息的传播了。

惯用语识别

哈工大-讯飞联合团队拿下的第二项任务冠军，便是惯用语检测。

「惯用语」其实很好理解。

比如，「说曹操，曹操到」中的「曹操」是否真实存在？

但是别忘了，这可是多语种挑战。

举个英语的例子吧，比如在下面两句话中的「big fish」。

在第一句中，很明显就是指一条大鱼，翻译过来就是「当你从网中抓一条大鱼时，最好撑住它的腰」。

第二句中出现的「big fish」，就需要理解成「大人物」逻辑上才能讲得通。

而「多语种惯用语识别」这个挑战，考验的就是模型能不能通过上下文和短语本身，判断出究竟是惯用语还是字面意思。

多语种惯用语识别任务（子赛道）

那么，想完成这个任务，就需要模型能够利用跨语言的分析和理解能力，来区分不同句子中同一个词的不同语义。

除此之外，还要具备在不同语言之间进行迁移学习的能力，并以此来完成在训练集中没有出现过的语言的测试。

假如一个模型在这项挑战中表现优异，那么在实际应用之后，就能在日常写作和翻译工作中，效鉴别惯用语的表达用意，极大提高内容准确率。可以说是相当实用了。

复杂命名实体识别

还有一个非常困难的项目，光听名字就觉得复杂：多语种复杂命名实体识别任务（MutiCoNER）。

我们先拆解一下MuticoNER这个词，Muti是multilingual （多语言）的简称，Co即是complex （复杂），而NER则是Named Entity Recognition，又称作「命名实体识别」，是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。

这项任务究竟有多难？

举个例子，（皇马）[organization]除了首轮负于（克星拉科）[organization]以外，现在已是四连胜。（Rafael van der Vaart）[PER]、（Gonzalo Higuaín）[PER]和（Arjen Robben）[PER]的表现出色。

具体来说，这个任务包含了11项单独语言命名实体评测任务，以及2项多语言统一建模的评测任务。其中的数据来源于Wikidata（维基数据），数据量庞大且极具应用价值。

参赛团队需要在单个语言以及多个语言混合的文本数据中，精准预测不同语言实体的类别标签，而整个过程仅能使用一个模型。

对此，中科大-讯飞联合团队，在多语言混合、中文、孟加拉语赛道上，分别以92.9%、81.6%、84.2%的F1成绩登顶。

多语种复杂命名实体识别任务（混合榜单）

不过，对于技术而言，我们不能只看在考场上取得的成绩，还要看到其真正的实操能力。

用上了吗？

这不，就在今年北京冬奥会上，科大讯飞可谓是大展身手。

作为「官方自动语音转换与翻译独家供应商」，这家公司为所有观众展现了一场「无障碍沟通」的体育盛会。

甚至，科大讯飞的虚拟志愿者「爱加（i+）」还成为了赛场内外的「团宠」。

她不仅能提供赛程、赛事的实时咨询，周边交通、文化旅游等咨询问答也不在话下，更为厉害的是，她可以用多种语言与各国运动员进行面对面交流。

「爱加」是科大讯飞运用语音识别、语音合成、口唇驱动、面部驱动、肢体动作驱动等多项核心技术打造出的虚拟形象自动化生产方案。

这让虚拟人不仅会说普通话，同时支持31种语言及方言，是不折不扣的「语言通」。

「爱加」不仅能进行面对面的冬奥赛事、赛程实时互动交流，还能陪你玩一把冬奥知识游戏大PK，周边交通、文化、旅游等咨询问答也不在话下。

此外，在教育、医疗、司法等场景中的各类行业人工智能应用中，多语种语音交互系统都将发挥重要作用。

第一视角谷爱凌「追星」现场

经过多年的技术积累，除了中英以外，当前科大讯飞已经具备其他69种语言的语音识别能力，其中已经有35个语种准确率已经超过90%。

并已在新加坡、俄罗斯、印度、日本等国家部署了海外站点，将持续为海内外开发者提供语音识别、语音合成、机器翻译、图文识别等语音语言服务。

要说这些应用带来的成效如何，还得靠数据说话。

4月21日，科大讯飞发布了2021年年报。

报告期内，公司实现营收超183亿元，同比增长40.61%，扣非归母净利润9.79亿元，同比增长27.54%，经营规模与效益持续增长。

其中，智慧教育业务营收60.07亿元，同比增长49.47%；开放平台及消费者业务营收46.87亿元，同比增长52.19%。根据地业务深入扎根，保持快速增长。

要知道，一家公司能够实现持续营收靠的不仅是盈利，更重要的是对研发的投入。

2021年，科大讯飞研发投入持续增长，达29.36亿元，同比增长21.50%。

另外，值得关注的是，科大讯飞开放平台在开发者数量和营收上均呈快速增长。

2021年，科大讯飞开放平台营收达29.88亿元，同比增长55.6%。开发者团队数量增长66%，达到293万。

开放平台已经对外开放449项AI能力及方案，并且重点赋能金融、农业、能源等18个行业领域。

此外，科大讯飞还发布「开放平台2.0战略」，联合行业龙头搭建行业的基线底座，开放场景以汇聚开发者创意，与行业龙头、开发者一起三方共建人工智能产业生态。

下一站，去哪？

未来几年里，科大讯飞已经备好作战图。

就在2022年初，科大讯飞董事长刘庆峰宣布启动「讯飞超脑2030计划」，让人工智能懂知识、善学习、能进化，让机器人走进每个家庭。

要知道，中国现在面临着较为严重的老龄化问题，60岁以上人口将突破3亿，成为当前亟待解决的问题。

这家公司提出了一个大胆的构想，要在2030年让机器人走进每个家庭，来承担起养老问题。

超脑2030计划未来要分三步走：

第一阶段2022-2023年。

科大讯飞将推出第一个可养成的宠物机器人，它可以陪伴孩子成长，教给孩子知识，还可以陪老人遛弯、跑步。并发布专业虚拟人家族，让虚拟人具备教育、医疗、财务、客服等行业和专业领域知识，并且可持续进化。

第二阶段2023-2025年。

让外骨骼机器人进入家庭。外骨骼机器人实现自适应运动功能，不仅可以帮助残疾人或行动不便的老年人实现独立的行走，还可以进行肌理评定和运动判断，能够对人的行为主动补偿。并发布陪伴虚拟人家族，可以陪伴老人，有温度的进行情感化交流。

第三阶段2025-2030年。

让懂知识、会学习的陪伴机器人进入家庭，且数字虚拟人能够自我学习和进化。人工智能进入家庭除了要像亲人一样的陪伴，更需要有交互能力、动作能力。科大讯飞希望通过人工智能技术的突破和软硬一体化的能力，真正在刚需中帮助人类更好地应对未来。

正是有了多年的技术积淀和系统性创新，科大讯飞才能够蓄势待发，凭借自身力量去解决社会老龄化问题。

未来，科大讯飞还将不断开展人工智能源头技术创新，实现更多人工智能创新应用，建设人工智能美好新世界。

未来，值得期待...

登录查看更多

相关内容

常识推理

关注 2

【ACL2022-华盛顿大学】生成知识促进常识推理，Generated Knowledge Prompting for Commonsense Reasoning

专知会员服务

26+阅读 · 2022年3月1日

【USC2021】常识推理，47页ppt，Commonsense Reasoning in the Wild

专知会员服务

33+阅读 · 2021年10月9日

【EMNLP2021】基于神经常识知识和符号逻辑规则的会话多跳推理

专知会员服务

27+阅读 · 2021年9月20日

因果知识图谱自然语言理解

专知会员服务

81+阅读 · 2021年7月3日

【ICML2021】DouZero: 首个达到人类水平的开源斗地主AI

专知会员服务

26+阅读 · 2021年6月25日

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

专知会员服务

73+阅读 · 2020年5月30日

【ACL2020-浙大-微软】多轮对话推理数据集，MuTual: A Dataset for Multi-Turn Dialogue Reasoning

专知会员服务

37+阅读 · 2020年4月10日

【香港科技大学-腾讯】论概念化在常识知识图构建中的作用，Commonsense Knowledge Graph

专知会员服务

38+阅读 · 2020年3月9日

Google AI发布Meena-构建一个无所不聊的含26亿参数模型的聊天机器人

专知会员服务

54+阅读 · 2020年1月29日

微软发布DialoGPT预训练语言模型，论文与代码 Large-Scale Generative Pre-training for Conversational Response Generation

专知会员服务

28+阅读 · 2019年11月8日

论文浅尝 | AI回答小学科学问题达到人类水平（OpenBookQA）

开放知识图谱

2+阅读 · 2022年5月5日

DeepMind 的 AI 能指导人类的直觉吗？

InfoQ

2+阅读 · 2022年3月22日

NLP新里程碑！清华姚班毕业生发布KEAR：首次常识问答超越人类

新智元

0+阅读 · 2021年12月29日

AI 真的能够理解人类语言吗？

CSDN

1+阅读 · 2021年12月24日

论文浅尝 | Multilingual LAMA: 探索多语言预训练语言模型中的知识

开放知识图谱

1+阅读 · 2021年11月11日

论文浅尝 | 问题多样性对于问答的帮助

开放知识图谱

0+阅读 · 2021年8月26日

微软机器阅读理解在一场多轮对话挑战中媲美人类

微软丹棱街5号

19+阅读 · 2019年5月14日

AI会话能力超越人类！CoQA挑战赛微软创新纪录

智东西

12+阅读 · 2019年5月5日

自然语言处理常识推理综述论文，60页pdf

专知

73+阅读 · 2019年4月4日

论文浅尝 | 基于知识库的自然语言理解 04#

开放知识图谱

14+阅读 · 2019年3月14日

面向知识库的实体链接技术研究

国家自然科学基金

13+阅读 · 2015年12月31日

相容幂domain结构与函数逼近结构相关问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

无监督分词及词性归纳联合方法研究

国家自然科学基金

1+阅读 · 2013年12月31日

创伤后应激障碍的临床症状诊断模型

国家自然科学基金

0+阅读 · 2012年12月31日

二进制代码路径混淆方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

自变量受限的回归模型的同步置信带

国家自然科学基金

0+阅读 · 2012年12月31日

基于多模态成长模式学习的人类年龄自动估计

国家自然科学基金

2+阅读 · 2009年12月31日

基于语言理解的机器翻译方法研究

国家自然科学基金

2+阅读 · 2009年12月31日

基于表型相似性的人类遗传疾病基因预测方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

问答式信息检索中信息抽取技术研究

国家自然科学基金

3+阅读 · 2008年12月31日

Refined Commonsense Knowledge from Large-Scale Web Contents

Arxiv

0+阅读 · 2022年6月23日

Few-shot Long-Tailed Bird Audio Recognition

Arxiv

0+阅读 · 2022年6月22日

Why did I fail? A Causal-based Method to Find Explanations for Robot Failures

Arxiv

0+阅读 · 2022年6月21日

KG-BART: Knowledge Graph-Augmented BART for Generative Commonsense Reasoning

Arxiv

27+阅读 · 2021年1月21日

A Survey on Knowledge Graphs: Representation, Acquisition and Applications

Arxiv

32+阅读 · 2021年1月17日

CSKG: The CommonSense Knowledge Graph

Arxiv

18+阅读 · 2020年12月21日

The Causal Learning of Retail Delinquency

Arxiv

14+阅读 · 2020年12月17日

Towards a Human-like Open-Domain Chatbot

Arxiv

14+阅读 · 2020年1月27日

Commonsense Reasoning for Natural Language Understanding: A Survey of Benchmarks, Resources, and Approaches

Arxiv

16+阅读 · 2019年4月2日

A Survey of Domain Adaptation for Neural Machine Translation

Arxiv

17+阅读 · 2018年6月1日

VIP会员