故名思义,常识推理就是利用自身了解的知识,比如科学事实、社会惯例等,再结合特定的背景来推断出某个问题的答案。对于人类来说,用「常识」去解决问题这件事本身,就是一个「常识」。然而对于现在的阅读理解AI来说,如果原文没有,那基本就算是「两眼一抹黑」了。想要让这些模型利用常识去推理出某个问题的答案,是非常困难,也是亟待解决的。因此,在这样的一个背景下,CommonsenseQA 2.0(CSQA2)国际常识推理评测数据集在艾伦人工智能研究院的主导之下应运而生。它吸引了包括Google、Allen Institute for AI、华盛顿大学等众多国际顶尖机构参与挑战。简单介绍下,CSQA2是一个二元分类数据集,包含14343个问题,主要分为训练/开发/测试集,需要判断常识性陈述是对还是错。其1.0版本所考察的问题,是基于现有常识知识库ConceptNet中的知识三元组构建的,这使得机器在处理该任务时,有能直接聚焦参考的知识。CommonsenseQA 1.0任务示例随后,艾伦人工智能研究院又推出了2.0版本将挑战升级成了「判断题」,难度明显比1.0的「选择题」提高不少。新版的的推理问题,不仅具有庞大的想象空间,而且大部分是无法被现有的知识库所覆盖的。同时,在构造评测数据的过程中,还通过人与机器博弈对抗的方式,不断迭代设计。如果派出业界主流的中等大小预训练模型来作答,准确率只能达到55%,比随机猜测的水平稍高。在此之前,最优的方法则通过1750亿级参数量大小的GPT3模型生成针对CommonsenseQA 2.0常识推理问题的相关知识,并基于T5模型进行融合处理之后,才把准确率提到了73%。CommonsenseQA 2.0任务示例首次参赛的科大讯飞,创新性地提出ACROSS模型(Automatic Commonsense Reasoning on Semantic Spaces),并由此实现了统一语义空间下外部知识的有效融合,显著改进了超大规模预训练模型所存在的问题,在CommonsenseQA 2.0任务上取得76%的准确率。ACROSS模型通过借鉴人类的解题思路,先是收集了大量知识库和互联网的相关信息,然后在统一的语义空间中进行融合处理。最终,超大规模预训练模型便拥有了更强的知识输入,从而实现准确的常识知识推理。不过,这个成绩仍远低于人类94.1%的水平,可见在常识性推理方向仍有很大挑战和进步空间。
多语种语言理解三连冠
取得三连冠的SemEval 2022评测,是由国际计算语言学协会(Association for Computational Linguistics,ACL)旗下SIGLEX主办的,迄今已举办了16届。参赛者覆盖国内、外一流高校及知名企业,包括达特茅斯学院、谢菲尔德大学等,代表着最前沿国际技术和水平。经过角逐,科大讯飞联合团队分别在「多语种新闻相似度评测任务」(Task 8)、「多语种惯用语识别任务」子赛道(Task 2: Subtask A one-shot)、「多语种复杂命名实体识别任务」(Task 11)三个子赛道中拿下冠军。
还有一个非常困难的项目,光听名字就觉得复杂:多语种复杂命名实体识别任务(MutiCoNER)。我们先拆解一下MuticoNER这个词,Muti是multilingual (多语言)的简称,Co即是complex (复杂),而NER则是Named Entity Recognition,又称作「命名实体识别」,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。这项任务究竟有多难?举个例子,(皇马)[organization]除了首轮负于(克星拉科)[organization]以外,现在已是四连胜。(Rafael van der Vaart)[PER]、(Gonzalo Higuaín)[PER]和(Arjen Robben)[PER]的表现出色。具体来说,这个任务包含了11项单独语言命名实体评测任务,以及2项多语言统一建模的评测任务。其中的数据来源于Wikidata(维基数据),数据量庞大且极具应用价值。参赛团队需要在单个语言以及多个语言混合的文本数据中,精准预测不同语言实体的类别标签,而整个过程仅能使用一个模型。对此,中科大-讯飞联合团队,在多语言混合、中文、孟加拉语赛道上,分别以92.9%、81.6%、84.2%的F1成绩登顶。多语种复杂命名实体识别任务(混合榜单)不过,对于技术而言,我们不能只看在考场上取得的成绩,还要看到其真正的实操能力。