全国知识图谱与语义计算大会(CCKS: China Conference on Knowledge Graph and Semantic Computing)是由中国中文信息学会语言与知识计算专委会定期举办的全国年度学术会议。CCKS2019吸引了来自学术界和工业界的超800人参加。2020 年全国知识图谱和语义计算大会 (http://sigkg.cn/ccks2020) 将于2020年8月15日至8月18日在南昌召开。CCKS 2020的主题是“知识图谱与认知智能”。
CCKS系列评测旨在为研究人员提供测试知识图谱与语义计算技术、算法、及系统的平台和资源,促进国内知识图谱领域的技术发展,以及学术成果与产业需求的融合和对接。CCKS2019技术评测吸引了1666支队伍报名参数,形成了较高的影响力。经过前期的评测任务征集和评测组委会筛选,CCKS 2020共设立8个相关主题评测任务,分别是:新冠知识图谱构建与问答、面向中文短文本的实体链指、面向中文电子病历的医疗实体及事件抽取、面向金融领域的小样本跨类迁移事件抽取、面向金融领域的篇章级事件主题与要素抽取、基于本体的金融知识图谱自动化构建技术评测、基于标题的大规模商品实体检索以及面向试验鉴定的命名实体识别。专委会为每个任务前三名设立奖金并颁发证书(第一名5000元+任务组织方特定奖金,第二名3000元+任务组织方特定奖金,第三名2000元+任务组织方特定奖金,具体任务奖励参见具体评测任务书),同时组委会将针对不同任务特别评选“创新技术奖”(每一任务至多一项,奖金:5000元+任务组织方特定奖金),专门用于鼓励创新性技术的使用。
一、任务简介
任务一:新冠知识图谱构建与问答
受限于非结构化文本和结构化知识之间的巨大差异,自动化构造知识图谱以及利用知识图谱支持上层应用仍存在诸多挑战。时值2020年新型冠状病毒疫情爆发,在OpenKG总体组织和协调下,部分相关企业院校使用自动化的技术,以新型冠状病毒为核心构建了包括新冠百科、健康、防控等多个高质量的知识图谱,并于此针对知识图谱构建的关键技术及其核心应用。
本任务包括四个子任务:1)新冠百科知识图谱类型推断:围绕新冠百科知识图谱构建中的实体类型推断展开。评测从实体百科页面出发,从给定的数据中推断相关实体的类型。2)新冠概念图谱的上下位关系预测:针对传统知识图谱对实体的概念类别体系定义有限的问题,动态的获取实体的概念类别。3)新冠科研抗病毒药物图谱的链接预测:基于抗病毒药物图谱进行关系预测,如药物和病毒的靶向作用、蛋白间的交互作用等。评测依据抗病毒药物图谱模式(Schema)和知识图谱的实体、实体属性、实体之间的关系,预测新的两个实体的关系。4)新冠百科知识图谱问答评测:本次知识图谱问答任务是在CCKS上举办的第三届,在OpenKG上的新冠开放知识图谱基础上,以新型冠状病毒为切入点悉心构造了一定规模的针对健康、医药、疾病防控等特定主旨的问答数据。
任务组织者:
李志强 东南大学
孙浩然 东南大学
吴天星 东南大学
漆桂林 东南大学
张裕舟 哈尔滨工业大学
佘琪星 哈尔滨工业大学
王必聪 哈尔滨工业大学
刘铭 哈尔滨工业大学
秦兵 哈尔滨工业大学
卢栋才 华为云
王鹏 华为云
陈卓 浙江大学
胡森 北京大学计算机科学技术研究所
林荫年 北京大学计算机科学技术研究所
邹磊 北京大学计算机科学技术研究所
任务联系人:
李志强, 220194363@seu.edu.cn
张裕舟, yzzhang@ir.hit.edu.cn
卢栋才,ludongcai@huawei.com
胡森,husen@pku.edu.cn
任务二:面向中文短文本的实体链指
本评测任务围绕实体链指技术,结合其对应的AI智能应用需求,在CCKS 2019面向中文短文本的实体链指任务的基础上进行了拓展与改进,主要改进包括以下几部分:
去掉实体识别,专注于中文短文本场景下的多歧义实体消歧技术;
增加对新实体(NIL实体)的上位概念类型判断;
对待标注文本数据调整,增加多模任务场景下的文本源,同时调整了多歧义实体比例。
面向中文短文本的实体链指,简称EL(Entity Linking)。即对于给定的一个中文短文本(如搜索Query、微博、对话内容、文章/视频/图片的标题等),EL将其中的实体与给定知识库中对应的实体进行关联。针对中文短文本的实体链指存在很大的挑战,主要原因如下:
口语化严重,导致实体歧义消解困难;
短文本上下文语境不丰富,须对上下文语境进行精准理解;
相比英文,中文由于语言自身的特点,在短文本的链指问题上更有挑战。
奖励设置:除CCKS组委会设置的1,5000元奖金外,百度额外提供3,0000元奖金给获奖团队,奖金设置如下:
第一名:20,000元
第二名:10,000元
第三名:5,000元
创新奖:10,000元
任务组织者:
汪琦 (百度)
冯知凡(百度)
柴春光(百度)
任务联系人:
汪琦:wangqi31@baidu.com
实体链指组委会邮箱:ccks2020_el@126.com
任务三:面向中文电子病历的医疗实体及事件抽取
本任务是CCKS围绕中文电子病历语义化开展的系列评测的一个延续,在CCKS 2017,2018, 2019相关评测任务的基础上进行了延伸和拓展。
本任务包括两个子任务:1)医疗命名实体识别:于给定的一组电子病历纯文本文档,识别并抽取出与医学临床相关的实体提及(entity mention),并将它们归类到预定义类别(pre-defined categories),比如疾病、治疗、检查检验等。2)医疗事件抽取:本任务为中文病历医疗事件抽取任务,即给定主实体为肿瘤的电子病历文本数据,定义肿瘤事件的若干属性,如肿瘤大小,肿瘤原发部位等,识别并抽取事件及属性,进行文本结构化。
任务组织者:
张江涛,清华大学知识工程实验室
焦增涛,医渡云(北京)技术有限公司
汤步洲,哈尔滨工业大学(深圳)
任务联系人:
张江涛 zhang-jt13@tsinghua.org.cn
梁世浩 shihao.liang@yiducloud.cn
温清华 wtsinghua1@163.com
任务四:面向金融领域的小样本跨类迁移事件抽取
在金融领域,事件抽取是一项十分重要的任务,也是自然语言处理领域一项比较复杂的任务,而小样本下的事件抽取模型在落地应用中也极为需要。本任务需要从金融领域新闻资讯句子中,抽取事件知识(包括事件类型、触发词和事件元素),并将大样本下训练的模型跨类迁移到小样本的其他事件类型上。其中,事件类型分为两类,初始事件类型限定为:质押、股份股权转让、投资、起诉和高管减持,需要迁移的事件类型为:收购、担保、中标、签署合同和判决,每个事件类型都有其对应的事件框架,需要抽取出每个事件对应的事件元素。即给出一段句子级新闻资讯文本,针对该文本需要判断其所属的事件类型,抽取该事件的各个事件元素。
奖励设置:
第一名:10000
第二名:10000
第三名:5000
第四名:5000
第七名:1500
创新技术奖(两名):5000
任务负责人:
徐洁馨 (招商银行 人工智能实验室)
吴垠 (招商银行 人工智能实验室)
盛剑(招商银行 人工智能实验室)
任务联系人:
徐洁馨:jiexinx@cmbchina.com
吴垠:xyionwu@cmbchina.com
盛剑:jsheng@cmbchina.com
任务五:面向金融领域的篇章级事件主题与要素抽取
“事件抽取”是舆情监控领域和金融领域的重要任务之一,“事件”在金融领域是投资分析,资产管理的重要决策参考;事件也是知识图谱的重要组成部分,事件抽取是进行图谱推理、事件分析的必要过程。本次评测任务的文本范围包括互联网上的新闻文本,上市公司发布的公告文本(PDF文档已转成无结构化的文本内容)。本次评测任务的事件类型包括:财务造假、偿付能力不足、高层失联/去世、企业破产、重大资损、重大赔付、重大事故、股权冻结、股权质押、增持、减持等。
本次评测包括两个子任务:1)事件主体抽取:旨在从文本中抽取事件类型和对应的事件主体。即给定文本T,抽取T中所有的事件类型集合S,对于S中的每个事件类型s,从文本T中抽取s的事件主体。其中各事件类型的主体实体类型为公司名称或人名或机构名称。2)篇章事件要素抽取:旨在从文本中抽取事件类型和对应的事件要素。即给定文本T,抽取T中所有的事件类型集合S,对于S中的每个事件类型s,从文本T中抽取s的事件要素。
两个子任务的第一名额外增加5000元奖金。
任务组织者:
王太峰(蚂蚁金服)
王峰 (蚂蚁金服)
刘康 (中科院自动化所)
陈玉博 (中科院自动化所)
任务联系人:
王峰:zifan.wf@antfin.com
陈玉博:yubo.chen@nlpr.ia.ac.cn
任务六:基于本体的金融知识图谱自动化构建技术评测
金融研报是各类金融研究结构对宏观经济、金融、行业、产业链以及公司的研究报告。本评测任务参考TAC KBP中的Cold Start评测任务的方案,围绕金融研报知识图谱的自动化图谱构建所展开。评测从预定义图谱模式(Schema)和少量的种子知识图谱开始,从非结构化的文本数据中构建知识图谱。评测本身不限制各参赛队伍使用的模型、算法和技术。希望各参赛队伍发挥聪明才智,构建各类无监督、弱监督、远程监督、半监督等系统,迭代的实现知识图谱的自动化构建,共同促进知识图谱技术的进步。
任务组织者:
王文广 (达观数据)
王昊奋 (同济大学)
郭翠翠 (达观数据)
任务联系人:
王文广 wangwenguang@datagrand.com
王昊奋 carter.whfcarter@gmail.com
郭翠翠 guocuicui@datagrand.com
任务七:基于标题的大规模商品实体检索
本评测任务为基于标题的大规模商品实体检索。即对于给定的一个商品标题,参赛系统需要匹配到该标题在给定商品库中的对应商品实体。基于标题的大规模商品实体检索存在的挑战如下:
输入文本中可能无法识别出实体指代词;
商品标题中存在很多变异指代,没有给定的指代映射表;
商品标题一般较短,上下文语境不丰富,须对上下文语境进行精准理解。
任务组织者:
黄龙涛 (阿里巴巴)
袁博 (阿里巴巴)
任务联系人:
黄龙涛:kaiyang-hlt@alibaba-inc.com
袁博: qiufu.yb@alibaba-inc.com
任务八:面向试验鉴定的命名实体识别
军事装备试验鉴定是指通过规范化的组织形式和试验活动,对被试对象进行全面考核并作出评价结论的国家最高检验行为,涵盖方法、技术、器件、武器系统、平台系统、体系、训练演习等领域,涉及面广、专业性强。本任务以命名实体识别任务为切入点,逐步开展这方面的工作,以期通过评测的形式,促进交流、掌握基线、提升技术水平,遴选优秀技术为相关项目建设提供参考,共同推动试验鉴定领域大数据建设。
除CCKS组委会设置的1,5000元奖金外,军事科学院系统工程研究院额外提供1,5000元奖金给获奖团队奖金设置如下:
第一名:12,000元
第二名:7,000元
第三名:4,000元
技术创新奖:7,000元
任务组织者:
张 静,军事科学院系统工程研究院
任务联系人:
栾瑞鹏,lrp_ph@163.com
孙 晓,psunxiao@163.com
二、报名方式
本次评测采用邮件报名的方式,邮件标题为:“CCKS2020-任务名称-参赛单位”,例如:“CCKS2020-任务一新冠知识图谱构建与问答-清华大学”;邮件内容为:“参赛队名,参赛队长信息(姓名,邮箱,联系电话),参赛单位名称”。请参加评测的队伍发送报名邮件至相应邮箱(参赛队可同时选择多个子任务参赛,也可选择任意一个子任务单独参赛,请报名时注明参加哪一个子任务):
任务一、新冠知识图谱构建与问答:
ludongcai@huawei.com;220194363@seu.edu.cn;
yzzhang@ir.hit.edu.cn;husen@pku.edu.cn;
任务二、面向中文短文本的实体链指:wangqi31@baidu.com
任务三、面向中文电子病历的医疗实体及事件抽取:
zhang-jt13@tsinghua.org.cn;shihao.liang@yiducloud.cn
任务四、面向金融领域的小样本跨类迁移事件抽取:jiexinx@cmbchina.com;
任务五、面向金融领域的篇章级事件主题与要素抽取:
zifan.wf@antfin.com ;yubo.chen@nlpr.ia.ac.cn;
任务六、基于本体的金融知识图谱自动化构建技术评测:
wangwenguang@datagrand.com;
任务七、基于标题的大规模商品实体检索:kaiyang-hlt@alibaba-inc.com;
任务八、面向试验鉴定的命名实体识别:lrp_ph@163.com;
三、重要日期
任务征集截止:3月1日
任务准备时间:3月1日—3月20日
评测任务发布:3月20日
报名时间:3月20日—7月10日
训练及验证数据发布:3月20日
测试数据发布:7月10日
提交测试结果:7月20日
评测论文提交:8月5日
CCKS会议日期(评测报告及颁奖):8月15日—18日
四、评测主席
韩先培,中国科学院软件研究所 (hanxianpei@126.com)
闫峻,医渡云(jun.yan@yiducloud.cn)
评测网站:
http://sigkg.cn/ccks2020/?page_id=69
OpenKG
开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。
点击阅读原文,进入 CCKS2020 评测网站。