CCKS 2022 | 如何通过“说一句话”精准获取数据?恒生发布金融NL2SQL评测任务

2022 年 5 月 26 日 开放知识图谱

某投资者登录券商理财APP,想要查找最近两年上市的公司,并按照最新的市值进行排序。然而他很难直接找到结果,需要经过层层筛选才能大致找到相关结果。


有没有更简便的方式来查找数据?如果说一句话或者打一小段文字后,就能获得我想要的数据结果,那该有多好!


随着金融机构数智化转型,数据正急剧增长,投研人员、投资经理、运营人员和投资者都希望能够更加快速精准地查找需要的数据,而传统的方法在覆盖度、准确性、可迁移性等方面难以满足需求。面对这一问题,恒生基于在自然语言处理方面的沉淀,在今年的全国知识图谱与语义计算大会(CCKS 2022)中发布了金融NL2SQL(自然语言转SQL)评测任务,NL2SQL方法通过自动将自然语言问句转化为SQL查询,从而实现精准数据问答。


点击图片可跳转至评测任务链接


关于CCKS技术评测


全国知识图谱与语义计算大会(CCKS: China Conference on Knowledge Graph and Semantic Computing)由中国中文信息学会语言与知识计算专委会举办,致力于促进语言与知识计算领域的学术研究和产业发展,为从事相关领域理论和应用研究的学者、机构和企业提供广泛交流的平台,已经成为国内知识图谱、语义技术和知识计算等领域的核心会议。


CCKS技术评测旨在为研究人员提供测试知识图谱与语义计算技术、算法、系统的平台和资源,促进国内知识图谱领域的技术发展,以及学术成果与产业需求的融合和对接。去年,CCKS 2021评测竞赛环节共设立了5个主题共计14个任务,涵盖了金融、医疗、军事、生物、地理、保险、生活服务等各个领域,吸引了超过1万多支参赛队伍,在工业界和学术界形成较高影响力。


今年,经过评测任务征集和评测组委会筛选,CCKS 2022共设立五个评测主题,共15个评测任务。CCKS 2022组委会为每个任务前三名颁发证书,并从所有队伍中特别评选10个“创新技术奖”。专委会还将协同Data Intelligence期刊编辑部组织“评测论文主题专刊”,优秀评测论文将推荐至该专刊免费发表,同时优秀评测论文也将推荐收录进入主会论文集,并有机会推荐至相应期刊发表。


恒生发布金融NL2SQL评测

探索数据精准查询的新玩法


作为本次金融NL2SQL评测任务的发起方之一,恒生在金融领域NLP的落地应用以及前沿技术探索方面,已有丰富的经验。恒生NLP通过自研金融预训练模型、知识积累及注入,形成了可应对长文档、大宽表、纵表、时序等挑战的整体能力,将前沿研究成果平稳落地到金融智能问答、投研分析等场景。


当前结构化数据的精准查询主要通过封装报表实现,但这难以大规模生产,也无法覆盖长尾问题。随着NLP预训练语言模型能力不断取得突破,基于大模型的文本自动转SQL语言技术也日趋成熟。基于NL2SQL技术打造新一代数据交互,并将其作为数智化背景下的数据应用引擎,可以通过“说一句话”的方式直接获取到想要的数据。这将解决投研人员、投资者等数据查找难的问题,并将运营人员从大量报表工作中解放出来,通过知识运维配置即可快速启动新场景的数据查询能力,进而提升业务运行效率。


评测任务


NL2SQL工程化过程中面临多表关联、大宽表、纵表、模型迁移、表识别等挑战。现有数据和方法主要关注“封闭场景,指定库/表,单表查询”设定,这很难满足真实场景应用需求。从领域特性来看,金融数据多为时间序列,包括日频行情、季频财报、年度GDP、不定期股票质押解质押等,这种复杂性会增大问题转SQL难度。考虑到垂直领域知识可能有助于构建可迁移系统,本评测任务将开放金融股票、基金、宏观等场景结构化表格及相关知识,推动垂直领域下NL2SQL技术发展。


数据集


本评测任务将提供有标注数据训练集3966条和验证集1000条,2000条无标签数据作为测试集。除标注数据外,还包括数据库基础信息(db_info.json)、数据库表(.sql文件和.sqlite文件)、领域知识(fin_kb.json)等。


奖励设置


恒生将提供30000元奖金,奖励评测结果优异的团队,具体设置如下:

第一名:15000元

第二名:10000元

第三名:5000元


此外,本次任务将会选出一支队伍参与CCKS评测任务创新奖评选(奖金5000元)。


时间安排


评测任务发布:4月12日

组队截止时间:7月25日(23:59 UTC)

验证集开始提交时间:5月1日(00:00 UTC)

验证集提交截止时间:7月25日(23:59 UTC)

测试集开始提交时间:7月26日(00:00 UTC)

测试集截止提交时间:7月31日(23:59 UTC)


任务组织者及联系方式


林金曙:linjs13607@hundsun.com

娄东方:loudf24454@hundsun.com

张少杰:zhangsj41876@hundsun.com



点击“阅读原文”,即可报名参赛

查看提交文件示例、评测指标等

NLP的更多可能性,等你来探索


推荐阅读:

钱塘之光 | 小满篇:近五年交易所及协会金融科技课题探析

恒生智能文档 | 五大场景,践行金融非结构化文档的数智化进程

钱塘之光 | 立夏篇:十问金融分布式数据库LightDB


“在看”我吗?

登录查看更多
2

相关内容

全国知识图谱与语义计算大会(CCKS: China Conference on Knowledge Graph and Semantic Computing)由中国中文信息学会语言与知识计算专委会定期举办的全国年度学术会议。CCKS源于国内两个主要的相关会议:中文知识图谱研讨会the Chinese Knowledge Graph Symposium (CKGS)和中国语义互联网与Web科学大会Chinese Semantic Web and Web Science Conference (CSWS)。 首届中文知识图谱研讨会于2013年在苏州举行,随后分别在武汉、宜昌成功举办第二次和第三次研讨会。CSWS首次会议于2006年在北京举办,随后的近十年里,逐渐成为国内语义技术领域的主要会议。新的知识图谱与语义计算大会将致力于成为国内知识图谱、语义技术、链接数据等领域的核心会议,并聚集了知识表示、自然语言理解、智能问答、知识抽取、链接数据、图数据库、图挖掘、自动推理等相关技术领域的重要学者和研究人员。
京东科技肖楠:基于金融场景的事理图谱构建与应用
专知会员服务
40+阅读 · 2022年6月17日
《数据中心白皮书(2022年)》
专知会员服务
87+阅读 · 2022年4月24日
CCF发布计算领域高质量科技期刊分级目录
专知会员服务
25+阅读 · 2022年2月21日
百度事件图谱技术与应用
专知会员服务
58+阅读 · 2020年12月30日
专知会员服务
75+阅读 · 2020年12月19日
2022语言与智能技术竞赛再升级 推出NLP四大前沿任务
夕小瑶的卖萌屋
0+阅读 · 2022年4月20日
评测 | 2020 年全国知识图谱与语义计算大会评测任务征集
NL2SQL:弱监督学习与有监督学习完成进阶之路
PaperWeekly
14+阅读 · 2019年6月24日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
国家自然科学基金
3+阅读 · 2008年12月31日
Arxiv
46+阅读 · 2021年10月4日
Identity-aware Graph Neural Networks
Arxiv
14+阅读 · 2021年1月25日
Arxiv
102+阅读 · 2020年3月4日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
国家自然科学基金
3+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员