某投资者登录券商理财APP,想要查找最近两年上市的公司,并按照最新的市值进行排序。然而他很难直接找到结果,需要经过层层筛选才能大致找到相关结果。
有没有更简便的方式来查找数据?如果说一句话或者打一小段文字后,就能获得我想要的数据结果,那该有多好!
随着金融机构数智化转型,数据正急剧增长,投研人员、投资经理、运营人员和投资者都希望能够更加快速精准地查找需要的数据,而传统的方法在覆盖度、准确性、可迁移性等方面难以满足需求。面对这一问题,恒生基于在自然语言处理方面的沉淀,在今年的全国知识图谱与语义计算大会(CCKS 2022)中发布了金融NL2SQL(自然语言转SQL)评测任务,NL2SQL方法通过自动将自然语言问句转化为SQL查询,从而实现精准数据问答。
点击图片可跳转至评测任务链接
全国知识图谱与语义计算大会(CCKS: China Conference on Knowledge Graph and Semantic Computing)由中国中文信息学会语言与知识计算专委会举办,致力于促进语言与知识计算领域的学术研究和产业发展,为从事相关领域理论和应用研究的学者、机构和企业提供广泛交流的平台,已经成为国内知识图谱、语义技术和知识计算等领域的核心会议。
CCKS技术评测旨在为研究人员提供测试知识图谱与语义计算技术、算法、系统的平台和资源,促进国内知识图谱领域的技术发展,以及学术成果与产业需求的融合和对接。去年,CCKS 2021评测竞赛环节共设立了5个主题共计14个任务,涵盖了金融、医疗、军事、生物、地理、保险、生活服务等各个领域,吸引了超过1万多支参赛队伍,在工业界和学术界形成较高影响力。
今年,经过评测任务征集和评测组委会筛选,CCKS 2022共设立五个评测主题,共15个评测任务。CCKS 2022组委会为每个任务前三名颁发证书,并从所有队伍中特别评选10个“创新技术奖”。专委会还将协同Data Intelligence期刊编辑部组织“评测论文主题专刊”,优秀评测论文将推荐至该专刊免费发表,同时优秀评测论文也将推荐收录进入主会论文集,并有机会推荐至相应期刊发表。
作为本次金融NL2SQL评测任务的发起方之一,恒生在金融领域NLP的落地应用以及前沿技术探索方面,已有丰富的经验。恒生NLP通过自研金融预训练模型、知识积累及注入,形成了可应对长文档、大宽表、纵表、时序等挑战的整体能力,将前沿研究成果平稳落地到金融智能问答、投研分析等场景。
当前结构化数据的精准查询主要通过封装报表实现,但这难以大规模生产,也无法覆盖长尾问题。随着NLP预训练语言模型能力不断取得突破,基于大模型的文本自动转SQL语言技术也日趋成熟。基于NL2SQL技术打造新一代数据交互,并将其作为数智化背景下的数据应用引擎,可以通过“说一句话”的方式直接获取到想要的数据。这将解决投研人员、投资者等数据查找难的问题,并将运营人员从大量报表工作中解放出来,通过知识运维配置即可快速启动新场景的数据查询能力,进而提升业务运行效率。
评测任务
NL2SQL工程化过程中面临多表关联、大宽表、纵表、模型迁移、表识别等挑战。现有数据和方法主要关注“封闭场景,指定库/表,单表查询”设定,这很难满足真实场景应用需求。从领域特性来看,金融数据多为时间序列,包括日频行情、季频财报、年度GDP、不定期股票质押解质押等,这种复杂性会增大问题转SQL难度。考虑到垂直领域知识可能有助于构建可迁移系统,本评测任务将开放金融股票、基金、宏观等场景结构化表格及相关知识,推动垂直领域下NL2SQL技术发展。
数据集
本评测任务将提供有标注数据训练集3966条和验证集1000条,2000条无标签数据作为测试集。除标注数据外,还包括数据库基础信息(db_info.json)、数据库表(.sql文件和.sqlite文件)、领域知识(fin_kb.json)等。
奖励设置
恒生将提供30000元奖金,奖励评测结果优异的团队,具体设置如下:
第一名:15000元
第二名:10000元
第三名:5000元
此外,本次任务将会选出一支队伍参与CCKS评测任务创新奖评选(奖金5000元)。
时间安排
评测任务发布:4月12日
组队截止时间:7月25日(23:59 UTC)
验证集开始提交时间:5月1日(00:00 UTC)
验证集提交截止时间:7月25日(23:59 UTC)
测试集开始提交时间:7月26日(00:00 UTC)
测试集截止提交时间:7月31日(23:59 UTC)
任务组织者及联系方式
林金曙:linjs13607@hundsun.com
娄东方:loudf24454@hundsun.com
张少杰:zhangsj41876@hundsun.com
点击“阅读原文”,即可报名参赛
查看提交文件示例、评测指标等
NLP的更多可能性,等你来探索
推荐阅读:
恒生智能文档 | 五大场景,践行金融非结构化文档的数智化进程
你“在看”我吗?