近年来,语言建模的最新进展引发了人们对将自然语言处理(NLP)技术应用于金融问题的广泛关注,从而推动了分析与决策的新方法的发展。为系统性地审视这一趋势,我们回顾了2017年至2024年间在38个会议和研讨会上发表的374篇NLP研究论文,并重点分析了其中221篇直接涉及金融相关任务的研究。 我们从11个定性与定量维度对这些论文进行了评估,识别出了一些关键趋势,例如通用语言模型的使用日益增加、情感分析与信息抽取技术的持续进展,以及在可解释性与隐私保护方法方面的新兴探索。我们还讨论了评估指标的使用,强调了在标准机器学习指标之外,采用领域特定评估指标的重要性。 我们的研究结果凸显出构建更具可访问性和适应性的金融数据集的必要性,并指出纳入金融危机期间数据对于增强模型在真实环境下的鲁棒性具有重要意义。本综述为NLP在金融领域的研究提供了结构化的回顾,并为在该交叉领域工作的研究人员和实践者提供了实用见解。

1 引言

语言建模已成为自然语言处理(NLP)中的关键工具,广泛应用于分析非结构化文本,如报告、新闻文章和社交媒体帖子。这些方法正日益被用于处理金融相关任务,例如情感分析(Balakrishnan 等,2022)、信息抽取(Huang 等,2023)、摘要生成(Khanna 等,2022)、股票预测(Jain 与 Agrawal,2024)以及波动率预测(Niu 等,2023)。随着越来越多的 NLP 研究论文聚焦于金融问题,有必要系统地审视该领域对金融应用的贡献。

尽管已有若干综述探讨了 NLP 与金融的交叉点(见表1),但许多综述主要采用定性方法(Chen 等,2022b;Gao 等,2021b;Xiao 等,2024a),着眼于广义 NLP 技术(Jagdale 与 Deshmukh,2025;Man 等,2019;Liu,2024)、深度学习(Ozbayoglu 等,2020)以及大语言模型(LLMs)(Nie 等,2024;Li 等,2023c),或聚焦于特定任务如情感分析(Mishev 等,2020)。然而,这些研究往往缺乏系统性的评估。 本研究专注于应用于金融领域的 NLP 研究。我们的研究范围包括在 NLP 相关会议中发表的论文,这些论文在金融问题上开发、测试或调整了 NLP 方法。我们分析了2017至2024年间发表于38个 NLP 会议和研讨会的共计374篇论文。经过进一步筛选(见第2节),最终保留了221篇直接涉及金融任务的论文。这些论文从11个定性与定量维度进行评估,包括任务类型、方法论、数据集、评估指标以及可获取性等方面。 我们的分析揭示了当前研究中的若干模式。常见任务包括情感分析、信息抽取和问答系统,而诸如可解释性和隐私保护等领域则相对较少被关注(见第3节)。在评估方面,标准机器学习指标被广泛采用,但这些指标并不总能准确反映金融领域的具体需求(见第7.1节)。多数研究集中于市场相对稳定的时期,较少关注波动性较大的时期(见第7.2节),并存在依赖过时数据源或忽视幸存者偏差等问题(见第7.3节)。 最后,我们观察到一个趋势,即相较于定制模型,研究者越来越倾向于采用通用语言模型(见第4节)。虽然这一趋势反映了 NLP 技术的迅速融合与发展,但进一步探索面向金融领域的专用建模策略,仍可能为金融任务带来更大的应用价值。

成为VIP会员查看完整内容
14

相关内容

长期以来,人工智能 (AI)在金融领域的研究和实施方面一直非常活跃。早在 1960 年代,金融部门就已经参与围绕贝叶斯统计(机器学习的主要内容)开发创新。这些开创性的用例基于监控股票市场和为投资者做出预测。今天,这一传统继续存在于人工智能驱动的机器人顾问身上,旨在提供基于算法的自动化财务规划服务,而无需人工协助。现代金融已将其人工智能应用多样化,包括简化内部业务流程和改善整体客户体验。财务专业人士和客户都可能会定期遇到 AI,因为大多数与服务相关的日常问题都是使用某种程度的AI 驱动的自动化来处理/解决的。为了满足客户对更快、更方便、更安全的金融体验不断增长的需求,这一趋势可能会加速。
大型语言模型在生物信息学中的应用综述
专知会员服务
15+阅读 · 3月15日
关于大语言模型驱动的推荐系统智能体的综述
专知会员服务
23+阅读 · 2月17日
《计算流体力学中的机器学习最新进展》综述
专知会员服务
33+阅读 · 2024年8月24日
视觉语言导航:大模型时代的综述
专知会员服务
48+阅读 · 2024年7月10日
大型语言模型与智能机器人集成的综述
专知会员服务
68+阅读 · 2024年4月22日
智能合约的形式化验证方法研究综述
专知
16+阅读 · 2021年5月8日
基于深度学习的数据融合方法研究综述
专知
33+阅读 · 2020年12月10日
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
13+阅读 · 2020年9月9日
深度学习可解释性研究进展
专知
19+阅读 · 2020年6月26日
层级强化学习概念简介
CreateAMind
18+阅读 · 2019年6月9日
基于深度学习的NLP 32页最新进展综述,190篇参考文献
人工智能学家
27+阅读 · 2018年12月4日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Arxiv
166+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
452+阅读 · 2023年3月31日
Arxiv
76+阅读 · 2023年3月26日
Arxiv
166+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关VIP内容
相关资讯
智能合约的形式化验证方法研究综述
专知
16+阅读 · 2021年5月8日
基于深度学习的数据融合方法研究综述
专知
33+阅读 · 2020年12月10日
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
13+阅读 · 2020年9月9日
深度学习可解释性研究进展
专知
19+阅读 · 2020年6月26日
层级强化学习概念简介
CreateAMind
18+阅读 · 2019年6月9日
基于深度学习的NLP 32页最新进展综述,190篇参考文献
人工智能学家
27+阅读 · 2018年12月4日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员