Large language models (LLMs) are increasingly deployed across the financial sector for tasks like investment research and algorithmic trading. Their high-stakes nature demands rigorous evaluation of models' safety and regulatory alignment. However, there is a significant gap between evaluation capabilities and safety requirements. Current financial benchmarks mainly focus on textbook-style question answering and numerical problem-solving, failing to simulate the open-ended scenarios where safety risks typically manifest. To close these gaps, we introduce CNFinBench, a benchmark structured around a Capability-Compliance-Safety triad encompassing 15 subtasks. For Capability Q&As, we introduce a novel business-vertical taxonomy aligned with core financial domains like banking operations, which allows institutions to assess model readiness for deployment in operational scenarios. For Compliance and Risk Control Q&As, we embed regulatory requirements within realistic business scenarios to ensure models are evaluated under practical, scenario-driven conditions. For Safety Q&As, we uniquely incorporate structured bias and fairness auditing, a dimension overlooked by other holistic financial benchmarks, and introduce the first multi-turn adversarial dialogue task to systematically expose compliance decay under sustained, context-aware attacks. Accordingly, we propose the Harmful Instruction Compliance Score (HICS) to quantify models' consistency in resisting harmful instructions across multi-turn dialogues. Experiments on 21 models across all subtasks reveal a persistent gap between capability and compliance: models achieve an average score of 61.0 on capability tasks but drop to 34.2 on compliance and risk-control evaluations. In multi-turn adversarial dialogue tests, most LLMs attain only partial resistance, demonstrating that refusal alone is insufficient without cited, verifiable reasoning.


翻译:大语言模型(LLMs)在金融领域的应用日益广泛,涵盖投资研究、算法交易等任务。其高风险特性要求对模型的安全性和监管合规性进行严格评估。然而,当前评估能力与安全需求之间存在显著差距。现有金融基准主要关注教科书式问答与数值问题求解,未能模拟安全风险通常显现的开放式场景。为弥补这些不足,我们提出了CNFinBench基准,该基准围绕“能力-合规-安全”三元框架构建,涵盖15项子任务。在能力问答方面,我们引入了一种新颖的业务垂直分类体系,与银行业务等核心金融领域对齐,使机构能够评估模型在业务场景中的部署准备度。在合规与风控问答方面,我们将监管要求嵌入真实业务场景,确保模型在实践驱动的场景化条件下接受评估。在安全问答方面,我们创新性地整合了结构化偏见与公平性审计——这一维度被其他综合性金融基准所忽视,并首次引入多轮对抗性对话任务,以系统性地揭示在持续、上下文感知攻击下模型合规性的衰减。基于此,我们提出了有害指令合规分数(HICS),用于量化模型在多轮对话中抵抗有害指令的一致性。在21个模型上的全子任务实验表明,能力与合规性之间存在持续差距:模型在能力任务上的平均得分为61.0,而在合规与风控评估中则下降至34.2。在多轮对抗性对话测试中,大多数大语言模型仅表现出部分抵抗能力,这表明仅靠拒绝指令是不够的,必须辅以可引用、可验证的推理过程。

0
下载
关闭预览

相关内容

在社会经济生活,银行、证券或保险业者从市场主体募集资金,并投资给其它市场主体的经济活动。
专知会员服务
22+阅读 · 2021年8月20日
CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员