The manual, resource-intensive process of complying with the EU Taxonomy presents a significant challenge for companies. While Large Language Models (LLMs) offer a path to automation, research is hindered by a lack of public benchmark datasets. To address this gap, we introduce a novel, structured dataset from 190 corporate reports, containing ground-truth economic activities and quantitative Key Performance Indicators (KPIs). We use this dataset to conduct the first systematic evaluation of LLMs on the core compliance workflow. Our results reveal a clear performance gap between qualitative and quantitative tasks. LLMs show moderate success in the qualitative task of identifying economic activities, with a multi-step agentic framework modestly enhancing precision. Conversely, the models comprehensively fail at the quantitative task of predicting financial KPIs in a zero-shot setting. We also discover a paradox, where concise metadata often yields superior performance to full, unstructured reports, and find that model confidence scores are poorly calibrated. We conclude that while LLMs are not ready for full automation, they can serve as powerful assistive tools for human experts. Our dataset provides a public benchmark for future research.


翻译:企业遵循欧盟分类标准的手动、资源密集型流程构成了重大挑战。尽管大型语言模型为实现自动化提供了路径,但公开基准数据集的缺乏阻碍了相关研究。为填补这一空白,我们引入了从190份企业报告中构建的新型结构化数据集,其中包含真实经济活动与定量关键绩效指标。我们利用该数据集首次对LLM在核心合规工作流中的表现进行了系统评估。研究结果揭示了定性与定量任务间显著的性能差距:LLM在识别经济活动的定性任务中表现中等,多步骤智能体框架仅能小幅提升精确度;相反,在零样本场景下预测财务关键绩效指标的定量任务中,模型完全失效。我们还发现一个悖论——简洁的元数据常比完整的非结构化报告产生更优性能,且模型置信度分数校准效果不佳。结论表明,虽然LLM尚未具备全自动化能力,但可作为人类专家的强大辅助工具。本数据集为未来研究提供了公开基准。

0
下载
关闭预览

相关内容

机器或装置在无人干预的情况下按规定的程序或指令自动进行操作或控制的过程, 是一门涉及学科较多、应用广泛的综合性科学技术。
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员