With the release of OpenAI's o1 model, reasoning models that adopt slow-thinking strategies have become increasingly common. Their outputs often contain complex reasoning, intermediate steps, and self-reflection, making existing evaluation methods and reward models inadequate. In particular, they struggle to judge answer equivalence and to reliably extract final answers from long, complex responses. To address this challenge, we propose xVerify, an efficient answer verifier for evaluating reasoning models. xVerify shows strong equivalence judgment capabilities, enabling accurate comparison between model outputs and reference answers across diverse question types. To train and evaluate xVerify, we construct the VAR dataset, which consists of question-answer pairs generated by multiple LLMs across various datasets. The dataset incorporates multiple reasoning models and challenging evaluation sets specifically designed for reasoning assessment, with a multi-round annotation process to ensure label quality. Based on VAR, we train xVerify models at different scales. Experimental results on both test and generalization sets show that all xVerify variants achieve over 95% F1 score and accuracy. Notably, the smallest model, xVerify-0.5B-I, outperforms all evaluation methods except GPT-4o, while xVerify-3B-Ib surpasses GPT-4o in overall performance. In addition, reinforcement learning experiments using xVerify as the reward model yield an 18.4% improvement for Qwen2.5-7B compared with direct generation, exceeding the gains achieved with Math Verify as the reward. These results demonstrate the effectiveness and generalizability of xVerify. All xVerify resources are available on \href{https://github.com/IAAR-Shanghai/xVerify}{GitHub}.


翻译:随着OpenAI的o1模型的发布,采用慢思考策略的推理模型日益普遍。其输出通常包含复杂的推理过程、中间步骤及自我反思,使得现有的评估方法和奖励模型难以胜任。具体而言,现有方法在判断答案等价性以及从冗长复杂的响应中可靠地提取最终答案方面存在困难。为应对这一挑战,我们提出了xVerify,一种用于评估推理模型的高效答案验证器。xVerify展现出强大的等价性判断能力,能够准确比较不同题型下模型输出与参考答案的差异。为训练和评估xVerify,我们构建了VAR数据集,该数据集包含由多种大语言模型在不同数据集上生成的问题-答案对。该数据集整合了多种推理模型以及专为推理评估设计的挑战性测试集,并通过多轮标注流程确保标签质量。基于VAR数据集,我们训练了不同规模的xVerify模型。在测试集和泛化集上的实验结果表明,所有xVerify变体均取得了超过95%的F1分数和准确率。值得注意的是,最小规模的模型xVerify-0.5B-I在除GPT-4o外的所有评估方法中表现最优,而xVerify-3B-Ib在整体性能上超越了GPT-4o。此外,使用xVerify作为奖励模型的强化学习实验使Qwen2.5-7B相比直接生成提升了18.4%,超过了使用Math Verify作为奖励所获得的增益。这些结果证明了xVerify的有效性和泛化能力。所有xVerify资源已发布于\href{https://github.com/IAAR-Shanghai/xVerify}{GitHub}。

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员