Augmenting Large Language Models (LLMs) with external tools enables them to execute complex, multi-step tasks. However, tool learning is hampered by the static synthetic data pipelines where data generation and model training are executed as two separate, non-interactive processes. This approach fails to adaptively focus on a model's specific weaknesses and allows noisy labels to persist, degrading training efficiency. We introduce LoopTool, a fully automated, model-aware data evolution framework that closes this loop by tightly integrating data synthesis and model training. LoopTool iteratively refines both the data and the model through three synergistic modules: (1) Greedy Capability Probing (GCP) diagnoses the model's mastered and failed capabilities; (2) Judgement-Guided Label Verification (JGLV) uses an open-source judge model to find and correct annotation errors, progressively purifying the dataset; and (3) Error-Driven Data Expansion (EDDE) generates new, challenging samples based on identified failures. This closed-loop process operates within a cost-effective, open-source ecosystem, eliminating dependence on expensive closed-source APIs. Experiments show that our 8B model trained with LoopTool significantly surpasses its 32B data generator and achieves new state-of-the-art results on the BFCL-v3 and ACEBench benchmarks for its scale. Our work demonstrates that closed-loop, self-refining data pipelines can dramatically enhance the tool-use capabilities of LLMs.


翻译:通过为大型语言模型(LLMs)集成外部工具,使其能够执行复杂的多步骤任务。然而,工具学习受限于静态合成数据流程,其中数据生成与模型训练被分割为两个独立、非交互的过程。这种方法无法自适应地聚焦于模型的具体弱点,并允许噪声标签持续存在,从而降低训练效率。我们提出了LoopTool,一个全自动、模型感知的数据演化框架,通过紧密整合数据合成与模型训练来闭合这一循环。LoopTool通过三个协同模块迭代优化数据与模型:(1)贪婪能力探测(GCP)诊断模型已掌握与失败的能力;(2)判断引导标签验证(JGLV)利用开源评判模型发现并修正标注错误,逐步净化数据集;(3)错误驱动数据扩展(EDDE)基于已识别的失败生成新的挑战性样本。这一闭环流程在成本效益高、开源的生态系统内运行,消除了对昂贵闭源API的依赖。实验表明,使用LoopTool训练的8B模型显著超越了其32B数据生成器,并在BFCL-v3和ACEBench基准测试中达到了其规模下的最新最优性能。我们的工作表明,闭环自优化的数据流程能够显著提升LLMs的工具使用能力。

0
下载
关闭预览

相关内容

【CVPR2024】VidLA: 大规模视频-语言对齐
专知会员服务
20+阅读 · 2024年3月31日
UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
14+阅读 · 2022年5月4日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员