Knowledge Base Question Answering (KBQA) aims to answer natural-language questions over a structured Knowledge Base (KB). Recent work improves KBQA by adopting an agentic reasoning paradigm, in which Large Language Models (LLMs) iteratively decompose a question, generate its corresponding logical queries, and interact with the KB to derive the answer. However, these methods typically fine-tune LLMs on reasoning trajectories synthesized via process supervision, which offers weak incentives for exploration and thus fails to strengthen the agentic reasoning ability. In this paper, we propose KnowCoder-A1, an LLM that can autonomously perform agentic reasoning on KBs to obtain answers. To incentivize autonomous exploration, KnowCoder-A1 trains the LLM under outcome-only supervision via a multi-stage curriculum reinforcement learning with an easy-to-hard curriculum. To establish foundational agentic capabilities, KnowCoder-A1 first fine-tunes the LLM on a small set of high-quality trajectories obtained through outcome-based rejection sampling. Then, to alleviate the reward sparsity inherent in outcome-only supervision, it applies multi-stage curriculum RL with reward schedules that progress from easy to hard. Trained with outcome-only supervision, KnowCoder-A1 exhibits powerful reasoning behaviors and consistently outperforms prior approaches across three mainstream datasets. Notably, on the zero-shot subset of GrailQA, KnowCoder-A1 achieves up to an 11.1% relative improvement while using only one-twelfth of the training data, demonstrating strong agentic reasoning capabilities.


翻译:知识库问答(KBQA)旨在基于结构化知识库(KB)回答自然语言问题。近期研究通过采用智能体推理范式来改进KBQA,其中大型语言模型(LLM)迭代地分解问题、生成对应的逻辑查询,并与知识库交互以推导答案。然而,这些方法通常基于过程监督合成的推理轨迹对LLM进行微调,这种监督对探索的激励较弱,因而无法有效增强智能体推理能力。本文提出KnowCoder-A1,一种能够在知识库上自主执行智能体推理以获取答案的LLM。为激励自主探索,KnowCoder-A1通过多阶段课程强化学习(采用由易到难的课程设计),在仅结果监督下训练LLM。为建立基础的智能体能力,KnowCoder-A1首先基于通过结果导向拒绝采样获得的小规模高质量轨迹对LLM进行微调。随后,为缓解仅结果监督固有的奖励稀疏性问题,该方法应用多阶段课程强化学习,其奖励调度遵循从易到难的渐进过程。在仅结果监督的训练下,KnowCoder-A1展现出强大的推理行为,并在三个主流数据集上持续超越先前方法。值得注意的是,在GrailQA的零样本子集上,KnowCoder-A1仅使用十二分之一的训练数据即实现了高达11.1%的相对性能提升,充分证明了其卓越的智能体推理能力。

0
下载
关闭预览

相关内容

【WWW2024】RecDCL: 双重对比学习用于推荐
专知会员服务
23+阅读 · 2024年1月30日
【CVPR2022】MSDN: 零样本学习的互语义蒸馏网络
专知会员服务
21+阅读 · 2022年3月8日
NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法
PaperWeekly
20+阅读 · 2019年4月24日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【WWW2024】RecDCL: 双重对比学习用于推荐
专知会员服务
23+阅读 · 2024年1月30日
【CVPR2022】MSDN: 零样本学习的互语义蒸馏网络
专知会员服务
21+阅读 · 2022年3月8日
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员