本文档由哥伦比亚大学周瑜(Zhou (Jo) Yu)及Arklex AI团队撰写,系统探讨了AI智能体(AI Agents)的演进、关键技术与未来发展方向。主要内容涵盖以下三大部分:
基于大语言模型(LLM)的自我改进技术 研究提出了一种名为TriPoST的方法,通过交互式轨迹编辑、数据后处理与加权监督微调(SFT),使小型语言模型(如LLaMA)能够从LLM生成的反馈中学习自我改进能力。实验表明,TriPoST在复杂任务(如多步算术、逻辑推理)中显著提升了模型性能,且无需人工监督即可实现模型优化。例如,在Big Bench Hard基准测试中,TriPoST迭代优化后的模型在未见任务上的准确率提升显著(如多步算术任务从16.8%提升至22.5%)。
树搜索增强模型能力 针对对话决策等任务,团队提出基于蒙特卡洛树搜索(MCTS)的开放环规划方法(如GDP-Zero),利用LLM模拟用户行为与价值评估,优化对话策略。在说服任务(PersuasionForGood数据集)中,该方法相比ChatGPT在捐赠概率(0.79 vs. 0.73)和说服力评分(4.38 vs. 4.10)上表现更优,展现了树搜索在动态任务中的有效性。
AI智能体的训练与部署框架 团队开发的Arklex框架以“智能体优先”为核心,支持混合控制、任务模块化分解、人类干预与持续学习。相比传统框架(如DialogFlow、LangChain),Arklex在开放性、控制灵活性与任务组合能力上更具优势。此外,团队提出R-MCTS(带对比性自反思的树搜索)与探索式学习方法,显著提升了视觉-网页交互任务(如VisualWebArena)的成功率,并实现搜索知识向模型的迁移。
核心贡献与展望 技术突破:通过交互式数据与树搜索,突破小模型自我改进的局限性,实现无监督性能提升。 框架创新:Arklex为复杂AI智能体系统提供可扩展、可控的解决方案。 未来方向:探索强化学习与模型预测控制(MPC),减少对树搜索的依赖,优化环境交互效率。