本文档由哥伦比亚大学周瑜(Zhou (Jo) Yu)及Arklex AI团队撰写,系统探讨了AI智能体(AI Agents)的演进、关键技术与未来发展方向。主要内容涵盖以下三大部分:

  1. 基于大语言模型(LLM)的自我改进技术 研究提出了一种名为TriPoST的方法,通过交互式轨迹编辑、数据后处理与加权监督微调(SFT),使小型语言模型(如LLaMA)能够从LLM生成的反馈中学习自我改进能力。实验表明,TriPoST在复杂任务(如多步算术、逻辑推理)中显著提升了模型性能,且无需人工监督即可实现模型优化。例如,在Big Bench Hard基准测试中,TriPoST迭代优化后的模型在未见任务上的准确率提升显著(如多步算术任务从16.8%提升至22.5%)。

  2. 树搜索增强模型能力 针对对话决策等任务,团队提出基于蒙特卡洛树搜索(MCTS)的开放环规划方法(如GDP-Zero),利用LLM模拟用户行为与价值评估,优化对话策略。在说服任务(PersuasionForGood数据集)中,该方法相比ChatGPT在捐赠概率(0.79 vs. 0.73)和说服力评分(4.38 vs. 4.10)上表现更优,展现了树搜索在动态任务中的有效性。

  3. AI智能体的训练与部署框架 团队开发的Arklex框架以“智能体优先”为核心,支持混合控制、任务模块化分解、人类干预与持续学习。相比传统框架(如DialogFlow、LangChain),Arklex在开放性、控制灵活性与任务组合能力上更具优势。此外,团队提出R-MCTS(带对比性自反思的树搜索)与探索式学习方法,显著提升了视觉-网页交互任务(如VisualWebArena)的成功率,并实现搜索知识向模型的迁移。

核心贡献与展望 技术突破:通过交互式数据与树搜索,突破小模型自我改进的局限性,实现无监督性能提升。 框架创新:Arklex为复杂AI智能体系统提供可扩展、可控的解决方案。 未来方向:探索强化学习与模型预测控制(MPC),减少对树搜索的依赖,优化环境交互效率。

成为VIP会员查看完整内容
34

相关内容

【NAACL 2024】在大规模语言模型时代的人机交互,192页ppt
专知会员服务
57+阅读 · 2024年6月18日
【ChatGPT系列报告】ChatGPT 引发的大模型时代变革,80页pdf
专知会员服务
220+阅读 · 2023年2月28日
【干货书】PyTorch 深度学习,255页pdf
专知会员服务
277+阅读 · 2021年4月3日
MIT最新《贝叶斯深度学习》综述论文,37页pdf
专知会员服务
51+阅读 · 2021年1月4日
GAN新书《生成式深度学习》,Generative Deep Learning,379页pdf
专知会员服务
204+阅读 · 2019年9月30日
【KDD2020】图神经网络:基础与应用,322页ppt
多项NLP任务新SOTA,Facebook提出预训练模型BART
机器之心
22+阅读 · 2019年11月4日
【NLP】万字长文概述NLP中的深度学习技术
产业智能官
18+阅读 · 2019年7月7日
万字长文概述NLP中的深度学习技术
全球人工智能
12+阅读 · 2019年2月28日
图神经网络概述第三弹:来自IEEE Fellow的GNN综述
机器之心
46+阅读 · 2019年1月7日
459页《Python深度学习》下载
机器学习算法与Python学习
23+阅读 · 2018年10月29日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
44+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
A Survey of Large Language Models
Arxiv
430+阅读 · 2023年3月31日
Arxiv
71+阅读 · 2023年3月26日
Arxiv
22+阅读 · 2023年3月17日
Arxiv
11+阅读 · 2018年7月31日
VIP会员
相关主题
相关资讯
【KDD2020】图神经网络:基础与应用,322页ppt
多项NLP任务新SOTA,Facebook提出预训练模型BART
机器之心
22+阅读 · 2019年11月4日
【NLP】万字长文概述NLP中的深度学习技术
产业智能官
18+阅读 · 2019年7月7日
万字长文概述NLP中的深度学习技术
全球人工智能
12+阅读 · 2019年2月28日
图神经网络概述第三弹:来自IEEE Fellow的GNN综述
机器之心
46+阅读 · 2019年1月7日
459页《Python深度学习》下载
机器学习算法与Python学习
23+阅读 · 2018年10月29日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
44+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员