网络应用程序是用户访问信息、执行各种任务和与内容互动的重要界面。传统的网络设计主要关注用户界面和静态体验。随着大型语言模型(LLM)的出现,我们正在这些平台中整合由LLM驱动的智能体,这标志着一种范式转变。这些智能体引入了类似人类的关键能力,如记忆和计划,使其在完成各种任务时表现得更像人类,有效地增强用户参与度并在网络应用程序中提供定制化的互动体验。 在本教程中,我们将介绍在各种网络应用中使用LLM驱动的智能体的前沿技术,如网络挖掘、社交网络、推荐系统和对话系统。我们还将探索在这些代理中无缝整合的现有挑战,并暗示可能彻底改变我们与网络平台互动方式的未来研究方向。
根据选定参考文献中列出的代表性论文集,本教程大约有25%的内容涉及六位主讲人中至少一位的工作。教程的其他部分将通过尽可能多地讨论其他研究人员的相关工作,提供对教程主题的全面概述。
自主人工智能智能体长期被视为通向人工通用智能(AGI)的垫脚石,具有自主执行任务的能力。传统方法采用启发式策略函数,这些函数通常缺乏在开放域场景中的人类水平的熟练度,主要是由于启发式的限制和训练数据的约束。最近,大型语言模型在向人类智能迈进方面取得了令人印象深刻的进展[32]。这一进展促使将大型语言模型作为开发自主人工智能智能体的核心组件的趋势日益增长[34, 35, 37, 52]。 * 基于LLM的智能体架构。现有基于LLM的人工智能智能体的架构可以归纳为一个整合框架,最近的综述文献[39]对人工智能智能体进行了广泛的覆盖。这种统一结构包括四个主要模块:分析、记忆、规划和行动。分析模块确定智能体的角色,而记忆和规划模块使智能体置身于动态环境中,促进回忆和未来行动的策略制定。然后,行动模块将决策转化为具体输出。值得注意的是,分析模块同时影响记忆和规划模块,进而指导行动模块。 * 基于LLM的工具学习。基于LLM的工具学习旨在融合专业工具的能力和大型语言模型,使基于LLM的智能体能够使用外部工具,从而带来更好的自主问题解决能力。最近的研究突出了基础模型在工具利用方面的熟练度,如网页搜索自动化[31]、在线购物[45]、神经模型整合[37]、计算机任务执行[23]以及具体化机器人学习[2, 20]。
社交网络通过允许人们分享观点和交换信息来连接不同的人。近年来,许多人工智能技术被用来解决社交网络问题,如用户连接预测[47]和社会信息传播[4],其关键挑战在于理解人类内在的认知过程和行为模式。最近,通过学习大量的网络知识,大型语言模型在实现人类水平智能方面取得了显著成功。这为解决社交网络问题提供了新的思路,已有几次尝试将基于LLM的智能体引入这一领域。
社交网络模拟与基于LLM的智能体。社交网络模拟是一个基本问题。如果能准确模拟社交网络,那么其底层机制和运行规则就可以轻松理解和利用。然而,由于人类思维的内在性质,预测人们在社交网络中的行为相当困难。最近有几次尝试[16, 26, 33]利用基于LLM的智能体解决这一问题。这些论文的关键在于利用大型语言模型作为用户的大脑,并设计分析、记忆和规划模块,使大型语言模型表现得像人类。
社交网络问题解决与基于LLM的智能体。另一研究方向是将基于LLM的智能体与社交网络相结合,解决特定问题。人们利用智能体发现社会系统动态[17],分析不同智能体之间的社会原则[3]等。这一方向仍在迅速发展中,我们预见未来将有更多有前景的工作出现。
推荐系统在当今信息传播中扮演着关键角色,主动塑造个体偏好[25]。随着大型语言模型的最新进展,由大型语言模型驱动的智能体在自主互动和用户偏好理解方面取得了显著成就[29]。这种印象深刻的能力一方面可以用来在推荐系统中模拟真实的人类行为,无论是在个体还是人群层面,通过扩大其部署范围。另一方面,它为利用大型语言模型驱动的智能体构建新一代个性化推荐者开辟了可能性[44]。
用户行为模拟与大型语言模型驱动的智能体。在推荐系统中模拟用户行为是一个复杂的任务,需要深入理解人类的偏好和行为模式[5, 40, 49]。弥合这一差距不仅需要整合针对推荐环境量身定制的智能体模块,还需要适应这种环境的多模态本质[27, 48]。因此,由大型语言模型驱动的智能体必须配备并进一步微调以实现多模态理解,以逼近真实世界用户互动的真实度。
推荐智能体。虽然现代推荐系统擅长利用用户行为数据预测特定领域的推荐,但它们通常缺乏解释其推荐、参与用户对话和整合丰富用户数据的能力[21]。为了创建一个动态和互动的推荐系统,大型语言模型作为“大脑”,而推荐模型则充当工具[30, 42]。这一研究方向致力于为推荐生态系统开发面向用户的推荐智能体[38]。
大型语言模型驱动的对话智能体[13]不仅重新定义了用户互动,还引入了推动传统网络互动边界的创新功能。