军事历史对于支持当前对大规模作战行动(LSCO)的反思和确定其准备过程中可能存在的隐患很有帮助。

北约 (NATO) 陆军目前正在实施向 LSCO 的转变。他们可以借鉴现代史上许多类似事件(如美国内战的最初几年或战时)所提供的经验。根据条令,LSCO 的首要条件是大规模,是人力、装备和战略机动性的结合。事实上,这不仅意味着要有强大的后备系统,还要有能力快速部署大批部队,即使是在有争议的地区。招募或集结士兵是一个问题,但随之而来的是他们的训练和领导能力问题,因此,LSCO 的准备工作需要专业军事教育(PME)。除了强大的经验教训总结系统外,军事历史还可以通过概念性的前瞻,进行比较,从而有效地支持适应工作。

考虑到 LSCO 面临的挑战,必须利用一切可用的工具--首先是以往的经验。事实上,军事历史可以支持当前向 LSCO 转变的各个方面:研究、规划、PME 和培训。此外,它还能让北约陆军正确看待当前的转变。

AI与军事

成为VIP会员查看完整内容
4

鉴于致命自主武器系统(LAWS)所依赖技术(通常具有双重用途)的可用性,以及此类系统被认为能为某些用户带来的优势,能够提供致命自主能力的系统的扩散是不可避免的。致命性自主武器系统会给武装部队带来问题,但由于缺乏一个商定的定义,使规范和控制其扩散的努力变得更加复杂。

致命性自主武器系统并不是一种单一的能力。因此,本文根据致命性自主武器系统扩散的可能性和影响,考虑了与之相关的三大类风险:最小可行产品(MVP)、军用现成产品(MOTS)和高精尖产品。这些系统的复杂程度大不相同,各自造成的风险和对用户的要求也大不相同,所有这些都对扩散风险产生影响。

MVP LAWS 涉及自制和商业上指定和可用的技术。开发最小功能致命性自主武器系统所需的软件、硬件和专业知识可广泛获得,非国家行为者只要看到采用这种系统的好处,就可触手可及。这些武器具有最大的扩散风险,尤其是对非国家行为者而言,但它们往往很脆弱,而且单独考虑的话,并不能改变现代军队的游戏规则(就影响而言)。然而,即使是大规模使用的相对简单的系统,也会给往往缺乏大规模的西方军队造成问题。

MOTS具有高度自主性,正在迅速扩散到任何有足够资金的人,包括非国家行为者。然而,虽然许多是进攻性能力,但也包括防御系统,如防空武器,它们通常是自主的,但不具有进攻性。可以说,MOTS LAWS 造成的风险受限于可负担性,但采用这种系统可能有明显的优势,包括可实现战场大规模化。MOTS 极有可能扩散,而自主性军事进步与其说是技术障碍,不如说是意愿和道德问题。因此,虽然扩散的可能性很高(虽然略低于 MVP),但影响却更大,尤其是在系统可以大规模使用的情况下。

高精尖LAWS 是少数几个国家正在开发的精湛能力。它们是非常昂贵的复杂系统,专为对付明确的威胁(如对手战略防御网络或威慑能力中的某一特定要素)而设计,因此最具破坏性(影响大)。它们的采用优势很高,但开发和维护成本意味着目前不太可能扩散到最富裕的国家之外。

致命性自主武器系统的扩散需要采用优势,在许多领域,如 MVP 和 MOTS 模式,先进的常规能力仍比致命性自主武器有优势,尽管这种情况可能会改变。随着支持致命性自主武器系统的技术逐渐成熟并得到验证,扩散风险将会增加。军方有机会,也可以说有责任领导关于扩散问题的对话并影响其结果。

成为VIP会员查看完整内容
3

机器之心报道 转载机器之心编辑部

让我们恭喜获奖者!

本周,全球 AI 顶会 AAAI 2024 正式开幕,目前已公布了最佳论文(Outstanding Paper Award)等多个重要奖项。

AAAI 全称为国际先进人工智能协会 (Association for the Advancement of Artificial Intelligence),其每年举办的现场会议是人工智能领域里历史最悠久、涵盖内容最广泛的的国际顶级学术会议之一,今年已是第 38 届。据中国计算机学会推荐国际学术会议和期刊目录,AAAI 为人工智能领域的 A 类会议。

据了解,本届 AAAI 会议共有 12100 篇投稿(主赛道),继续打破历史纪录。经过全面而严格的审查程序,共有 2342 篇论文脱颖而出,录取率为 23.75%,相比此前有所提升。

本次大会于 2 月 20-27 日在加拿大温哥华会议中心举行。

图片来自 @RealAAAI。

图片来自 Yann LeCun。 **

**

杰出论文奖(Outstanding Paper Award)

本周四,AAAI 2024 公布了杰出论文奖,共三篇论文入选,作者中有不少华人的身影。

论文1:Reliable Conflictive Multi-view Learning

作者:徐偲(Cai Xu)、Jiajun Si、Ziyu Guan、Wei Zhao、武越(Yue Wu)、Xiyue Gao,来自西安电子科技大学。

论文2:GxVAEs: Two Joint VAEs Generate Hit Molecules from Gene Expression Profiles

**

**

作者:李晨(Chen Li)、山西芳裕(Yoshihiro Yamanishi),来自名古屋大学。

论文3:Proportional Aggregation of Preferences for Sequential Decision Making

**

**

作者:Nikhil Chandak、Shashwat Goel、Dominik Peters,来自海得拉巴国际信息技术学院(IIIT Hyderabad)、巴黎第九大学(Universit´e Paris Dauphine)。 * 论文链接(预印版):https://arxiv.org/abs/2306.14858

AAAI 2024 经典论文奖

AAAI 大会「经典论文奖」设立于 1999 年,旨在表彰从特定会议年度中选出的最具影响力的论文作者。今年该奖项颁给了第二十三届 AAAI 最具影响力的论文《Maximum Entropy Inverse Reinforcement Learning》,理由是这项研究将熵正则化引入强化学习,从而提高了预测、模仿学习、决策和人类 - AI 对齐的预测准确率。

论文地址:https://cdn.aaai.org/AAAI/2008/AAAI08-227.pdf 论文作者:Brian Ziebart, Andrew Maas, Andrew Bagnell, Anind Dey 机构:CMU

论文摘要:有研究表明将模仿学习问题设计为马尔可夫决策问题(Markov Decision Problems)的解决方案,是有益的。这种方法将学习过程简化为恢复一个效用函数的问题。

这项工作开发了一种基于最大熵原理的概率方法,其在决策序列上提供了一个定义良好的全局规范化分布,同时提供了与现有方法相同的性能保证。研究者在对现实世界的导航和驾驶行为进行建模的背景下开发技术,收集的数据本质上是嘈杂且不完美的。本文提出的概率方法可以对路线偏好进行建模,并提供一种基于部分轨迹推断目的地和路线的强大新方法。

AI 人类福祉奖

AAAI 的 AI 人类福祉奖旨在表彰保护、增强和改善人类生活,对人们生活具有长期积极影响的 AI 研究者。

今年的获得这一奖项的是哈佛大学计算机科学教授 Milind Tambe。Milind Tambe 是 AAAI Fellow 、ACM Fellow ,他还是 Google Research「AI for Social Good」计划的负责人。

Robert S. Engelmore 纪念奖

Robert S. Engelmore 纪念奖旨在表彰对自动化规划、机器学习和机器人技术在现实世界问题中的应用,以及对人工智能社区的广泛服务作出杰出贡献的个人。

今年的奖项颁给了 Raquel Urtasun(来自多伦多大学),以表彰她「对自动驾驶领域的机器学习、计算机视觉和创业做出的杰出贡献」。

AAAI/EAAI Patrick Henry Winston 杰出教育家奖

**

**

每年一度的 AAAI/EAAI 杰出教育家奖旨在表彰对人工智能教育做出重大贡献、为人工智能社区和整个社会带来持久利益的个人(或群体)。

2024 年获奖者是 Charles Isbell(来自威斯康星大学麦迪逊分校)和 Michael L. Littman(来自布朗大学),大会表彰他们「通过在线课程覆盖成千上万的学生,并通过创造性、娱乐性的方式向公众推广人工智能和机器学习的创新教学」 。

AAAI 杰出服务奖

AAAI 杰出服务奖每年表彰一位为人工智能社区提供卓越服务的个人。

今年的获奖者是 Ashok Goel,大会表彰他「通过广泛的领导力,特别是作为《AI Magazine》的主编和《Interactive AI Magazine》的创始编辑,为人工智能领域做出的杰出服务,以及在人工智能教育方面持续的跨学科贡献」。

参考内容: https://aaai.org/about-aaai/aaai-awards/ https://twitter.com/PJNarayanan/status/1760719589279690837

© THE END 转载请联系本公众号获得授权 投稿或寻求报道:content@jiqizhixin.com

成为VIP会员查看完整内容
3

摘要: 近年来,强化学习与注意力机制的结合在算法研究领域备受瞩目。在强化学习算法中,注意力机制的应用在提高算法性能方面发挥了重要作用。本文重点聚焦于注意力机制在深度强化学习中的发展,审视了其在多智能体强化学习领域的应用,并对相关研究成果进行调研。首先介绍了注意力机制和强化学习的研究背景与发展历程,并调研了该领域中的相关实验平台;然后,回顾了强化学习与注意力机制的经典算法,并从不同角度对注意力机制进行分类;接着,对注意力机制在强化学习领域的应用进行了梳理,根据三种任务类型(完全合作型、完全竞争型和混合合作竞争型)进行分类分析,重点关注了多智能体领域的应用情况;最后总结了注意力机制对强化学习算法的改进作用,并展望了该领域所面临的挑战和未来的研究前景。本文的工作有助于研究人员更深入地探索该领域,有助于进一步推动强化学习与注意力机制在实际项目中取得更加广泛和深远的应用,为未来的研究提供了一定的指导作用。 随着人工智能技术的不断发展,强化学习 (Reinforcement Learning, RL)和注意力机制的结 合在多机器人控制领域受到了越来越多的关注。RL 是机器学习的一个分支,专注于处理序列决策问题, 具有良好的鲁棒性能和能够更好地适应环境的优 点[1]。在实际 RL 应用中,智能体接收到的信息复 杂且繁多,并且 RL 算法的可解释性较低。为了解 决这些难题,研究人员在 RL 中引入了注意力机制。 随着机器学习的发展和计算机算力的提升, RL 领域、注意力机制领域以及二者相结合的应用 正受到越来越多的关注。在过去几十年中,研究人 员们提出了多种与其相关的算法,充分发挥了 RL 的决策能力和注意力机制的信息处理能力,以实现 多个智能体之间的最优决策。1989 年,Watkins 和 Dayan 将 Bellman 方程、Markov 决策过程等最优控 制理论与时间差学习相结合,创造了 Q-learning 算 法。随后,Q-learning 被广泛应用于解决各种实际 问题。注意力机制最早于 2014 年被提出,由 Google Mind 团队的研究人员[2]引入了一种基于 RNN 的注 意力模型,名为视觉注意的循环模型,旨在解决视 觉任务中的对象识别和图像分类等问题。随着智能 体数量的增加,各个智能体之间需要处理和沟通以 做出决策的信息也在显著增加,这会导致有用信号 淹没在背景噪声中。为了应对这一问题,研究人员 [3]提出了一种基于注意力机制的多智能体强化学 习(Multi-Agent Reinforcement Learning, MARL)算 法——多重注意力演员-评论家算法(Multiple Attention Actor-Critic with Attention, MAAC-A )。 MAAC-A 通过一个集中的评论家和多个分散的演 员来学习多智能体系统(Multi-Agent System, MAS)。 为了克服传统价值函数方法和 PG 方法在多智能体 问题上的限制,MAAC-A 借鉴了多智能体深度确定 性策略梯度方法(Multi-Agent Deep Deterministic Policy Gradient, MADDPG),该方法运用注意力机 制关注不同智能体之间的交互,从而提高学习效率 和性能。随后,2021 年,研究者[4]提出了一种基于 自关注机制的深度循环 Q 学双引擎谣言检测模型, 结合自注意力机制和 RL,可以更早地排除不必要 的信息,进而提高准确率。由于其处理大量信息的能力,注意力机制在RL 领域引起了广泛关注。OpenAI、DeepMind和Google Brain 等团队是该领域的领导者,发表了多种具有里程碑意义的方案,对RL研究产生了深远的影响。此外,许多学者和团队的努力推动了RL中注意力机制的迅速发展,为未来解决各种RL问题奠定了基础。近年来,在中国、美国和欧洲出现了更多的 RL 工作室,反映了该领域的快速发展趋势。目前,关于 RL 的综述性论文大约有400篇。然而,仅有大约40 篇综述性论文探讨了其在多智能体领域的应用。这些综述从不同的角度出发,包括 RL 协作([5,6]引用)、竞争[7]、混合[8]等不同分类,以及从无人机无人驾驶飞行器(UnmannedAerial Vehicles , UAV)领域[9,10]、通信[11]、交通信号[12]、微电网[13]、资源分配[14,15] 、运动控制[16]等不同领域的应用,对RL 以及MARL算法进行了深入讲述。作为人工智能发展前沿的一部分,RL与注意力机制的结合已引起许多国家的重视。尽管有关于和注意力机制的综述已有许多,但专注于多智能体领域中注意力机制与RL 结合应用的综述尚未出现。因此,本文旨在填补这一研究空白,重点关注2014年一月至 2023 年十月的RL 与注意力机制结合在多智能体领域的研究成果,并进行了全面总结。本文的主要贡献如下:(1)回顾了深度学习中注意力机制的经典算法,根据不同的角度对注意力机制进行分类;(2)首次系统介绍了近年来RL 中的注意力机制算法的结合情况以及研究进展,是该领域的第一次综述; (3)对注意力机制在MARL 领域的应用进行了梳理,关注并展望了该领域所面临的挑战和未来的研究前景。我们的工作有助于研究人员更好地深入研究该领域。 本文主要探讨了注意力机制在DRL中的发展和应用,旨在为后续基于RL 的注意力机制应用提供概念理解和理论支持。

成为VIP会员查看完整内容
8

您从本指南中获得的知识将适用于当前的GPT模型系列(GPT-3、GPT-3.5、GPT-4等),并且很可能也适用于未来可能发布的GPT-5。

OpenAI提供了API(应用程序编程接口)来访问他们的人工智能。API的目标是通过创建一个通用接口来抽象底层模型,允许用户无论版本如何都能使用GPT。 本指南旨在提供一个全面、步骤详尽的教程,关于如何通过这个API在您的项目中利用GPT-3.5和GPT-4。它还涵盖了其他模型,如Whisper和文本转语音。 如果您正在开发一个聊天机器人、一个AI助手,或一个利用AI生成数据的Web应用程序,这本指南将帮助您实现您的目标。

如果您对Python编程语言有基本的了解,并且愿意学习一些额外的技巧,如使用Pandas数据框架和一些NLP方法,那么您拥有开始使用OpenAI工具构建智能系统所需的所有工具。 请放心,您不需要成为数据科学家、机器学习工程师或AI专家,就能理解和实施本指南中呈现的概念、技术和教程。所提供的解释直白易懂,包含简单的Python代码、示例和动手练习。 本指南强调实践、动手学习,旨在帮助读者构建实际应用程序。它以示例为驱动,提供了大量实际示例,帮助读者理解概念,并将它们应用于实际场景中,以解决现实世界的问题。 通过您的学习旅程的结束,您将开发出如下应用程序: * 微调的、特定领域的聊天机器人。 * 具有记忆和上下文的智能会话系统。 * 使用RAG和其他技术的现代语义搜索引擎。 * 基于您的口味的智能咖啡推荐系统。 * 一个协助处理Linux命令的聊天机器人助手 * 一个微调的新闻类别预测系统。 * 一个模拟类人对话或解决问题的AI对AI自主讨论系统 * 一个在大型心理健康对话数据集上训练的基于AI的心理健康教练 * 等等!

通过阅读本指南并跟随示例,您将能够: * 了解不同的模型,以及如何以及何时使用每一个模型。 * 生成类人文本,用于回答问题、创建内容和其他创造性用途。 * 控制GPT模型的创造力,并采用最佳实践来生成高质量文本。 * 转换和编辑文本以执行翻译、格式化和其他有用的任务。 * 使用各种参数和选项(如max_tokens、temperature、top_p、n、stream、logprobs、stop、presence_penalty、frequency_penalty、best_of等)优化GPT模型的性能。 * 在使用API时进行词干提取、词形还原和降低成本。 * 理解上下文填充、链接和练习提示工程。 * 实现具有记忆和上下文的聊天机器人。 * 创建预测算法和零样本技术,并评估它们的准确性。 * 理解、练习并改进小样本学习。 * 理解微调并利用其力量创建您自己的微调模型。 * 理解并使用微调最佳实践 * 练习使用GPT的训练和分类技术。 * 理解嵌入以及公司如特斯拉和Notion是如何使用它的。 * 理解并实施语义搜索、RAG和其他高级工具和概念。 * 将向量数据库(例如:Weaviate)与您的智能系统集成。

成为VIP会员查看完整内容
11

**论文题目:**Revisit and Outstrip Entity Alignment: A Perspective of Generative Models **本文作者:**郭凌冰(浙江大学)、陈卓(浙江大学)、陈矫彦(曼彻斯特大学)、方尹(浙江大学)、张文(浙江大学)、陈华钧(浙江大学) **发表会议:**ICLR 2024 论文链接:https://arxiv.org/abs/2305.14651 码链接:https://github.com/zjukg/GEEA 欢迎转载,转载请注明出处

**

**

引言

基于知识图谱嵌入的方法在实体对齐领域取得了巨大成功。本文以生成模型的视角重新解构了目前实体对齐方法的范式,展示了其与生成模型间的相似之处,并从理论上揭示了现有的基于生成对抗网络的方法的局限性。通过引入新的互变分自编码器(Mutual-VAE)作为生成模型,本文构建了一个生成式实体对齐框架(GEEA)。GEEA实现了知识图谱之间的实体转换,并且能够从随机噪声中生成新的实体。通过理论分析、实体对齐实验,以及实体合成实验等,系统地展示了生成模型在实体对齐及实体合成任务上的强大能力。

背景

实体对齐的结果往往被用于丰富不同的知识图谱,但不同的知识图谱中通常存在一些目标知识图谱中没有的实体,这些实体被称为“悬挂实体(dangling entity)”。如果可以将这些实体从源知识图谱转换到目标知识图谱,将在许多任务中节省大量时间和精力。 从随机变量生成新实体可以应用到多个新兴领域,如元宇宙、游戏、剧本设计等。在这些领域中虚拟角色仍依赖于手工编写或随机算法,而丰富、相互联系的角色对构建沉浸式虚拟世界至关重要。这些内容可以利用知识图谱来存储,并通过实体合成生成新的具有丰富关系的角色信息。

方法

如下图所示,本文设计的生成式实体对齐框架可分为5个模块:

变分自编码器 利用不同的变分自编码器可分别将不同模态的信息编码到预设的正态空间,再通过对应的解码器将其重新解释为输入向量。通过采用适当的损失函数,该变分自编码器模块可学习到生成随机样本的能力。 1. 重构先验信息 变分自编码器所输入输出的信息均为嵌入向量,与原始的图结构信息等并不一致。因此框架中还包含一个先验重构层,其目标是将不同模态的嵌入重新转换为原始的输入特征。 1. 知识融合 对于不同模态的输入嵌入可通过融合层得到一个归一化的嵌入,这样就可以利用对应的损失函数来最小化多模态、不同源的知识间的差异,使得模块学习到知识融合的能力。 1. 分布对齐 值得注意的是,在第1步中,被变分自编码器所编码后的输出可以通过训练使其服从于正态分布,这样便可在生成阶段从正态分布中采样再经过解码层获得输出向量,之后通过第2步重构其先验特征。 1. 重构后验信息 由于所涉及到多种知识表示,必须保证变分自编码器所生成的不同模态的输出能够互洽。通过将生成的不同模态的输出向量重新输入至第3步中的融合层,便可得到一个重构后的融合向量,这样就可以对比其与原有向量间的差异来评估自洽性。

实验

如下图所示,在多个实体对齐数据集上,引入了生成目标的GEEA显著优于其他方法。 同时,在实体合成结果上,本文所提出的GEEA也要优于一些生成模型或是生成模型与实体对齐模型的结合:

下表展示了一些实体合成的结果,其中输入的源知识图谱实体在目标知识图谱中并不存在。可以看出,GEEA所生成的属性和邻居甚至包含了一些原本知识图谱中并不存在但正确的内容。对于图片信息,由于目前方法均采用预训练的图片向量而非引入视觉模型的缘故,在GEEA中直接取距离最近的目标知识图谱图片作为输出。

总结

本文对如何利用生成模型进行实体对齐与实体合成进行了理论分析,并提出GEEA来解决现有基于生成模型方法的局限性。实验证明,GEEA在实体对齐和实体合成任务均较现有方法有着显著优势。未来工作将专注于设计新的多模态编解码器以进一步增强模型的生成能力。

成为VIP会员查看完整内容
6

最近,大型语言模型(LLMs)在理解和零次学习文本数据方面展现出了卓越的能力,为许多与文本相关的领域承诺了重大进步。在图领域,各种现实世界的情景也涉及文本数据,其中任务和节点特征可以通过文本来描述。这些具有文本属性的图(TAGs)在社交媒体、推荐系统等方面有广泛的应用。因此,本文探讨了如何利用LLMs来建模TAGs。之前对TAG建模的方法基于百万级别的语言模型。当扩展到十亿级别的LLMs时,它们在计算成本方面面临巨大挑战。此外,它们还忽略了LLMs的零次推理能力。因此,我们提出了GraphAdapter,它使用图神经网络(GNN)作为与LLMs合作的高效适配器来处理TAGs。在效率方面,GNN适配器只引入了少量可训练参数,并且可以以低计算成本进行训练。整个框架使用自回归在节点文本上(下一个令牌预测)进行训练。一旦训练完成,GraphAdapter就可以通过任务特定的提示进行微调,以适应各种下游任务。通过在多个现实世界的TAGs上进行广泛的实验,基于Llama 2的GraphAdapter在节点分类方面平均改进了约5%。此外,GraphAdapter还可以适应其他语言模型,包括RoBERTa、GPT-2。这些有希望的结果表明,GNNs可以作为LLMs在TAG建模中的有效适配器。

图在现实世界中无处不在[1]。过去,图结构在许多机器学习应用中得到了广泛的探索和利用[27, 39]。在许多实际情况中,图中的节点具有文本特征,这被称为具有文本属性的图(TAGs)[37]。例如,在社交媒体[18]中,节点代表用户,节点特征是用户资料。TAGs中的节点既有文本数据也有结构数据,这两者都反映了它们的内在属性。将文本和结构数据结合起来对TAGs进行建模,是图机器学习和语言建模都在探索的一个令人兴奋的新方向,这可以促进图的应用。在TAGs中,节点的结构和文本数据之间存在复杂的相关性。理解这种相关性可以促进TAGs的建模[5]。在图1中,用户“Bob”经常在社交媒体上浏览每日新闻,这一点从他的用户资料中的描述中可以得到证实。类似于Bob的用户,他们有许多关注者并且经常浏览新闻节点,也可能对新闻感兴趣。换句话说,图可以通过结构邻近性补充节点上的文本属性。图神经网络(GNNs)是利用TAGs中的文本信息和图结构的事实上的机器学习模型。然而,缺乏一个与不同语言模型兼容的统一GNN架构,尤其是强大的基础模型。 最近,研究人员积极探索有效模拟具有文本属性的图(TAGs)中文本和结构数据的方法。其中一些研究强调了优化级联架构,该架构结合了图神经网络(GNNs)和语言模型(LMs)(级联GNN-LMs)[37, 42]。这些模型的一个主要挑战是消息传递机制带来的额外计算成本极高。为此,几项研究通过冻结主干语言模型的部分或全部参数,成功减少了这类级联模型的内存和计算开销[20, 25]。大型语言模型在各种实际应用中展现出卓越的多任务和少次学习能力[2]。然而,当考虑级联GNN-LMs时,现有技术无法扩展到像Llama 2这样的十亿级模型[33]。另一项开创性研究尝试使用无监督图信息(自监督学习GNN-LMs)对语言模型进行微调[4, 26]。例如,GIANT[4]通过邻居预测任务微调语言模型,随后使用精炼的语言模型提取节点表示以用于下游任务。在这些方法中,预训练语言模型(PLMs)可以在调优过程中间接整合图信息,从而提升其处理TAGs的能力。然而,它们将GNNs和LMs的训练分开,可能导致次优的图感知调优结果。

我们认为,与其使用图信息作为监督,不如利用图结构通过语言建模丰富文本特征。在我们之前的例子中,可以使用结构邻近性来推断用户的偏好,即使他或她没有在个人资料中提及。因此,与自监督学习方法不同,我们考虑预训练一个框架,该框架可以通过利用丰富的文本特征,结合图感知结构和LLMs。然而,传统的框架,如级联GNNs和LLMs,在预训练场景中面临效率问题。因此,受到对LLMs进行参数高效调优工作的启发[14, 22, 23],我们提议使用GNNs作为LLMs的高效适配器(即GraphAdapter)。在GraphAdapter中,LM被冻结,LM的最终输出通过可训练的适配器GNNs进行修改。GraphAdapter提供了几个优势: * 轻量级:GNN适配器引入了少量可训练参数和低计算成本。 * 语言感知的图预训练:使用语言指导图结构的建模,这可以帮助LLMs理解文本和结构信息。 * 方便的调优:一旦预训练了特定于图的适配器,它可以被微调用于多个下游任务。

现在,我们提出GraphAdapter的详细信息,关于适配器GNNs的预训练和微调。为了捕获图的数据分布,我们在节点文本上对LLMs进行参数高效的调优。这种方法类似于语言模型的持续训练[31],除了GNN是调优参数,这有助于减少预训练语料库和目标数据之间的分布差异。为了进一步提高效率,我们专门在变换器的最后一层使用GNN适配器。这确保了所有变换器的计算过程只执行一次,然后可以被缓存用于适配器训练。此外,我们对GNN适配器和LLMs预测的logits进行平均池化,然后优化它们下一个词预测的最终结果,这可以帮助适配器更多地关注与图相关的令牌。一旦训练了适配器,就可以将GraphAdapter与主干LLMs一起用于各种下游任务。例如,我们使用分类头放在最后一个令牌的嵌入上,以便微调节点分类。为了验证GraphAdapter的有效性,我们在包括社交和引用网络在内的多个真实世界TAGs上进行了广泛的实验。GraphAdapter在平均上比最先进的级联GNN-LM方法改进了4.7%,比自监督学习GNN-LMs改进了5.4%,同时训练参数和存储减少了30倍。此外,一旦预训练了GraphAdapter,就可以方便地微调用于各种任务。我们的消融分析显示,预训练步骤在不同图上一致地提高了模型性能。我们总结我们的贡献如下, * GraphAdapter是一种新颖的方法,它利用大型语言模型处理图结构数据,并进行参数高效的调优。 * 我们提出了一种残差学习程序,以LLMs预训练GNN适配器。预训练步骤显著提高了GraphAdapter的微调性能。 * 我们在使用最先进的开源大型语言模型(GPT-2 1.5B[28]和Llama 2 13B[33])的大规模TAGs上进行了广泛的实验。结果表明,GraphAdapter也可以从更大的模型中获益。

成为VIP会员查看完整内容
4

来自滑铁卢大学Wenhu Chen老师的课程“Recent Advances on Foundation Models”在滑铁卢大学是公开的。

课程中,覆盖了许多有趣的话题,包括Transformers、LLM、预训练、量化、稀疏注意力、指令调整、RLHF、提示、视觉Transformers、扩散模型、多模态模型、代理、RAG等。 我将继续上传幻灯片(ppt)到网站上。其中一些很快也会有录制视频。现在已经有12个讲座幻灯片可用。这些幻灯片是由课程的出色参与者制作的。 https://cs.uwaterloo.ca/~wenhuche/teaching/cs886/

成为VIP会员查看完整内容
12

本论文聚焦于提高深度学习模型对自然腐败的韧性这一关键挑战。尽管深度学习模型有潜力在各个领域带来重大进展,但当面对与其训练数据不同的场景,如噪声、模糊、天气变化和数字化伪影时,它们易于失败。这类失败对人类安全可能产生严重影响,例如由自动驾驶汽车引发的事故。为了解决这一问题,本研究探讨了鲁棒性与熵之间的相关性,并提出了一种新颖的高斯对抗训练方法,以增强图像分类模型的腐败韧性。此外,为了将对鲁棒深度学习的理解从图像扩展到视频,本论文建立了一个用于评估视频分类鲁棒性的大规模基准,并使用最先进的深度学习模型和技术进行了全面研究。研究揭示了提高视频模型鲁棒性的技术尚未被充分探索。因此,本研究探索了涉及多样化数据增强和一致性正则化的方法。最后,受到视频的时间连贯性特点的启发,提出了一种提高效率和效果的测试时优化技术。本研究的发现对于开发安全可靠的AI系统具有重大意义,为这些技术在实际应用中的广泛部署铺平了道路。

成为VIP会员查看完整内容
2

在人工智能领域的长期愿景中,体现智能的核心目标是提高智能体与环境的感知、理解和交互能力。视觉-语言导航(VLN)作为实现体现智能的关键研究路径,专注于探索智能体如何使用自然语言与人类有效沟通、接收和理解指令,并最终依赖视觉信息实现准确导航。VLN整合了人工智能、自然语言处理、计算机视觉和机器人学。这一领域面临技术挑战,但在人机交互等应用中显示出潜力。然而,由于从语言理解到行动执行的复杂过程,VLN面临视觉信息与语言指令对齐、提高泛化能力以及许多其他挑战。本综述系统地回顾了VLN的研究进展,并详细阐述了具有体现智能的VLN的研究方向。在对其系统架构和基于方法及常用基准数据集的研究进行详细总结后,我们全面分析了当前研究面临的问题和挑战,并探索了该领域的未来发展方向,旨在为研究人员提供实用参考。

自约翰·麦卡锡于1956年创造了人工智能(AI)这一术语以来,该领域经历了多个阶段的发展,从符号主义到联结主义[1]。在过去的几十年中,深度学习技术的快速发展,如卷积神经网络(CNNs)和循环神经网络(RNNs)的兴起,特别是生成式预训练的变换器(GPT)等大型语言模型的进步,推动了AI在计算机视觉和自然语言处理领域内的重大突破。在AI的发展轨迹中,汉斯·莫拉维克提出的“莫拉维克悖论”强调了高级认知和基本感官任务之间的性能对比[2]。这一发现促使研究人员逐步探索AI理解和与物理世界互动的能力,被称为体现智能。这种方法旨在将AI系统与真实或模拟环境集成,使它们能够以类似人类的方式在这些环境中互动和执行任务[3]。体现智能强调类人的认知能力和在现实世界环境中互动的能力,为高级AI应用奠定了重要的基础,并引入了新的研究途径和方法论[4-6]。文献中已经全面讨论了体现智能与机器人学之间的紧密联系[7, 8]。此外,许多研究机构和公司正积极推进体现智能的发展。例如,麻省理工学院已经建立了一个“体现智能”研究小组,国际科技巨头如谷歌和特斯拉正在这一领域进行大量投资。目前,体现智能已广泛应用于教育[9]、材料科学[10]、能源[11]等领域,成为下一代AI理论和应用突破的关键前沿。

视觉-语言导航(VLN)[12-14]作为体现智能领域内的一个关键研究方向,融合了人工智能、自然语言处理、计算机视觉和机器人学。其目的是使代理能够通过理解自然语言指令和解释视觉信息,在虚拟和真实环境中导航[15-17]。这种方法不仅为更自然和高效的人机交互铺平了道路,而且符合人们对AI未来发展的期望。如图1所示,VLN代理通常将视觉信息和语言指令作为输入,输出包括导航动作和对象识别,从而在复杂环境中实现有效导航[18, 19]。VLN的进步得到了计算机视觉和自然语言处理领域进展的支持,特别是在对象分类[20]、对象检测[21]、语义分割[22]和大规模预训练语言模型[23, 24]方面,为VLN的发展提供了坚实的基础,并增强了代理在复杂设置中的功能能力。尽管技术取得了重大进步,但通过VLN实现体现智能仍面临挑战。这些挑战包括有效整合多模态信息和解决有限训练数据及不足的泛化能力问题。虽然VLN已发展成为一个独立的学科分支,但在体现智能背景下对VLN的综合性回顾仍然稀缺。本综述旨在彻底探索VLN在体现智能领域的当前研究现状和未来前景,提供对VLN的基本原理、研究成就、核心机制和发展轨迹的全面分析。它介绍了相关数据集,并通过分析不同模型的架构、优势、局限和评估指标来量化导航性能,总结研究进展并展望未来发展方向。

VLN研究源于计算机视觉和自然语言处理的深度整合,其核心目标是实现体现智能。作为AI领域的前沿话题,众多研究人员持续探索更高效的方法结合视觉感知和语言理解,以增强代理的导航能力。VLN已逐渐从理论探索过渡到实际应用,在各种场景中展示潜力。本文通过描绘发展时间线(如图2所示)和知识图谱(如图3所示),提供了该领域研究进展的直观概述,帮助清晰理解VLN的发展趋势和未来应用前景。

自2012年以来,随着CNNs[25]在计算机视觉领域[26]的显著成功和RNNs[27]在自然语言处理领域的突破,越来越多的研究开始探索视觉和语言的多模态融合。2018年,GPT[28]、BERT[24]和变换器(Transformers)[29]等预训练语言模型的出现,大大推进了自然语言处理领域的发展。这些模型在大量文本数据上预训练,提高了对人类语言的理解和生成能力,促进了图像标题生成[30]和视觉问答(VQA)[31, 32]等应用的开发,如图4所示。这些初步探索强调了视觉信息和自然语言的有效组合,但没有充分挖掘它们更深层次的联系,并在代理的环境感知上表现出显著不足。

2017年,Chang等人在国际3D视觉会议上介绍了Matterport 3D模拟场景数据集[33]。2018年,Anderson等人基于Matterport 3D首次提出了VLN的概念,并创建了首个VLN基准数据集Room-to-Room (R2R)[13],为该领域奠定了基础。同年,Fried等人提出的Speaker-Follower系统[34]为VLN任务带来了新的见解,提高了代理的导航准确性。自监督辅助任务[35]强调了代理在导航过程中的推理能力。Wang等人提出了一种跨模态对齐方法[36],应用自监督模仿学习来通过模仿过去的成功决策探索新环境,显著减少了已知和未知场景之间的性能差距。2021年,Moudgil等人引入了基于Transformer的VLN代理SOAT,使用场景分类器和对象检测器作为视觉编码器,并利用场景级和对象级特征取得了显著的性能提升[25]。2022年,Kuo等人强调了在VLN任务中使用ImageNet预训练图像编码器的负面问题[37],特别是ImageNet和导航场景之间的分布差异可能导致编码器预训练效果不佳。为解决这一问题,他们提出了一套结构化编码辅助方法,使用导航场景数据预训练图像编码器。2023年,Xu等人引入了一个在线视觉-语言映射导航框架[38],Lin等人使用基于熵的方法构建轨迹节点和行动感知指令生成器,两者均取得了优异的性能[39]。这标志着VLN代理在真实场景导航方面的显著进步,有效缩小了模拟与现实世界应用之间的差距。

VLN领域已从初步的理论探索发展到具体应用,涌现出多种创新方法。这些成就为代理在复杂场景中有效导航提供了强有力的支持,并指明了未来研究和技术发展的方向。

尽管在体现智能和VLN领域取得了显著进展,但仍面临几个挑战。首个挑战涉及多模态融合与理解,需要代理高效地整合和解释复杂指令与动态场景中的视觉和语言信息。第二个挑战与算法的泛化能力和计算效率相关,这些算法必须在不同的环境和任务中保持有效,同时优化计算资源的使用。最后,数据集和模拟环境的局限性是限制算法应用的主要因素。

现有的模拟场景通常使用导航图(Nav-graphs)表示,并伴随多个假设,这些假设影响了它们在现实世界场景中的有效性。在这些模拟环境中,VLN代理通常通过深度学习解析视觉和语言信息,并使用强化学习做出行动决策。尽管这种方法在模拟设置中有效,但在转移到现实世界场景时面临差异。关于行动执行,模拟环境中代理的移动是离散的,类似于瞬间传送,而现实世界场景要求代理持续且逐步移动,涉及更复杂的感知和控制能力。如图5所示,Matterport 3D提供的导航图反映了空间结构,但可能忽略了现实场景中的动态变化,如照明和移动障碍。此外,现实世界场景中的代理需要整合各种复杂行为并处理众多不确定性,增加了应用的难度。虽然强化学习方法在模拟环境中提高了学习能力,但在现实世界中可能带来高成本和安全风险。总的来说,VLN代理从模拟场景向现实世界场景过渡所面临的挑战突显了对当前方法进行进一步改进和适应以用于实际应用的需求。

本综述全面探索了体现智能领域中VLN的最新发展和应用前景,深入研究了成为VLN研究持续进化关键驱动力的VLN代理的重大进展。介绍了各种主流VLN代理,并彻底回顾了提高模型泛化能力的方法。尽管近年来VLN任务取得了显著进展,持续的研究揭示了各种约束和限制。这些挑战呼吁研究人员继续进行深入调查,不仅旨在实现性能突破,还要增强模型的实际应用价值。本文旨在帮助研究人员更好地理解VLN领域内未解决的问题,从而推进未来的研究。鉴于未来各个领域对VLN的广泛应用需求,本文希望增加对VLN任务研究的关注和参与,吸引更多研究人员和实践者为这一领域的进一步发展做出贡献。

成为VIP会员查看完整内容
9
登陆后查看更多精品内容
VIP会员
本周荟萃主题
区块链
区块链(Blockchain)是由节点参与的分布式数据库系统,它的特点是不可更改,不可伪造,也可以将其理解为账簿系统(ledger)。它是比特币的一个重要概念,完整比特币区块链的副本,记录了其代币(token)的每一笔交易。通过这些信息,我们可以找到每一个地址,在历史上任何一点所拥有的价值。
深度学习
机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。
机器学习
“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。”

——中文维基百科
强化学习
强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。
推荐系统
推荐系统,是指根据用户的习惯、偏好或兴趣,从不断到来的大规模信息中识别满足用户兴趣的信息的过程。推荐推荐任务中的信息往往称为物品(Item)。根据具体应用背景的不同,这些物品可以是新闻、电影、音乐、广告、商品等各种对象。推荐系统利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程。个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和产品过程无疑会使淹没在信息过载问题中的消费者不断流失。为了解决这些问题,个性化推荐系统应运而生。个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。
卷积神经网络
在深度学习中,卷积神经网络(CNN或ConvNet)是一类深度神经网络,最常用于分析视觉图像。基于它们的共享权重架构和平移不变性特征,它们也被称为位移不变或空间不变的人工神经网络(SIANN)。它们在图像和视频识别,推荐系统,图像分类,医学图像分析,自然语言处理,和财务时间序列中都有应用。
计算机网络
计算机网络( Computer Networks )指将地理位置不同的多台计算机及其外部设备,通过通信线路连接起来,在网络操作系统及网络通信协议的管理和协调下,实现资源共享和信息传递的计算机系统。
命名实体识别
命名实体识别(NER)(也称为实体标识,实体组块和实体提取)是信息抽取的子任务,旨在将非结构化文本中提到的命名实体定位和分类为预定义类别,例如人员姓名、地名、机构名、专有名词等。
机器翻译
机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。
计算机视觉
计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。
微信扫码咨询专知VIP会员