本报告回答了美国陆军未来司令部司令詹姆斯-雷尼(James E. Rainey)上将根据现有的公开资料和对主题专家的访谈提出的战略问题。

  • 到 2040 年,技术上可行、军事上相关、伦理上可接受的人机协同应用可能有哪些?

  • 有哪些可能的法律和伦理影响会推动需求或产生限制?从现在到 2040 年,这些影响可能会发生哪些变化?

  • 以陆军为重点的跨领域人机协同的未来如何?

  • 在整个作战功能范围内利用自主系统并确定其优先次序的决定因素可能是什么?

  • 从现在到 2040 年,关于在战斗中使用自主系统的国际和社会规范可能会如何演变?

到 2040 年,人机协作(HMT)的应用极有可能(71%-85%)跨越四个阶段,而不是一个阶段。大多数应用将具有军事相关性和技术可行性,一些应用在伦理上是可以接受的,这取决于可能出台的各种管理政策(56-70%)以及竞争连续体的状况。

四个连续体是 (完整定义见附件 G):

  • 社交互动程度:非社交用户界面与社交用户界面。非社交系统在设计上无法与人类或其他系统进行会话式交互(例如:Uber 司机界面),而社交系统的用户界面在设计上能够理解和响应社交线索,具有逻辑会话能力,并能模拟类似人类的行为(例如:生成式预训练转换器(ChatGPT))

  • 自主程度:人在环内(HITL)到人在环外(HOOTL)。从 “人在环内”(HITL)(例如:先进野战炮兵战术数据系统)到 “人在环上”(HOTL)(例如:爱国者系统或近程武器系统(CWIS)),再到“人在环外” (HOOTL)(例如:完全致命的自主武器)。

  • 能力水平: 狭义与广义人工智能(AI)。狭义人工智能是指当前大多数人工智能技术都是为一种特定应用而设计的(例如:语音或面部识别),而广义人工智能则是指一种应用是为同时管理多种任务而设计的(例如:数字智能分析)。

  • 机器人技术水平:从非机器人到机器人。不能实际触摸的非机器人系统(例如:Alexa)与可以看到但不能触摸的全息表示系统(例如:光环视频游戏中的 Cortana)相比,主要是可以触摸并与物理世界互动的机器人系统(例如:敏捷移动机器人 Spot®)

当今的绝大多数应用主要是非社交性的,大多具有 HITL 级别的自主性、“狭隘的 ”单一任务人工智能以及远非机器人的自动化功能。相反,到 2040 年,许多与军事相关的系统,包括一些最重要的系统,如指挥与控制 (C2) 和情报系统,将很有可能拥有社交用户界面,在实现 HOTL 自主性方面取得重大进展,表现出广泛、多功能的人工智能品质和类似人类的认知能力,并在整个作战功能 (WFF) 方面向机器人系统大幅迈进(见图 1)。

图 1:描述了所有世界飞行任务中 HMT 应用的总体情况。团队通过对当前人机协作战略和技术的综合分析、个人经验以及对大型军事组织未来需求的研究,对 HMT 进行了调查。对这些发现进行了综合,并结合对前瞻性 HMT 文献的回顾,确定了系统的关键连续性。最后,使用 “小组技术”(Nominal Group Technique)对每个组成部分之间的关系进行了评估,并通过构成本研究主体的 30 份单独报告进行了交叉检查。最终得分以平均值为基础,旨在显示各连续性随时间推移而发生变化的程度。

各连续体未来的作战功能

上文概述了各连续体与军事相关的 HMT,下面是一些具体例子,说明根据研究结果,在不同的 WFF 中,应用可能会有怎样的趋势。

指挥与控制 (C2)

支持 HMT 的 C2 应用程序很可能会发生重大变化,包括增加具有广泛人工智能功能的社交界面平台,以及主要由 HOTL 自主操作。许多参谋人员可能不会与指挥官一起出现在战术作战中心。相反,他们将被在分散地点工作的智能体所取代或增强,这些智能体能够通过虚拟现实(VR)或增强现实(AR)设备提供实时数据(见图 2)。这种虚拟战术作战中心(V-TOC)很可能通过整合 6G 通信网络、边缘人工智能技术、神经形态计算和先进的全息显示技术等一系列应用来实现。这些使能技术的集成可能会为 HMT 提供更准确的关于对手、威胁以及可用资产和潜在行动方案的共同行动图景。

图 2:虚拟战术作战中心 (V-TOC) 描绘了未来分布式作战环境中的指挥通信能力。来源:Fiverr

  • 社交用户界面最近以惊人的方式展示了其吸引力。根据布鲁金斯的研究,为 ChatGPT(有史以来增长最快的应用)等平台提供动力的大型语言模型(LLM)的需求正推动计算开发每六个月翻一番,这表明了更多基于社交的界面的发展趋势。

  • 包括英特尔网络与边缘事业部高级副总裁尼克-麦基翁在内的行业专家预计,6G 可能会在 2030 年左右推出。6G 网络将可能为边缘人工智能系统的运行提供必要的网络,非常适合在大规模作战(LSCO)中维持分散地点的 C2,并提供先进全息显示器所需的基础设施和带宽(见图 3)。

  • IBM 的技术专家还预测,Edge AI 与其神经形态计算芯片的集成将支持未来的任务指挥系统,为野外环境中无缝操作所需的软件能力提供速度、效率和安全性,并支持 AR 和 VR 图像等高性能应用。

图 3:支持 6G 和边缘的作战中心。资料来源:Team Singularity MidJourney

情报

到 2040 年,支持情报 WFF 的应用程序极有可能利用 AR 显示屏和人工智能可视化工具的进步,拥有更具社交互动性和直观性的界面,以及可定制的仪表板。6G 网络能力、升级的传感器技术(见图 4)和全息技术的进步将为基础广泛的人工智能系统提供更多功能,能够通过融合所有传感器数据提供实时威胁分析和态势感知。情报在自主性方面可能会略有变化,仍然是 HOTL,由虚拟分析师从分散的地点进行收集、分析和提供建议。情报可能会在机器人方面略有进步,主要是通过先进的全息三维显示器,为指挥官提供个性化的作战环境视图。

图 4:未来情报在社会和广泛领域的增长最快

  • 根据 PEW 的研究,50% 以上的千禧一代依赖能通过语音指令执行日常任务的数字助理,这表明了更多基于社交的界面设备的快速发展趋势。三星、苹果、亚马逊和谷歌等公司继续投入巨资,将此类语音技术与 ChatGPT 等人工智能应用集成在一起。

  • 专业化的硬件和软件套件,如研究实验室的全息显示器和 Field Lab 的固态光显示器计划,提供了比当今触摸屏显示器更先进、更高效的硬件。情报方面的商业投资和研究将提供原型,这对国防部门的分析人员也同样有益。

  • 未来的先进显示屏很可能是多种用户界面的组合,例如 Touchpoint 的 “无屏幕 ”触摸功能、三星的可折叠柔性屏幕、宝马的语音控制概念车,甚至是 3D 视觉图像。

移动与机动 (M2)

支持与 M2 相关的 HMT 的应用极有可能涉及大幅提高人机协作的集成度,让机器人作为有机资产与人类士兵协作。由于机器人和自主系统 (RAS)、液态神经网络 (LNN) 和脑机接口 (BCI) 的进步,M2 WFF 极有可能包括更多的社交界面、广泛的功能和 HOTL 自主性,但受到电池电量的限制(见图 5)。

图 5:移动和机动WFF所有四个连续体的整合与进展。

  • 杜克大学 2023 年的一项研究预测,在扩大机动部队的作战范围、态势感知和跨域机动的有效性方面,RAS 将发挥关键作用。这很可能需要融入更广泛的人工智能,如自主车辆感知、学习、推理、通信、导航和物理能力,以增强和提高在复杂和有争议环境中的机动自由度。
  • 根据兰德公司 2020 年的一份报告,BCI 的应用将支持国防部门正在进行的技术倡议,包括改进决策和辅助人类行动,以实现先进的有人和无人作战团队。
  • 领先的技术创新机构格拉茨大学确定,英特尔的神经形态芯片在深度学习方面的能效最高可提高 16 倍。由于功耗高,利用深度神经网络(DNN)的新人工智能方法对更广泛的部署构成了巨大障碍,特别是在边缘设备中。

维护

2030 年至 2040 年期间,维护应用中的机器人化和自动化程度极有可能大幅提高(见图 6)。边缘人工智能计算、6G 网络可用性、RAS 和 LNN 等新兴技术将可能支持先进的机器人技术,能够自主执行各种与维护相关的任务,同时利用母舰方法提高维护效率,并通过更长的通信线路改善操作范围。此外,它可能会利用更多基于社交的界面设备,并适度改变广泛的人工智能能力。在六项联合职能中,维护行动最有可能成为人工智能和自主系统(AS)技术应用的速赢领域。

图 6:“可持续发展 ”的未来趋势是:机器人和自主性大幅提高,社会性和广泛性适度提高。

  • 据麦肯锡称,人工智能和机器学习正在使供应链自动化,以学习和预期用户活动。预测分析利用数据挖掘、预测建模和机器学习来分析过去和当前的事实,从而预测波动和中断,使供应链实现自动化。这使得人工智能供应链的效率提高了 65%以上,同时降低了风险和总体成本。

  • 就在 2023 年 4 月,麻省理工学院(MIT)的研究人员利用大脑启发的 LNN 展示了无人机自主导航的新进展,LNN 是一种强大的机器学习模型,可以在工作中学习并适应不断变化的条件,是当今 LLM 的进化。这一进步支持在看不见或不熟悉的环境中自主飞行和驾驶,为未来的人机团队做出了贡献(见图 7)。

图 7:麻省理工学院无人机利用液态神经网络导航未知环境。

火力

2040年的火力应用极有可能在机器人技术和人工智能方面取得重大进展,并在各领域和WFF之间进行整合,以自主确定优先次序并使用自导弹药攻击敌方目标(见图8)。由于集成了多个狭义传感器,这些传感器为广义情报和 C2 决策网络提供信息,因此火力 WFF 也极有可能包括适度增加的社交用户界面平台,为目标选择和交战提供视觉和听觉反馈,以及适度增加的广义人工智能。在边缘人工智能和 6G 网络的配合下,神经形态计算的进步将使机器人和先进平台能够从以往的交战中学习,适应不断变化的战场条件,并优化其射击方案,以最大限度地减少附带损害。

图 8:火力的未来趋势略微偏向于社交化和广泛性,而明显更偏向于机器人。

  • 诺基亚贝尔实验室核心研究部总裁彼得-维特(Peter Vetter)认为,6G 将为未来的军队提供前所未有的对周围环境的感知能力。这将极有可能连接传感器、可穿戴设备、机器人、有人驾驶和无人驾驶车辆以及使用云计算和边缘计算的物联网(IoT)设备网络,减少传输和处理数据所需的带宽和时间,连接军事物联网。

  • 正在进行的俄乌战争推动了所有四个 “火力 ”连续体的重大技术改进。例如,《福布斯》2023 年的一篇文章强调了乌克兰最近的行动,开发人员在乌克兰制造了自主无人机,能够在没有人类监督的情况下发现和攻击目标。

  • 同样,澳大利亚陆军退役少将、战略家米克-瑞安(Mick Ryan)也表示: “乌克兰战争中出现的自主系统......已经证明了它们在一系列致命和非致命任务中的实用性......我们应该期待在这场战争之后看到进一步的扩散。”

  • 兰德公司在 2023 年的一份报告中讨论了开发三类机器人能力的可能性,这些机器人是根据世界火力论坛的需求量身定制的:炮兵侦察机器人、攻击机器人和炮兵火力机器人。作者指出,炮兵火力机器人的时速可能达到 30 英里/小时,配备 120 毫米火炮和 60 发子弹的自动装弹机,并确保每分钟 15 发子弹的发射速度。

保护

支持 HMT 的保护应用极有可能涉及非常先进的 RAS 和主要的 HOTL 自主性,因为这些应用主要是防御性的,需要更快的响应时间和最少的人工判断。未来的防护极有可能分为实体防护和网络防御防护(见图 9)。物理防护很可能包括机器人团队,由用于观察的空中无人机、用于物理防护的地面机器人和拦截导弹的车辆组成,但也可用作无人机和机器人的动力源。网络领域的防护将可能由协同工作的自主智能网络防御情报体(AICA)组成,它们能够共同探测网络攻击,制定适当的反制措施,并在战术上运行和调整其执行。机器人技术、边缘人工智能、更新的神经形态芯片和同态加密技术的快速发展,可能会推动物理和网络领域的这些进步。

图 9:未来的保护趋势在其余三个连续体中更加社会化和温和。

  • 根据兰德公司 2020 年的一份报告,将人类转移到 “环上 ”和 “环外 ”位置的动机是存在的。主要是在防御系统需要快速应对来袭威胁的情况下,每次交战都需要人类授权可能会减慢系统的运行速度,削弱消除威胁的能力。特别是在对手利用自己的高速人工智能系统的情况下,人在环内的方法有可能在竞争中处于劣势。

  • 北约科技组织研究小组主席科特博士认为,人工智能系统是必要的,因为人类是网络世界中最薄弱的环节。因为人类是网络世界中最薄弱的环节,而人类战士没有必要的技能或时间在本地执行网络防御。在本地进行网络防御所需的技能或时间。

  • 随着 Splunk 和 Microsoft Sentinel 等工具的进一步发展,可以从各种来源中获取日志。随着 Splunk 和 Microsoft Sentinel 等工具的进一步发展,它们可以从各种来源获取日志来管理合规性和威胁。不仅能学习用户模式和识别异常,还能与安全专业人员互动,挫败实时攻击。人工智能技术传感器、应用程序和设备的改进将极有可能促进更精简的作战 功能界面,能够快速、准确地传达关键的目标数据,理解并与目标进行互动。目标数据,了解 HMT 操作员并与之互动。

有哪些可能的法律和伦理影响会推动要求或产生限制?从现在到 2040 年,这些影响可能会发生哪些变化

可能驱动要求或产生限制的法律和道德影响与 “信任 ”息息相关。

根据美国负责任人工智能(RAI)政策,可信度的关键因素包括展示可靠治理的能力。

1.目前,国际上缺乏对人工智能、机器和机器人的标准化管理,从现在到 2035 年,不太可能(31-45%)有可执行的人工智能国际管理标准。美国、欧盟和中国各自都在不同的监管理论中发挥着主导作用,其中大部分理论都以伦理和政策为基础。

2.尽管对手已经证明他们愿意使用致命武器,但道德标准以及对国际人道主义法、武装冲突法和正义战争理论(Jus in bellum)的遵守很可能会限制使用致命武器的倾向。

3.从现在到 2040 年,人们对人工智能系统和 HMT 的信任度很可能会提高,这是因为最近对这一主题的强调,包括需要优先建立具有透明度、可解释性、可审计性和可靠性的系统和团队。

4.一些值得关注的领域是人工智能系统开发和管理方面的信任差距,包括:

  • 信任差距(信任度太低)和自动化偏差(信任度太高)
  • 程序和系统偏差倾向
  • 数据隐私和系统保护(数据中毒)
  • 风险缓解与管理

跨领域人机协作的未来是什么

未来跨领域人机协作的发展极有可能以三项人机工作为基础。每项工作都是一个独特的研究、开发和投资领域。虽然每项工作都可能有主要的研究重点,但整合是获得超配的关键。

  • 人机协作(HRT)。人机协作概念的核心是人类与机器人之间的合作关系,以及学习和了解人类如何与机器人进行有效互动。这涉及开发人类的技能和能力,以管理和分配任务给一个庞大的机器人团队,以及与它们进行沟通和协作。这一跨学科领域需要系统工程、认知科学和计算机科学等不同学科的投入和专业知识。

  • 人类-人工智能编队(HAIT)。随着团队的发展,采用先进的人工智能形式越来越普遍。人类与人工智能的融合对于有效的战略规划、运营规划和未来活动分析至关重要。这涉及一种不同于人机协作的特殊分析重点。

  • 人力增强(HA)。人类增强是人类与机器之间的一种独特合作形式,在这种合作中,人类与机器作为一个统一的实体发挥作用。其主要目的是通过结合机械、可穿戴和植入技术来提高人类现有的身体和认知能力。这种合作只专注于增强人的能力。

跨领域和 WFF 的优先人机技术重点领域

所有三个人机研究领域在战争的各个领域都大有可为;它们之间的协同作用将大大提高未来部队的杀伤力和可持续性(见图 10)。

图 10:2025-2040 年间各领域和 WFF 的 HMT 预测趋势。

在整个作战职能范围内利用自主系统并确定其优先次序的决定因素可能是什么

在整个 WFF 范围内利用自主系统并确定其优先次序的可能决定因素是:在技术进步的同时开发必要的使能应用;提供资源以支持最相关的应用;训练有素、随时待命的操作员具备支持有效 HMT 的必要技能;以及在竞争过程中遵守管理和道德标准(见 Mind Meister 图 11)。商业研究与开发将继续推动创新,使其具有适用于整个世界未来战场的军事相关能力。

图 11:交互式思维导图过程的完整和浓缩描述。

成为VIP会员查看完整内容
77

书籍简介

通过这本实用的操作手册,学习使用生成式人工智能技术创建新颖的文本、图像、音频甚至音乐。读者将理解最先进的生成模型是如何工作的,如何对其进行微调和适应以满足个人需求,以及如何结合现有的构建块创造新的模型和跨领域的创意应用。 本书从理论概念介绍开始,紧接着是指导性的实践应用,包含丰富的代码示例和易于理解的插图。你将学习如何使用开源库来利用变换器和扩散模型,进行代码探索,并研究若干现有项目,以帮助指导你的工作。 * 构建和定制能够生成文本和图像的模型 * 探索使用预训练模型与微调自定义模型之间的权衡 * 创建和使用能够生成、编辑和修改任意风格图像的模型 * 为多种创意用途定制变换器和扩散模型 * 训练能够体现你个人风格的模型

作者介绍

Omar Sanseviero 是 Hugging Face 的首席 Llama 官员及平台与社区负责人,领导开发者倡导工程、设备端和月球项目团队。Omar 拥有丰富的工程经验,曾在 Google 的 Google Assistant 和 TensorFlow Graphics 团队工作。Omar 在 Hugging Face 的工作处于开源、产品、研究和技术社区的交汇点。 Pedro Cuenca 是 Hugging Face 的机器学习工程师,负责扩散软件、模型和应用程序。他在互联网应用领域有超过 20 年的开发经验(在西班牙,他参与创建了第一个互动教育门户、第一家网上书店和第一家免费互联网服务提供商)。近年来,他专注于 iOS 开发。作为 LateNiteSoft 的联合创始人兼首席技术官,他开发了成功的 iPhone 摄影应用 Camera+,并为诸如摄影增强和超分辨率等任务创建了深度学习模型。他还参与了 dalle-mini 背后的开发和运营工作。他带来了将人工智能研究融入现实世界服务中的实际愿景,以及其中的挑战与优化。 Apolinário Passos 是 Hugging Face 的机器学习艺术工程师,跨不同团队工作,涉及多个机器学习在艺术与创意领域的应用场景。Apolinário 拥有超过 10 年的专业与艺术经验,曾在举办艺术展览、编程和产品管理之间交替工作,曾担任 World Data Lab 的产品负责人。Apolinário 旨在确保机器学习生态系统能支持并使艺术应用场景变得有意义。 Jonathan Whitaker 是一名数据科学家和深度学习研究员,专注于生成建模。此前,他曾参与与本书所涵盖主题相关的多个课程,包括 Hugging Face 的扩散模型课程,以及他与 Jeremy Howard 在 2022 年共同创建的 Fast.AI 课程《从深度学习基础到稳定扩散》。他还曾在行业中应用这些技术,担任顾问工作,目前全职从事 Answer.AI 的人工智能研究与开发。

成为VIP会员查看完整内容
69

这本书由MIT Press出版,属于我所编辑的系列(正如预期,他们在整个过程中给予了我极大的支持)。它可以从我的个人网页上免费在线阅读,但当然,您也可以从您喜欢的在线商店购买纸质版(请查看这里的链接),这样您就可以为我下一辆公路自行车的购买做出贡献(对于法国的读者,amazon.fr 和 fnac.com 也有售,许多国家的主要在线商店也应该有销售)。 除了PDF和纸质版外,所有图形都可以通过Python和Matlab代码进行复现,相关代码可以在这里找到(我计划未来加入Julia版本)。我已经开始收集涵盖所有章节的练习题解答(在这里可以找到,注意:工作进行中)。如果您想贡献解答、指出错别字或提出改进建议,我将不胜感激(请给我发电子邮件)。未来,我可能会加入一些历史部分,这些内容我决定暂时放弃,因为这会花费我更多的时间(如果您有相关的指引或建议,欢迎告知我)。

为什么要再写一本关于学习理论的书?

市面上已经有很多优秀的学习理论书籍了。为什么我还要写一本新书呢?请阅读书的前言(在文章的末尾会展示),那里列出了几个原因,但主要的原因是,我觉得当前机器学习数学分析的趋势导致了一些过于复杂的论证和结果,这些内容往往对实践者并不直接相关。因此,我的目标是提出从基本原理出发,能够推导出来的最简单的表述,尽量保持严谨,但又不让读者感到被更多的高深结果淹没,这些结果需要过多的数学复杂性。我已经尽力而为,但我相信总有一些地方可以提出更简洁的论证;如果您发现了,欢迎告知我。此外,我还尝试通过一系列简单的实验,将理论结果与实际性能结合起来。

这本书的一个重要特色是它专注于实值预测函数:即使在预测离散值输出时,实值预测函数已经成为现代机器学习技术的事实标准。因此,尽管Vapnik-Chervonenkis维度在历史上有着举足轻重的地位,我决定不在书中呈现它,而是直接基于Rademacher复杂度推导我的通用界限。专注于实值预测函数使得最小二乘回归成为理论的核心部分,这对于学生来说非常重要,因为许多机器学习中的重要概念(如正则化、随机算法)已经在简化的形式中得到了体现。

在我所涉及的众多主题中,一些采用了标准的处理方式,但有些可能值得引起有经验的读者的注意(我可能会在未来写一些博客文章来进一步探讨这些内容)。下面是我对每一章的几点印象: 第一章(数学预备知识):这一章没有什么特别复杂的内容,主要介绍了一些有用的计算技巧和主要的浓度不等式。一些内容已经在博客中讨论过,例如Jensen不等式、矩阵的浓度不等式,或者将在未来发布(如矩阵逆定理)。 第二章(监督学习简介):本章集中讨论了监督学习的传统决策理论表述,包括损失、风险等内容。我加入了Luc Devroye(1982)提出的“无免费午餐定理”,因为我认为它很好地展示了没有假设的情况下,学习是无法实现的。 第三章(线性最小二乘回归):无论这个古老的方法起源于Legendre还是Gauss,这并不重要。我认为它仍然非常重要,因为它已经囊括了许多经典的机器学习概念,尤其是正则化的需求,以避免在d/nd/nd/n(其中n是观测数,d是参数数目)中出现收敛率。因此,这已经能传达一个信息:参数的数量通常不是衡量学习方法泛化能力的最佳方式。 第四章(经验风险最小化):本章首先广泛(但传统地)讨论了用于二分类问题的凸代理函数(这将在第十三章中扩展为结构化预测)。对于凸损失函数,首先采用约束优化方法进行正则化估计(因为这较为简单),但为了避免理论与实践之间的显著差异,我专门添加了一节关于惩罚估计的方法,其中包含了一些简单的(其中一些是新的)通用界限。 第五章(优化):将所有内容压缩进一章很困难(不过我有些许“作弊”,因为我在第十一章中关于在线学习的内容留下了一些精彩的部分!)。从二次问题开始,通过线性代数推导梯度下降的收敛性,接着介绍了凸优化的标准工具,然后统一呈现了随机逼近法,并重点讨论了随机梯度下降的自然测试误差性能。同时也介绍了方差减少方法,提供了我所能找到的最简单证明。 第六章(局部平均方法):k近邻预测方法有些过时,但它是可以适应任何预测函数的最简单方法(也最容易向您的祖父母解释)。在这一部分,我重新使用了Gérard Biau和Luc Devroye在2015年书中的交换性论证方法,得到了简单的界限,且假设条件很少。对于Nadaraya-Watson估计量(例如,核回归),我用Bernstein不等式给出了一个简单的证明。 第七章(核方法):这也是一个相对密集的章节,我主要关注Sobolev空间,以便能够刻画对平滑性的适应性。对于Lipschitz连续的损失函数,只需要刻画逼近误差,我成功避免了积分算子。对于平方损失,我复用了Jaouad Mourtada和Lorenzo Rosasco的优美证明方法,得出了特别简单的期望值界限。 第八章(稀疏方法):在这一章中,我特别关注平方损失,并复用了Philippe Rigollet和Sacha Tsybakov的证明技术,这些方法适用于约束或惩罚估计,从而得到了著名的σ2klog⁡dn\frac{\sigma^2 k \log d}{n}nσ2klogd结果。在简要介绍了统计文献中常见的固定设计处理(并列举了设计矩阵的各种条件)后,我专注于随机设计方法,通过强凸性可以合理简单地获得较快的收敛速度。 第九章(神经网络):我选择只介绍单隐层神经网络,在这种设置下,估计误差和优化误差的性质可以得到精确的表述,特别关注其对线性潜变量的适应性。同样,隐藏神经元的数量不是潜在的泛化能力的关键驱动因素。我还明确地将神经网络与核方法和随机特征的联系(即只优化最后一层权重)做了联系。这一“经典”的处理方法在后面一章关于过参数化模型的讨论中得到了补充。 第十章(集成学习):这一章基本上分为两个独立部分,第一部分讨论了bagging和随机投影,介绍了经典的高斯随机投影,并扩展到非线性预测。第二部分讨论了boosting,试图统一不同领域的算法,如匹配追踪和Adaboost,并给出了boosting性能的显式新证明,而没有额外的正则化假设。虽然速率不是最优的,但这与实践中采用的(通过早期停止进行的)正则化方法更加接近。这里可能还有更锋利的结果。 第十一章(从在线学习到强盗问题):这一章仅涉及了更广泛主题的皮毛,但对于在线学习,我明确展示了其与经典随机优化的区别,并采用统一符号表示(这也是我插入镜像下降法的地方)。我用十页自包含的内容描述了多臂强盗问题;虽然简短,但足以捕捉主要思想,以及它与更经典监督学习方法的相似性和不同之处。 第十二章(过参数化模型):这一章更接近研究方向,我尝试以最简明的方式描述关于过参数化模型的最新重要成果,如梯度下降的全局收敛性、凸问题和非凸问题的隐性偏差(对于对角线线性网络),双重下降(分别提供了关于高斯数据和随机投影的简单和不那么简单的论证),以及懒学习。 第十三章(结构化预测):这一章包含了最近的研究成果,首先讨论了多类别分类,重点是多变量预测函数及其关联的泛化性质(在此,随机梯度下降比通过Rademacher平均得到的经验风险最小化结果给出了更好的界限)。接着,我以统一的方式呈现了关于预测复杂输出的最新文献,采用凸代理函数,从二次、平滑到非平滑代理函数依次讨论。 第十四章(概率方法):我首先回顾了几种学习方法的概率建模解释,主要关注通过识别损失和先验与对数密度之间的关系,明确区分了这种类比带来的优势与其局限性(特别是,像ℓ1\ell_1ℓ1-最小化这样的稀疏方法不适用于来自其负对数密度为ℓ1\ell_1ℓ1-范数的分布的数据)。接着,我们展示了贝叶斯推断如何自然地引导模型选择标准,并以描述PAC-贝叶斯分析结束本章,引用了Pierre Alquier的最新专著。 第十五章(泛化和优化误差的下界):从研究的角度来看,我更倾向于通过设计和分析快速算法来贡献性能的上界,但我不得不承认,下界同样重要(特别是当它们与上界一致时)。本章讨论了优化下界(通常呈现了难以优化的函数,主要来源于Yurii Nesterov的工作),以及统计下界(其中我使用了信息论的论证)。对于随机梯度下降,我复用了Agarwal等人(2012)提出的优美证明技巧。

前言

**为什么学习学习理论?

数据已经渗透到科学、工程、工业和个人生活的各个领域,带来了对自动化处理的需求。机器学习致力于从训练样本中进行预测,广泛应用于各个领域,包括大大小小的问题,并使用从简单的线性模型到深度神经网络等多种学习模型。如今,它已经成为算法工具箱中的一个重要部分。 如何理解这些实际成功的背后?我们能否提炼出一些原则,以理解当前的学习方法,并指导新技术的设计,适应新应用或新的计算环境?这正是学习理论的目标。除了已经非常丰富且有趣的数学性质(因为它引入了许多数学领域的内容),大多数在实践中观察到的行为,原则上都可以通过足够的努力和理想化来理解。反过来,一旦理解了这些行为,我们可以做出适当的修改,获得更大的成功。

**为什么要读这本书?

本教材的目标是呈现学习理论中的旧有和最新成果,专注于目前最广泛使用的学习架构。通过这种方式,本书阐述了几项原则,帮助读者理解过拟合和欠拟合现象,并系统地展示了分析中的三个组成部分:估计误差、逼近误差和优化误差。此外,本书的目标不仅仅是展示学习方法在足够的数据下能够进行学习,还力图理解它们学习的速度(或慢速),特别关注如何通过适应特定结构加速学习过程(例如预测函数的平滑性或对低维子空间的依赖)。 本书适合理论导向的学生,以及那些希望获得机器学习及其相关领域(如计算机视觉和自然语言处理)所使用算法的基本数学理解的学生。此外,对于那些来自应用数学或计算机科学其他领域的学生和研究人员,也非常适合他们学习机器学习背后的理论。最后,由于本书汇集了许多简单的证明,它还可以作为理论机器学习研究人员的参考书。 本书将特别努力从第一原理证明许多结果,同时尽可能保持内容的简洁。这自然会导致选择一些关键结果,以展示学习理论中最重要的概念,并通过简单但相关的实例进行说明。书中也会呈现一些没有证明的通用结果。当然,第一原理的概念是主观的,我假设读者已经掌握了线性代数、概率论和微积分等基本知识。 此外,我将专注于学习理论中的一部分,特别是那些可以在实践中运行的算法。因此,本书中描述的所有算法框架都是日常使用的。由于许多现代学习方法基于优化,书中的第五章专门讨论这一主题。对于大多数学习方法,我展示了一些简单的示范实验,并提供了相应的代码(目前是MATLAB和Python,未来将包含Julia),以便学生自己查看这些算法在合成实验中的简洁性和有效性。书中的习题目前没有提供解答,目的是帮助学生更好地理解相关的材料。 最后,书的第三部分将深入讨论现代专题,如在线学习、集成学习、结构化预测和过参数化模型。

**本书的目标读者

请注意,这本书并不是一本机器学习的入门教材。市面上已经有几本优秀的教材(例如,Alpaydin 2020年、Lindholm等 2022年、Azencott 2019年、Alpaydin 2022年)。本书侧重于学习理论——即为最广泛使用的学习算法推导数学保证,并刻画使特定算法框架成功的因素。特别是鉴于许多现代方法基于优化算法,本书对基于梯度的方法及其与机器学习的关系给予了较大关注。 本书的一个关键目标是,从最简单的结果入手,使其更易理解,而不是集中于更高级的材料,这些内容在初学时可能过于复杂,且提供的理解提升可能非常有限。在整本书中,我们提供了许多现代研究工作的参考,供读者深入了解。

**本书结构

本书分为三大部分:导言、核心部分和专题部分。读者应当先阅读前两部分,以全面理解主要概念,之后可以根据需要在第二次阅读时选择性阅读专题部分的章节,或者在两学期的课程中学习。 每章都以概述将要讨论的主要概念和结果开始。所有的模拟实验可以在https://www.di.ens.fr/~fbach/ltfp/上找到,并提供MATLAB和Python代码。书中提供了大量的习题,嵌入在正文中,并用专门的段落标出,个别习题在文中提到(例如,“证明留作练习”)。这些习题旨在帮助学生加深对相关材料的理解,提出扩展或应用。 本书并未涵盖所有主题,也没有对许多其他内容进行深入探讨。市面上已有许多优秀的学习理论教材,涵盖更广泛或更深入的内容(例如,Christmann 和 Steinwart 2008年;Koltchinskii 2011年;Mohri等 2018年;Shalev-Shwartz 和 Ben-David 2014年)。同时,还可以参考Alexander Rakhlin 和 Karthik Sridharan,以及Michael Wolf的精彩笔记。 特别地,本书主要聚焦于实值预测函数,因为它已成为现代机器学习技术的事实标准,即使在预测离散值输出时也适用。因此,尽管Vapnik-Chervonenkis维度在历史上的重要性和影响至关重要,我决定不在本书中介绍它,而是基于Rademacher复杂性直接推导通用界限。专注于实值预测函数使得最小二乘回归成为本书理论的核心内容,这对于学生来说非常有意义。此外,这也为与相关的统计学文献建立联系提供了便利。 一些领域,如在线学习或概率方法,在本书中被简要描述,以便与经典理论建立联系,并鼓励读者通过专门的书籍进一步学习。在本书中,我还包括了第12章关于过参数化模型和第13章关于结构化预测,这些内容介绍了机器学习中的现代专题。更广泛地讲,第三部分(专题部分)的目标是,在每一章中介绍新概念,同时保持与核心内容的联系,并使用统一的符号表示。

**如何使用本书?

前九章(按顺序,不包括“钻石部分”)适合于一学期的高年级本科或研究生课程,在进行过机器学习的入门课程后阅读。接下来的六章大多可以按任意顺序阅读,用于加深对某些专题的理解;它们可以作为作业(通过习题)阅读,或在较长的(例如两学期)课程中教授。本书的设计也便于自学,前九章按顺序阅读,最后六章则可以随机阅读。在任何情况下,第1章关于数学预备知识的部分可以快速阅读,之后在相关章节需要时深入学习相关概念。

成为VIP会员查看完整内容
55

《多智能体强化学习(MARL)的全面介绍》《多智能体强化学习(MARL)》是机器学习领域中的一个重要分支,涉及一群智能体在共享环境中学习如何进行最优互动。它在现代生活中应用广泛,从自动驾驶、多人机器人工厂到自动化交易和能源网络管理等。本书提供了一个清晰且严谨的多智能体强化学习(MARL)介绍,涵盖了MARL的模型、解决方案概念、算法思想、技术挑战以及现代方法。本书首先介绍了该领域的基础,包括强化学习理论和算法的基础、交互式游戏模型、各种游戏的解决方案概念以及支撑MARL研究的算法思想。接着详细讲解了利用深度学习技术的现代MARL算法,涵盖了集中训练与分散执行、价值分解、参数共享、自对弈等重要思想。本书附带了一个用Python编写的MARL代码库,包含了自包含且易于阅读的MARL算法实现。技术内容采用通俗易懂的语言解释,并通过大量示例进行说明,使新手能够理解MARL,同时也为更高级的读者提供了高水平的洞察。

  • 首本介绍MARL基础和应用的教材,由该领域的专家编写
  • 综合强化学习、深度学习和博弈论
  • 实践为主,关注实验运行的相关考虑,并描述用于测试MARL算法的环境
  • 以清晰简明的语言解释复杂概念
  • 课堂验证,适用于计算机科学、人工智能和机器人学领域的研究生及专业人士
  • 资源包括代码和幻灯片

https://marl-book.com/

想象一个场景,在这个场景中,一个由自主智能体组成的集体,每个智能体都有能力做出自己的决定,他们必须在一个共享环境中互动,以达成某些目标。这些智能体可能有一个共享的目标,比如一个移动机器人的车队,其任务是在一个大型仓库内收集和运送货物,或者一个负责监控海上石油钻井平台的无人机队伍。智能体也可能有冲突的目标,比如在一个虚拟市场上交易商品的智能体,每个智能体都试图最大化自己的收益。由于我们可能不知道这些智能体应该如何互动以达成他们的目标,所以我们让他们自己去解决。因此,这些智能体开始在他们的环境中尝试行动,并收集关于环境如何随着他们的行动而变化,以及其他智能体如何行为的经验。随着时间的推移,这些智能体开始学习各种概念,如解决任务所需的技能,以及重要的,如何与其他智能体协调他们的行动。他们甚至可能学会发展一种共享的语言,以便智能体之间的通信。最后,这些智能体达到了一定的熟练程度,成为了互动优化以达成他们目标的专家。这个令人兴奋的愿景,简而言之,就是多智能体强化学习(MARL)希望达成的目标。MARL基于强化学习(RL),在这种学习中,智能体通过尝试行动和接收奖励来学习最优决策策略,目标是选择能在时间内最大化累积奖励的行动。而在单一智能体的RL中,重点是为单一智能体学习最优策略,在MARL中,重点是为多个智能体学习最优策略以及在这个学习过程中出现的独特挑战。在这第一章中,我们将开始概述MARL中的一些基础概念和挑战。我们首先介绍多智能体系统的概念,这是由环境、环境中的智能体及其目标定义的。然后我们讨论了MARL如何在这样的系统中运作以学习智能体的最优策略,并通过一些潜在应用的例子来说明。接下来我们讨论了MARL中的一些关键挑战,如非稳定性和均衡选择问题,以及几种描述MARL可以如何使用的不同“议程”。在本章的结尾,我们对这本书的两部分中涵盖的主题进行了概述。多智能体强化学习(MARL)算法为多智能体系统中的一组智能体学习最优策略。与单一智能体的情况一样,这些策略是通过试错过程来学习的,目标是最大化智能体的累积奖励,或者说回报。图1.3显示了MARL训练循环的基本示意图。一组n个智能体选择个体行动,这些行动一起被称为联合行动。联合行动按照环境动态改变了环境的状态,并且智能体由于这种变化收到个体奖励,同时也对新环境状态有个体观察。这个循环持续进行,直到满足终止条件(比如一位智能体赢得了一场象棋比赛)或无限期地进行。这个循环从初始状态到终止状态的完整运行被称为一个情节。通过多个独立情节产生的数据,即每个情节中经历的观察、行动和奖励,被用来持续改进智能体的策略。

这本书为大学生、研究者和从业者提供了关于多智能体强化学习理论和实践的介绍。在这个引言章节之后,本书的剩余部分分为两部分。本书的第一部分提供了关于MARL中使用的基本模型和概念的基础知识。具体来说,第二章对单一智能体RL的理论和表格算法进行了介绍。第三章介绍了基本的游戏模型,以定义多智能体环境中的状态、行动、观察和奖励等概念。然后,第四章介绍了一系列解决概念,这些概念定义了解决这些游戏模型意味着什么;也就是说,智能体如何最优地行动意味着什么。最后,第五章介绍了在游戏中应用MARL来计算解决方案时的一些基础算法思想和挑战。本书的第二部分侧重于当代利用深度学习技术创建新的强大MARL算法的MARL研究。我们首先在第六章和第七章分别对深度学习和深度强化学习进行了介绍。基于前两章,第八章介绍了近年来开发的一些最重要的MARL算法,包括集中化训练与分散化执行、价值分解和参数共享等思想。第九章在实施和使用MARL算法以及如何评估学习到的策略时提供了实用指导。最后,第十章描述了在MARL研究中开发的一些多智能体环境的例子。 这本书的一个目标是为想在实践中使用本书中讨论的MARL算法,以及开发他们自己的算法的读者提供一个起点。因此,这本书配有自己的MARL代码库(可从书籍网站下载),该代码库使用Python编程语言开发,提供了许多现有的MARL算法的实现,这些实现是自包含的,易于阅读。第九章使用代码库中的代码片段来解释早些章节中提出的算法背后的重要概念的实现细节。我们希望所提供的代码能够帮助读者理解MARL算法,并开始在实践中使用它们。

成为VIP会员查看完整内容
59

大语言模型智能体

大语言模型(LLMs)已经在多个领域带来了革命性的变革。特别是,LLMs 已经被开发为能够与世界互动并处理各种任务的智能体。随着 LLM 技术的持续进步,LLM 智能体有望成为人工智能的下一个突破,它们将在智能任务自动化和个性化的支持下,彻底改变我们未来的日常生活。在本课程中,我们将首先讨论 LLM 智能体所需的一些基本概念,包括 LLM 的基础、任务自动化所需的 LLM 必备能力以及智能体开发的基础设施。我们还将涵盖一些代表性的智能体应用,包括代码生成、机器人技术、网络自动化、医学应用和科学发现。同时,我们将讨论当前 LLM 智能体的局限性和潜在风险,并分享进一步改进的方向。具体来说,本课程将包括以下内容: * LLM 的基础 * 推理 * 规划、工具使用 * LLM 智能体基础设施 * 检索增强生成 * 代码生成、数据科学 * 多模态智能体、机器人技术 * 智能体应用的评估和基准测试 * 隐私、安全性与伦理 * 人机交互、个性化、对齐 * 多智能体协作

讲者:

成为VIP会员查看完整内容
52

OpenAI召开连续12日发布会进一步展示公司通往AGI之路的技术储备,同时2024Q3财报季,海外AI应用开始初露锋芒,AI应用成为一些代表性公司业绩超预期的核心驱动力以及未来的重点战略方向,AI应用有望进入从1到N的快速发展阶段。建议关注AI应用核心方向:   1)谷歌、Salesforce持续推动AI Agent发展,数字劳动力或重塑SaaS范式,建议关注金山办公、福昕软件、梦网科技、金蝶国际、泛微网络、致远互联、合合信息、鼎捷数智、用友网络等布局企业级AI Agent的厂商;➢2)o3推理大模型单次推理成本可超1000美元,推理端算力需求进一步得到验证,建议关注浪潮信息、寒武纪、中科曙光等配套算力厂商;   3)Sora发布或带动新一轮AIGC浪潮,建议关注万兴科技、虹软科技、美图等AIGC公司;   4)AI搜索有望成为大模型商业应用落地“第一束光”,建议关注腾讯、三六零、科大讯飞、昆仑万维等深度布局大模型与AI搜索的公司;   5)AI终端作为新的生态入口成为兵家必争之地,AI眼镜迎来密集发布期,建议关注萤石网络、漫步者、中科创达、托普云农等AI终端厂商。

成为VIP会员查看完整内容
50

****报告:****2024年度AI十大趋势报告-量子位-98页过去,AI是前沿科技主轴上的一支核心技术。现如今,AI正在吞噬整个世界、整个产业、全部赛道。没错,AI已经完全成为了科技发展主旋律。尽管有诸多类比,如一开始类比互联网革命,到后来类比电力(第二次工业)革命, 再到现如今——最宏大的一种说法是:第二次地球文明革命。所以不论如何,可见AI正在展开的冲击、带来的影响力是如何全面又深刻,甚至一度被以科幻的方式谈论它。AI当然不是科幻,AI首先是一门科学,其次是一项工程,最后正在变成一种工业。这就意味着AI不仅可以观测、可以学习,还能预测——或者更准确来说,我们就是站在新进展新信息的最前沿,站在产学研交汇地带,把正在从学术研究进入产业变革程序的技术方向,总结并举例说明呈现给所有人。在今年,我们还通过更具规模的数据统计,在AI应用的创新创业和投资方面,也提供了结论性参考,希望对整个产业提供第三方视角下的助益。总之,希望这份年度趋势报告,能够对你在岁末年初了解时代技术进展提供最直接的帮助。身处技术大航海时代,即便你未能出海探索,也希望你能感知到潮水涌动的方向。

成为VIP会员查看完整内容
39

人类与智能体之间的互动无处不在,并渗透到有组织的团体和活动的概念边界中。高绩效的人类团队通过实现共享认知的新兴状态来超越复杂领域的不确定性,在这种状态下,知识被组织、呈现并分配给团队成员,以便快速执行。然而,这需要个人发出可感知的特质,其他成员才能据此推断出意图。为了开展未来的人类和机器团队研究,本研究为完全合作和半合作行动与项目团队中的机器智能体提出了一种混合认知模型。混合认知模型统一了共享心智模型和交互式记忆系统的特点。由此产生的模型便于随时在两种认知表征中进行选择,而计算复杂度仅为单一模型的一半。对混合认知模型的评估是在复杂程度和合作水平不断提高的多智能体领域进行的。智能体的性能根据四个认知特征进行评估,这四个特征捕捉了项目和行动团队中认知的性质和形式。研究采用混合方法对四个既定特征和衡量标准进行分析。结果表明,使用认知模型的智能体形成了编码结构、感知和解释认知形式的一致表征。此外,研究结果表明,采用混合认知模型的智能体可以在必要时在涌现的构成性和汇编性之间切换,以整合行为或知识。

第二章回顾了影响 HCM 形式化的团队合作和共享认知方面的基础课题,讨论了因果关系建模、机器代理、多代理系统(MAS)、博弈论和强化学习(RL)方面的相关工作。第二章的结论部分介绍了为 HCM 的通用和专用算法形式所选择的算法系列。第三章介绍了 HCM 的概念理论和形式化,介绍了其通用算法形式,并定义了实验领域。第四章介绍了合作领域中的 HCM 实例,检验了假设 1 到假设 3,并强调了 HCM 在降低计算复杂性、最大限度减少无关通信以及保持对所研究领域的完全事实理解方面的功效。第五章详细介绍了适用于非合作团队的 HCM,并详细介绍了测试假设 4 的混合方法研究。定性分析利用小故事对智能体的行为进行因果解释,而定量分析则通过在重复游戏中获得的累积分数来考量智能体的表现。第六章是本研究的结论,并提出了未来工作的方向和人机团队的扩展。

成为VIP会员查看完整内容
42

书籍简介

最小化AI幻觉,构建准确的自定义生成式AI管道,利用嵌入式向量数据库和集成的人类反馈来实现检索增强生成(RAG) 购买本书的纸质版或Kindle版即包含免费的PDF格式电子书

主要特点

  • 实现RAG的可追溯输出,将每个响应与其源文档链接,构建可靠的多模态对话智能体
  • 在管道中集成RAG、实时人类反馈改进和知识图谱,交付准确的生成式AI模型
  • 在动态检索数据集与微调静态数据之间平衡成本与性能

书籍描述

基于RAG的生成式AI 提供了构建有效的LLM(大语言模型)、计算机视觉和生成式AI系统的路线图,平衡了性能与成本。 本书详细探讨了RAG及其设计、管理和控制多模态AI管道的方式。通过将输出与可追溯的源文档连接,RAG提高了输出的准确性和上下文相关性,提供了一种动态方法来管理大量信息。该书向您展示了如何构建RAG框架,提供有关向量存储、分块、索引和排名的实用知识。您将发现优化项目性能的技巧,并更好地理解您的数据,包括使用自适应RAG和人类反馈来提高检索准确性、平衡RAG与微调、实施动态RAG以增强实时决策以及通过知识图谱可视化复杂数据。 您将接触到诸如LlamaIndex和Deep Lake这样的框架,Pinecone和Chroma等向量数据库,以及Hugging Face和OpenAI的模型。本书结束时,您将掌握实施智能解决方案的技能,使您在从生产到客户服务的各个项目中保持竞争力。

您将学到的内容

  • 扩展RAG管道,以高效处理大数据集
  • 采用减少幻觉并确保准确响应的技术
  • 实施索引技术,通过可追溯和透明的输出提高AI准确性
  • 定制和扩展跨领域的RAG驱动生成式AI系统
  • 探索如何使用Deep Lake和Pinecone进行高效和快速的数据检索
  • 构建以现实世界数据为基础的稳健生成式AI系统
  • 将文本和图像数据结合,为AI提供更丰富、更具信息性的响应

适合读者

本书适合数据科学家、AI工程师、机器学习工程师和MLOps工程师。如果您是解决方案架构师、软件开发人员、产品经理或项目经理,想要提升构建RAG应用程序的决策过程,那么本书将对您非常有帮助。

目录

  1. 为什么选择检索增强生成(RAG)?
  2. 使用Deep Lake和OpenAI嵌入向量存储
  3. 使用LlamaIndex、Deep Lake和OpenAI构建基于索引的RAG
  4. 无人机技术的多模态模块化RAG
  5. 利用专家人类反馈提升RAG性能
  6. 使用Pinecone扩展RAG银行客户数据
  7. 使用Wikipedia API和LlamaIndex构建可扩展的知识图谱驱动RAG
  8. 使用Chroma和Hugging Face Llama进行动态RAG
  9. 赋能AI模型:微调RAG数据和人类反馈
  10. 使用Pinecone和OpenAI进行视频素材制作的RAG
  11. 评审

书评

“本书以实践为导向,提供了从基础概念到复杂实现的清晰路径。它对RAG概念的详细解释和真实世界代码实现使得它对初学者和经验丰富的专业人士都非常可读。 一个显著的亮点是本书对扩展RAG系统的挑战的独特见解,并提供了关于如何管理大数据集、优化查询性能和控制成本的实际指导。此外,关于模块化RAG和微调的章节提供了可操作的策略,这些策略与我在构建基于对话AI和RAG的AI驱动的心理健康管理应用中的经验高度契合。书中对人类反馈的重视也非常重要,它展示了专家输入如何优化数据,增强AI响应的可靠性,使AI输出与人类价值对齐。 本书对性能优化的见解以及人类反馈的集成使它在该领域成为一个突出的资源。” —— Harsha Srivatsa,Stealth AI创始人兼AI产品负责人,前Apple和Accenture员工 “本书提供了一个极为全面的深入探讨,涵盖了从多模态数据类型和各种RAG架构到像评估、知识图谱以及人类反馈微调等高级话题。 真正值得称道的是,Rothman能够无缝地解释复杂的概念,使得材料对各个层次的读者都既可读又富有洞察力。无论您是想构建端到端的RAG解决方案,还是只是想增强对前沿AI系统的理解,本书都将通过其全面且实用的内容深化您的知识,并涵盖多个不同的应用场景。” —— Surnjani Djoko,博士,SVP,专门从事ML/AI的领导者,USPBA创新实验室负责人

作者简介

Denis Rothman毕业于索邦大学和巴黎第七大学,在学生时期,他编写并注册了早期的word2vector嵌入和word piece标记化解决方案的专利。他创办了一家公司,专注于部署AI,并成为了第一批AI认知NLP聊天机器人之一的作者,该聊天机器人被用作Moët et Chandon(LVMH的一部分)等语言教学工具。Denis迅速成为了解释性AI的专家,将可解释、基于接受的数据和接口整合进实施的解决方案中,涵盖了航空航天、服装和供应链等重要企业项目。他的核心信念是,只有当你教会别人如何做某件事时,你才能真正理解它。

成为VIP会员查看完整内容
39

http://www.hutter1.net/ai/uaibook2.htm 这本书提供了对普适人工智能(UAI)的温和介绍,UAI 是一种理论,为智能体在未知环境中进行智能行为提供了形式化的基础。UAI 最早在 [Hut00, Hut05b] 中提出,提供了一个框架,在这个框架中,几乎所有其他的人工智能问题都可以被表述,并且可以提出相应的解决理论。UAI 结合了顺序决策理论、贝叶斯推理和算法信息理论的思想,构建了 AIXI,这是一种最优的强化学习智能体,能够在未知环境中学习如何做出最优决策。AIXI 是智能行为的理论黄金标准。 本书涵盖了 UAI 的理论与实践两个方面。通过上下文树加权(Context Tree Weighting,CTW)可以高效地进行贝叶斯更新,规划则可以通过蒙特卡洛树搜索(Monte Carlo Tree Search)进行近似。本书提供了可供读者实现的算法,以及与之进行比较的实验结果。这些算法用于逼近 AIXI。本书最后通过哲学讨论人工通用智能(Artificial General Intelligence, AGI)问题进行总结:智能体是否真的能够被构造出来?它们的构造是否不可避免?它们被构造出来的潜在后果是什么?

介绍

第一章首先概述了人工智能(AI)问题,并解释了我们为何希望解决这个问题。然后,我们非正式地介绍了普适人工智能(UAI)方法,以及这种方法与其他解决 AI 问题的方案相比所具有的各种优势。第二章介绍了数学背景和必要的前置知识,包括(贝叶斯)概率论与统计学、信息论、可计算性理论以及(算法)信息论。

算法预测

第三章讨论了算法预测的问题。具体而言,我们提供了关于普适贝叶斯混合(universal Bayesian mixture)理论结果,并展示了它是如何从理论上解决预测问题的。贝叶斯混合的一个缺点是它的计算可能非常复杂。第四章提供了一个连贯的解释,介绍了一种实用且可实现的算法——上下文树加权(CTW),该算法用于计算贝叶斯混合并进行预测。第五章进一步扩展了 CTW 算法,允许进行更一般的预测。

普适智能体的家族

第六章介绍了基于历史的强化学习框架,并展示了如何在这个框架中捕捉 AI 问题。第七章提供了强化学习问题的贝叶斯解决方案——AIXI,并证明它是最智能的智能体。第八章讨论了在一般强化学习框架中的各种最优性度量和概念,并阐述了为何某些最优性概念可能比其他概念更受偏爱。第九章介绍了普适智能体的家族,其中许多是 AIXI 智能体的扩展和变体,并解释了这些智能体如何扩展 UAI 理论。第十章引入了博弈论的概念,并解释了它们如何应用于多智能体视角下的强化学习问题。特别是,提出了解决“真理之粒”问题的方法。

逼近普适智能体

第十一章描述了 AIXI 智能体的一个简单逼近方法,该方法能够学习并玩简单游戏。第十二章进一步介绍了一种更复杂的 AIXI 逼近方法,基于 CTW 算法和蒙特卡洛树搜索(Monte Carlo Tree Search),该方法能够在更复杂的游戏中表现良好。我们还提供了其他一些被提出的 AIXI 和 UAI 的逼近算法,并通过讨论它们的优缺点来激励这些算法的提出。第十三章探讨了普适智能体的(不可)计算性,并提出了最接近的可计算 AIXI 逼近——AIXItl。

替代方法

第十四章深入探讨了解决一般强化学习问题的替代方法——特征强化学习(Feature Reinforcement Learning)。我们展示了从理论和实践的角度来看,采用这种方法是非常有吸引力的。

安全性与讨论

第十五章概述了与安全构建超级智能体相关的诸多问题,并探讨了如何在 UAI 框架内研究这些问题。我们讨论了在 UAI 框架中提出的、可以解决这些问题的一些潜在解决方案。第十六章讨论了迄今为止所涉及的许多哲学问题,包括支持与反对人工通用智能(AGI)可能存在的论点,以及智能本身的哲学与数学问题。 内容: * Part I: Introduction * Part II: Algorithmic Prediction * Part III: A Family of Universal Agents * Part IV: Approximating Universal Agents * Part V: Alternative Approaches * Part VI: Safety and Discussion

成为VIP会员查看完整内容
42

摘 要:针对作战系统的智能化设计问题,提出了基于Agent的人工智能技术概念框架和应用方法。 首先,阐述了Agent 概念,讨论了在作战系统中研究Agent的重要意义。 然后,介绍了基于Agent的人工智能研究框架,列举了 Agent在作战系统中的多种应用方式。 最后,分析了Agent技术发展趋势及其作战应用可能面临的风险与挑战。 关键词:人工智能; Agent; 作战系统; 研究框架; 大语言模型

作战系统是指为实现特定作战目标而设计的技术 系统和组织结构的总和,包括情报采集、目标识别、威 胁判断、任务规划和战术执行等功能模块。 现代战争 具有作战要素复杂、多域交叉融合、一体化联合作战的 特点,要求部队具备高度适应性和快速反应能力,武器 装备应具有强机动性和协作性特点,作战系统整体亟 待智能化升级。 人工智能技术可增强作战系统的态势 感知能力[1] 、指挥控制能力[2] 、决策效率[3] 以及军事行 动的精准度和快速响应能力,但是如何在统一框架下 进行作战系统的一体化智能设计和升级改造仍是一个 待研究的重要课题。 本文提出了基于 Agent 的作战系统人工智能技术 框架和应用方法,通过将多域、多维作战空间的实体要 素纳入统一的研究框架,探讨了 Agent 在作战系统中的 应用方式,从而为作战系统赋予自主性、反应性和适应 性等关键特性,增强作战系统自主能力,促进多 Agent 协作,提高复杂环境适应能力。

成为VIP会员查看完整内容
40

摘要—基础模型(FM)驱动的代理服务被视为一种有前景的解决方案,用于开发智能化和个性化的应用,推动人工通用智能(AGI)的发展。为了在部署这些代理服务时实现高可靠性和可扩展性,必须协同优化计算和通信资源,从而确保有效的资源分配和无缝的服务交付。为实现这一愿景,本文提出了一个统一框架,旨在提供一个全面的综述,探讨在异构设备上部署基于FM的代理服务,重点是模型和资源优化的集成,以建立一个强大的基础设施支持这些服务。特别地,本文首先探索了推理过程中的各种低层次优化策略,并研究了增强系统可扩展性的方法,如并行化技术和资源扩展方法。接着,本文讨论了几种重要的基础模型,并调查了专注于推理加速的研究进展,包括模型压缩和标记减少等技术。此外,本文还研究了构建代理服务的关键组件,并突出了值得关注的智能应用。最后,本文提出了开发具有高服务质量(QoS)实时代理服务的潜在研究方向。 关键词—基础模型、AI代理、云/边缘计算、服务系统、分布式系统、AGI。

I. 引言

人工智能(AI)的快速发展使得基础模型(FM)成为创新的基石,推动了自然语言处理、计算机视觉和自主系统等多个领域的进步。这些模型的特点是参数空间庞大,并在广泛的数据集上进行了深度训练,孕育了从自动化文本生成到高级多模态问答和自主机器人服务等众多应用[1]。一些流行的基础模型,如GPT、Llama、ViT和CLIP,推动了AI能力的边界,提供了处理和分析大量数据的复杂解决方案,涵盖了不同格式和模态。基础模型的持续进展显著增强了AI在理解和与世界互动方面的能力,使其在某种程度上类似于人类认知。 然而,传统的基础模型通常仅限于提供问答服务,并根据已有知识生成回答,往往无法整合最新信息或利用先进工具。基础模型驱动的代理服务旨在增强基础模型的能力。这些代理具备动态记忆管理、长期任务规划、高级计算工具以及与外部环境的交互功能[2]。例如,基础模型驱动的代理能够调用不同的外部API以访问实时数据,执行复杂的计算,并根据最新的可用信息生成更新的响应。这种方法提高了响应的可靠性和准确性,并使与用户的互动更加个性化。 开发具有低延迟、高可靠性、高弹性并且资源消耗最小的服务系统,对于向用户提供高质量的代理服务至关重要。这样的系统能够有效地管理不同的查询负载,同时保持快速响应并减少资源成本。此外,在异构的边缘-云设备上构建服务系统,是利用边缘设备的闲置计算资源和云端丰富计算集群的一种有前景的解决方案。边缘-云设备的协同推理能够通过根据计算负载和实时网络条件动态分配任务,提升整体系统效率。 尽管许多研究已经探讨了小型模型在边缘-云环境中的协同推理,但在这种范式下部署基础模型以支持多样化的代理服务仍然面临着一些严重挑战。首先,波动的查询负载极大地挑战了模型服务。随着越来越多的用户希望体验基础模型驱动的智能代理服务,查询负载急剧增加。例如,截至2024年4月,ChatGPT的用户约为1.805亿,其中每周活跃用户约为1亿[3]。这些用户在不同时间访问服务,导致请求速率变化。因此,弹性服务系统应根据当前的系统特性动态调整系统容量。其次,基础模型的参数空间极为庞大,达到数百亿规模,这对存储系统提出了巨大挑战。然而,边缘设备和消费级GPU的存储容量有限,无法容纳整个模型。庞大的参数量导致了显著的推理开销和较长的执行延迟。因此,有必要设计模型压缩方法,并在不同的执行环境中采用不同的并行化方法。此外,用户在不同应用中有不同的服务需求和输入。例如,有些应用优先考虑低延迟,而有些则优先考虑高精度。这要求动态资源分配并调整推理过程。此外,AI代理需要在复杂环境中处理大量艰巨任务,这要求有效管理大规模内存、实时处理更新的规则和特定领域知识。此外,代理具有不同的个性和角色,因此需要设计高效的多代理协作框架。

为了解决上述挑战,并推动实时基础模型驱动的代理服务的发展,本文提出了一个统一框架,并从不同优化角度调查了多项研究成果。该框架如图1所示。底层是执行层,边缘或云设备在此执行基础模型推理。联合计算优化、输入/输出优化和通信优化被应用于加速推理,并促进构建强大的基础模型基础设施。资源层由两个组件组成,帮助在不同设备上部署模型。并行化方法设计了不同的模型拆分和放置策略,以利用可用资源并协同提高吞吐量。资源扩展根据查询负载和资源利用情况动态调整硬件资源,从而提高整体可扩展性。模型层专注于优化基础模型,提出了两种轻量级方法,包括模型压缩和标记减少,旨在推动基础模型的广泛应用。基于这些基础模型,构建了许多AI代理来完成各种任务。为了增强代理的四个关键组件,提出了许多方法,包括多代理框架、规划能力、记忆存储和工具利用。最终,利用上述技术,可以开发各种应用,为用户提供智能化和低延迟的代理服务。

A. 相关工作

许多研究集中于优化在边缘-云环境中部署机器学习模型的系统。KACHRIS回顾了一些用于大规模语言模型(LLMs)计算加速的硬件加速器,以解决计算挑战[4]。Tang等人总结了旨在优化网络和计算资源的调度方法[5]。Miao等人提出了一些加速方法以提高大规模语言模型的效率[6]。这项综述涵盖了系统优化,如内存管理和内核优化,以及算法优化,如架构设计和压缩算法,以加速模型推理。Xu等人关注人工智能生成内容(AIGC)的部署,并概述了AIGC的移动网络优化,涵盖了数据集收集、AIGC预训练、AIGC微调和AIGC推理过程[7]。Djigal等人研究了机器学习和深度学习技术在多接入边缘计算(MEC)系统中资源分配的应用[8]。该综述包括了资源卸载、资源调度和协同分配。许多研究提出了不同的算法来优化基础模型和代理的设计。[1]、[9]和[10]提出了流行的基础模型,特别是大规模语言模型。[11]、[12]和[13]总结了大规模语言模型的模型压缩和推理加速方法。[2]、[14]和[15]回顾了代理开发中的挑战和进展。 总之,上述研究要么优化了边缘-云资源分配和调度以支持小型模型,要么为大规模基础模型设计了加速或效率方法。据我们所知,本文是首篇全面综述和讨论实时基础模型驱动的代理服务在异构设备上部署的研究,近年来这一研究方向已经变得尤为重要。我们设计了一个统一框架,填补了这一研究空白,并从不同视角回顾当前的研究成果。该框架不仅勾画了基础模型部署的关键技术,还识别了基础模型驱动的代理服务的关键组件和相应的系统优化方法。

B. 贡献

本文全面综述了在边缘-云环境中部署基础模型驱动的代理服务,涵盖了从硬件到软件层的优化方法。为方便读者,本文提供了综述的大纲(见图2)。本文的贡献总结如下:

  • 本综述提出了第一个全面的框架,旨在深度理解在边缘-云环境中部署基础模型驱动的代理服务。该框架具有促进人工通用智能(AGI)发展的巨大潜力。
  • 从低层次硬件角度出发,本文展示了各种运行时优化方法和资源分配与调度方法,这些技术旨在为基础模型构建可靠且灵活的基础设施。
  • 从高层次软件角度出发,本文阐述了专注于模型优化和代理优化的研究工作,提供了构建智能化和轻量化代理应用的多种机会。

本文其余部分安排如下:第二节介绍了一些低层次的执行优化方法;第三节描述了资源分配和并行机制;第四节讨论了当前的基础模型及模型压缩和标记减少技术;第五节阐明了代理的关键组件;第六节介绍了批处理方法及相关应用;最后,第七节讨论了未来的研究方向并作结论总结。

成为VIP会员查看完整内容
37

科学发现是一个复杂的认知过程,推动了人类知识和技术进步已有数百年之久。尽管人工智能(AI)在自动化科学推理、模拟和实验方面取得了显著进展,但我们仍然缺乏能够执行自主长期科学研究和发现的综合性AI系统。本文探讨了当前AI在科学发现中的应用现状,重点介绍了近年来在大型语言模型和其他AI技术应用于科学任务中的进展。随后,我们概述了发展更全面的科学发现AI系统所面临的关键挑战和有前景的研究方向,包括对以科学为核心的AI代理的需求、改进的基准和评估指标、多模态科学表示方法,以及结合推理、定理证明和数据驱动建模的统一框架。解决这些挑战可能会催生变革性的AI工具,从而加速各学科领域在科学发现方面的进展。

引言

科学发现——即通过提出和验证新概念、规律和理论来解释自然现象——是人类最具知识挑战性和影响力的追求之一。几十年来,人工智能(AI)研究人员一直致力于自动化科学推理和发现的各个方面。早期的工作侧重于符号AI方法,以符号化的形式复制科学假设和规律的形成(Segler, Preuss, and Waller 2018;MacColl 1897)。近年来,深度学习和大型语言模型(LLMs)在文献分析、头脑风暴(Ji et al. 2024;Lu et al. 2024;Si, Yang, and Hashimoto 2024)、实验设计(Boiko et al. 2023;Arlt et al. 2024)、假设生成(Wang et al. 2024;Ji et al. 2024)和方程发现(Shojaee et al. 2024b;Ma et al. 2024)等任务中展现出了巨大的潜力。 尽管取得了这些进展,我们仍然缺乏能够整合涉及持续科学研究和发现的多种认知过程的AI系统。大多数工作集中在单一的科学推理方面,且往往是孤立进行的。开发能够支持科学探究完整周期的更全面的AI发现系统——从上下文检索、假设生成到实验设计和评估(如图1所示)——可能会显著加速科学领域的进展。 本文探讨了生成性AI在科学发现中的当前状态和未来潜力。我们重点介绍了最近的进展,尤其是在科学理解和发现框架方面的进展,并识别了关键的空白。随后,我们概述了朝着更统一的AI发现系统迈进的关键研究挑战和方向,包括:(i)创建改进的科学发现基准和评估框架;(ii)开发利用科学知识和推理能力的科学专用AI代理;(iii)推进超越文本的多模态科学表示;(iv)统一自动推理、定理证明和数据驱动建模。通过解决这些挑战,AI与科学领域的研究者们可以共同推动系统的研发,使其成为人类科学家的协作伙伴,加速科学发现的步伐。

近期AI在科学任务中的进展

过去十年,人工智能(AI)在各类科学任务中的应用取得了显著进展。本节重点介绍一些最重要的近期进展,展示了AI在支持和加速科学发现方面日益增长的能力,涵盖多个学科领域。 文献分析与头脑风暴

随着科学出版物的指数增长,研究人员面临着越来越大的挑战,难以跟上自己领域的最新发展。经过大规模科学语料库预训练的大型语言模型(LLMs),已经成为应对这一挑战的强大工具,提升了文献分析与互动的效率。研究人员已经开发出了适用于多个科学领域的专用LLM模型。例如,PubMedBERT(Gu et al., 2021)和BioBERT(Lee et al., 2020)专注于生物医学文献,而SciBERT(Beltagy, Lo, and Cohan 2019)涵盖了更广泛的科学学科。更近期的模型,如BioGPT(Luo et al., 2022)和SciGLM(Zhang et al., 2024),进一步推动了科学语言建模的边界,结合了先进的架构和训练技术。这些模型通过从PubMed和arXiv等源数据中学习,擅长文献信息检索、摘要和问答任务。它们使得研究人员能够高效地浏览科学知识,快速找到相关论文,提炼关键信息,并综合回答复杂问题。 除了分析,最近的研究还展示了LLMs在生成新科学洞察方面的潜力。例如,SciMON(Ji et al., 2024)使用LLMs通过分析现有文献中的模式来生成新的科学思想。这些进展表明,AI不仅能帮助文献回顾,还能为识别有前景和创新的研究方向做出贡献,可能加速科学发现的步伐。

定理证明

自动定理证明近年来由于其在科学推理中的基础性作用,已成为AI在科学研究中的一个重要领域。近年来,这一领域取得了显著进展,尤其是通过将LLMs与形式化推理系统相结合。GPT-f框架(Polu and Sutskever 2020)开创了这一方法,通过训练基于Transformer的语言模型来学习证明策略,从而在复杂的数学证明过程中借助学习到的先验知识进行导航。基于此,研究人员将证明技术与LLMs结合,开发了如数据增强(Han et al., 2021)、检索增强(Yang et al., 2024)以及新的证明搜索方法(Lample et al., 2022;Wang et al., 2023b)等改进措施。其中一个关键的增强方法是自动形式化方法,代表性的例子是Draft-Sketch-Prove方法(Jiang et al., 2023)。该方法首先利用LLMs草拟非正式证明,将其翻译成正式草图,并使用额外的证明助手工具(Bohme and Nipkow 2010)完成证明,模拟人类从直观理解到严谨证明的过程。随着这些系统在形式化和证明复杂命题方面变得更加高效,它们有可能被应用于推导科学理论,潜在地加速科学过程,并在理论理解滞后于经验方法的领域中带来改进。

实验设计

实验设计是科学过程中至关重要的一部分,通常需要丰富的领域知识和创意思维。通过生成模型自动化这一过程,有望加速各领域的科学发现。研究人员近期利用LLM代理开发了可以设计、规划、优化甚至执行科学实验的系统,且仅需最小的人工干预。这些工具在实验设置成本较高的领域尤为宝贵,使得研究人员在物理实施之前能够探索更广泛的可能性。例如,在物理学领域,基于LLM的系统已在设计复杂的量子实验(Arlt et al., 2024)和优化高能物理模拟的参数(Cai et al., 2024;Baldi, Sadowski, and Whiteson 2014)方面取得了显著成效。在化学领域,LLM代理系统也在自动化实验中取得了进展,可以设计和优化化学反应(M. Bran et al., 2024)。此外,在生物学和医学领域,LLM驱动的实验设计已经在优化基因编辑协议(Huang et al., 2024)和设计更有效的临床试验(Singhal et al., 2023)方面展现了前景。这些AI驱动的实验设计方法使研究人员能够解决更复杂的问题,探索一些由于时间或资源限制而通常无法进行的假设。 数据驱动发现

数据驱动的发现已成为现代科学研究的基石,利用日益增长的实验、观测和合成数据来揭示新的模式、关系和规律。这一范式的转变在复杂系统和高维数据普遍存在的领域尤为具有变革性。 在药物发现领域,数据驱动方法显著加速了潜在治疗化合物的识别。例如,最近的研究采用了生成性(Mak, Wong, and Pichika 2023;Callaway 2024)和多模态表示学习(Gao et al., 2024)模型,通过在表示空间中搜索和筛选数百万分子,发现了一种新的抗生素,对广泛的细菌有效(Gao et al., 2024)。这些进展展示了AI在探索庞大的化学空间中的潜力,这些空间手工搜索是不可能实现的,尤其是在分子这个庞大且无限的组合空间中。 方程发现,通常被称为符号回归,是一种数据驱动任务,用于从数据中揭示数学表达式。早期的神经网络方法如AI Feynman(Udrescu and Tegmark 2020)展示了仅通过数据重新发现基本物理规律的能力,而后来的研究则结合了物理约束和结构,使模型更加可解释(Cranmer et al., 2020b)。语言建模和表示学习的出现带来了新的可能性。适应符号回归的基于Transformer的语言模型将方程发现视为一个数字到符号的生成任务(Biggio et al., 2021;Kamienny et al., 2022)。这些方法在解码过程中结合了搜索技术(Landajuela et al., 2022;Shojaee et al., 2024a),尽管在有效编码和标记数字数据(Golkar et al., 2023)方面仍面临挑战。最近的研究如SNIP模型(Meidani et al., 2024)也探讨了符号表达式与数字数据之间的多模态表示学习,将方程发现搜索移动到一个低维且平滑的表示空间,从而提高了搜索效率。最近,LLM-SR(Shojaee et al., 2024b)也展示了将LLM用作科学家代理在方程发现的进化搜索中的潜力。这些进展突显了方程发现领域的发展,并具有在将数字数据与AI模型结合、利用先进LLMs的数学推理能力方面进一步改进的巨大潜力。 在材料发现领域,数据驱动方法已导致预测并合成具有所需特性的全新材料(Pyzer-Knapp et al., 2022;Merchant et al., 2023;Miret and Krishnan 2024)。大型生成模型在生成新结构方面取得了显著成功。例如,Merchant et al.(2023)提出了用于材料探索的图网络(GNoME),导致了新稳定材料的发现。这一方法在已知稳定晶体的数量上实现了数量级的提升,展示了AI在扩展我们材料知识库方面的潜力。近期,LLMs也被用于从材料科学的文献中提取信息,生成新型材料组成,并指导实验设计(Miret and Krishnan 2024)。例如,AtomAgents(Ghafarollahi and Buehler 2024a)展示了如何将LLMs集成到材料发现流程中,在合金设计方面显著提高了过程效率。通过结合模式识别和表示学习能力与先进AI模型的推理和泛化能力,我们正在朝着能够不仅分析现有数据,还能提出新的假设以进行跨学科数据驱动发现的系统迈进。

关键挑战与研究机会

**科学发现的基准测试

首先,与典型的机器学习基准测试相比,评估人工智能系统在开放式科学发现中的表现面临着独特的挑战。这个问题对于大型语言模型(LLMs)和其他基础模型尤为突出,这些模型能够在其参数中存储并可能“记住”大量的科学知识(Brown 2020;Bommasani 等人 2021)。目前在科学发现领域的许多基准测试,主要集中在重新发现已知的科学定律或解决教科书式问题。例如,AI Feynman 数据集包含了120个物理方程,需要从数据中重新发现(Udrescu 和 Tegmark 2020;Udrescu 等人 2020),而像 SciBench(Wang 等人 2023c)、ScienceQA(Lu 等人 2022)和 MATH(Hendrycks 等人 2021)等数据集主要评估科学问答和数学问题解决能力。 然而,这些基准测试可能无法捕捉到科学发现过程的复杂性。更为关键的是,它们可能容易被大型语言模型复述或“记住”训练数据中的信息,从而可能高估其真正的发现能力(Carlini 等人 2021;Shojaee 等人 2024b)。正如 Wu 等人(2023)指出的,LLMs往往通过与记忆中的知识进行模式匹配来解决科学问题,而非通过真正的推理或发现。这一担忧还通过研究得到了进一步强调,研究表明 LLMs 可以重现其训练数据中的大量内容(Carlini 等人 2022)。因此,急需更丰富的基准测试和评估框架,以更好地理解基准线与最近方法之间的差距,并识别改进的方向。主要的研究方向包括: * 开发专注于新颖科学发现而非恢复的基准数据集:一个有前景的方法是创建可配置的模拟科学领域,在这些领域中,基础定律和原理可以系统地变化。这将允许在新的场景中测试发现能力,减少模型仅仅复述训练数据中已观察到的记忆信息的风险。例如,M. Bran 等人(2024)使用模拟化学环境评估了人工智能驱动的化学反应新发现。同样,Shojaee 等人(2024b)为不同的科学领域(如材料科学、物理学和生物学)设计了模拟设置,以评估人工智能驱动的科学方程发现。这一研究方向的一个关键挑战是平衡 LLMs 先前的科学知识使用,同时避免简单的复述或记忆。这个平衡对于推动人工智能在科学发现中的作用至关重要。 * 创建多方面的科学发现评估指标:为了全面评估科学发现的能力,我们需要一个多维度的评估框架。关键指标包括: (i) 新颖性:量化已发现的假设或定律与现有知识的差异。可以通过与已知科学文献的对比来衡量(Ji 等人 2024); (ii) 普适性:评估已发现的定律或模型如何预测来自分布外的、未观察到的数据。为此,应该开发测试已发现定律在与训练数据分布明显不同的场景下的基准测试,突显科学理论如何应对新环境的普适性; (iii) 与科学原理的一致性:评估已发现的假设是否与物理学的基本定律或其他成熟的科学知识一致。这可以涉及开发用于科学一致性的形式化验证方法(Cornelio 等人 2023;Cranmer 等人 2020a),以及评估已发现的定律与现有科学理论的兼容性(Liu 等人 2024b)。 * 在基准设计和评估中涉及领域专家:领域专家的参与对于开发有意义的基准和评估人工智能驱动的科学发现至关重要。专家可以在发现过程中提供帮助,例如评估人工智能生成的假设的合理性、新颖性和潜在影响;评估人工智能发现的定律或模型是否与人类可理解的科学原理一致;以及在人工智能驱动的发现过程中提供反馈,促进人类与人工智能的协作发现。通过在基准开发、发现和评估过程中整合领域专家的参与,我们可以确保人工智能驱动的科学发现既在技术上合理,又符合科学界的需求和标准。


**面向科学的智能体

目前的科学人工智能研究通常将模型视为被动工具,而不是主动的追求发现的智能体。开发能够利用广泛科学知识、进行推理并自主验证其推理和假设的面向科学的人工智能智能体(见图2)的需求日益增长。最近,LLMs在知识检索和推理方面展现出了令人印象深刻的能力(Huang 和 Chang 2023),使其成为开发这种智能体的有前景的候选者。这些智能体可以整合嵌入在 LLMs 中的大量科学知识,生成有根据的假设,设计实验,验证其设计,并解释结果。此外,它们与外部工具和实验数据源的接口能力使得现实世界中的实验和验证成为可能。最近的工作已经展示了基于 LLMs 的智能体在科学领域的潜力。例如,M. Bran 等人(2024)介绍了 ChemCrow,这是一个增强型的化学研究系统。ChemCrow 将 GPT-4 与领域特定工具集成,用于预测反应、回溯合成规划和安全评估等任务。这种集成使系统能够对化学过程进行推理,并使用专业的化学工具验证假设。类似地,Ghafarollahi 和 Buehler(2024a)开发了 AtomAgents,这是一个用于合金设计和发现的多智能体系统。SciAgents(Ghafarollahi 和 Buehler 2024b)也使用多个人工智能智能体,每个智能体专注于材料科学的不同方面,共同设计新的生物材料。该系统融入了物理学约束,并能够与模拟工具接口验证预测。然而,开发有效的面向科学的智能体也面临若干挑战: * 领域特定工具集成:有效的科学智能体需要与专业的科学工具和领域特定知识集成。这个挑战源于科学仪器和方法的高度专业化,这些内容通常在 LLMs 的训练数据中表现不足(Bubeck 等人 2023)表明,尽管像 GPT-4 这样的 LLMs 在一般学术任务中表现出色,但它们在物理学和化学等领域的专门科学推理中仍然存在困难。

潜在的研究方向包括开发用于整合领域特定知识库和工具接口的模块化架构,并在精心策划的科学数据集上对 LLMs 进行微调。这些方法可以使 LLMs 访问领域特定知识,并与专业科学工具进行有效互动,从而增强它们在这一环境中的能力。 * 自适应实验设计与假设演化:面向科学的智能体面临的一个重要挑战是,开发能够进行长期、迭代的科学调查的系统。这些智能体必须设计实验、解释结果,并在长期过程中不断完善假设,同时保持科学严谨性,避免偏见。这个挑战源于科学探索的复杂性和多阶段性,通常需要反复进行实验、分析和假设调整。为应对这一挑战的潜在研究方向包括开发元学习框架,使智能体能够在多个调查中改进实验设计和假设精化策略;以及开发层次化规划算法,以管理短期实验步骤和长期科学发现目标。 * 协作科学推理:使人工智能智能体能够进行协作性科学推理对于推动科学进展至关重要。智能体必须在其科学知识基础上进行推理、交流假设、参与讨论,并批判性地评判同行的工作。目前的科学智能体在深度批判分析和识别人工智能驱动的假设和实验设计中的科学缺陷方面存在困难(Birhane 等人 2023)。研究机会包括开发模拟科学社区的多智能体系统,融合领域专家的多智能体精化过程,并创建增强科学对话能力的基准测试,以提升面向科学的智能体的能力。


多模态科学表示

科学数据的领域广泛且多样,包含的内容远不止文本信息。尽管语言模型的最新进展显著提升了我们处理和推理科学文献的能力,但我们必须认识到,大多数科学数据并不是自然语言的形式。从显微镜图像到基因组序列,从时间序列传感器数据到结构化数据库和数学定律,科学知识本质上是多模态的(Topol 2023;Wang 等人 2023a)。这种多样性为人工智能驱动的科学发现提供了挑战,也带来了机会。

结论

开发统一的人工智能系统以推动科学发现是一个雄心勃勃的目标,但其潜在影响极为深远。若成功实现,这一目标有可能在各个科学领域大幅加速进展。本文概述了当前的进展,以及朝着这一愿景迈进的若干关键研究挑战和机会,包括开发面向科学的人工智能智能体、创建改进的基准测试、推进多模态表示和统一多样的科学推理方式。解决这些挑战将需要人工智能研究人员、各领域的科学家以及科学哲学家的协作。尽管完全自主的人工智能科学家可能仍然遥不可及,但短期内的进展可以产生强大的人工智能助手,增强人类的科学能力。这些工具可以帮助科学家导航不断增长的科学文献、集思广益、生成新颖的假设、设计实验,并在复杂的实验数据中发现意想不到的模式。 通过追求这一研究议程,机器学习和人工智能社区有机会开发出不仅仅自动化产品相关任务的系统,而是积极推动人类科学知识前沿的系统。这条道路充满挑战,但其潜在的回报——无论是科学上的还是技术上的——都是巨大的。

成为VIP会员查看完整内容
41

摘要:随着以Transformer为代表的预训练模型等深度学习技术的发展, 大型语言模型(LLM)日益展现出强大的理解力和创造力, 对抽象摘要、对话生成、机器翻译和数据到文本生成等下游任务产生了重要影响, 同时也在图像说明、视觉叙事等多模态领域展现出了广阔的应用前景. 虽然大型语言模型具备显著的性能优势, 但深度学习架构使其难以避免内容幻觉问题, 这不仅会削减系统性能, 还严重影响其可信性和应用广泛性, 由此衍生的法律风险和伦理风险成为掣肘其进一步发展与落地的主要障碍. 聚焦大型语言模型的幻觉问题, 首先, 对大型语言模型的幻觉问题展开系统概述, 分析其来源及成因; 其次, 系统概述大型语言模型幻觉问题的评估方法和缓解方法, 对不同任务的评估和缓解方法类型化并加以深入比较; 最后, 从评估和缓解角度展望应对幻觉问题的未来趋势和应对方案.

成为VIP会员查看完整内容
37

具身智能,作为人工智能领域的一颗璀璨新星,正以其独有的方式与深邃的内涵,在科技的浩瀚星空中勾勒出 一幅幅壮丽的图景。它不仅仅是一种技术的革新,更是人类智慧探索未知边界的又一重要里程碑。通过模拟生 物体的感知、认知与行动能力,具身智能实现了与环境的高度融合,这一过程涉及信息的精准捕捉、深度理 解、快速决策与灵活执行,展现了强大的适应性和创造力。这一智能范式的崛起,不仅标志着人工智能技术的 质的飞跃,更为全球科技竞争格局注入了新的活力与不确定性,预示着围绕具身智能技术的全球科技竞赛拉开 帷幕。 从精密制造与智能工厂的自动化升级,到医疗健康领域的个性化治疗与辅助康复设备,再到智能家居与数字娱 乐的深度融合,具身智能以其广泛的应用场景和深刻的行业影响力,正逐步重塑社会的运行逻辑与人们的生活 方式,成为推动经济社会发展的新引擎。它不仅提升了生产效率,优化了服务体验,更是为人类解决复杂问题 提供了前所未有的智能工具,加速了新质生产力的形成与发展。 为了全面剖析具身智能的发展现状,精准把握未来趋势,我们精心构建了一个连通产学研的智囊团,汇聚了来 自顶尖高校、研究机构以及行业企业的专家学者。他们依托深厚的学术造诣与丰富的实战经验,紧密跟踪 Nature、Science等国际顶级学术期刊的最新研究成果,结合产业数据分析,全方位、多层次地开展了深入研究 与分析。在此基础上,精心编纂了《2024具身智能科技前沿热点》报告,旨在为行业内外人士提供一份权威、 前沿的参考指南。 本报告精心筛选的具身智能科技热点,不仅覆盖了具身智能灵巧操作特点,还深入探讨了空间智能的拓展应 用、人形机器人的商业化路径、大规模仿真训练平台的构建与优化、触感灵巧手的精密操控技术、以及具身机 器人导航大模型的智能导航策略等。这些热点不仅代表了当前具身智能技术的最前沿,也预示着未来技术发展 的可能方向。 作为持续关注并推动具身智能领域发展的年度系列报告,我们将持续跟踪行业动态,及时发布最新研究成果, 与业界共享知识,共谋发展。同时,我们也深知,具身智能技术迭代速度之快、涉及领域之广,要求我们始终 保持敬畏之心,严谨治学,科学预测。本报告中,所有分析与预测均基于编写团队在有限时间内的调研与数据 整理,同时,我们的检索可能未覆盖所有相关领域,内容仅供参考,不构成任何投资建议或决策依据。我们鼓 励读者结合各自领域的实际情况,审慎评估,科学决策。 在此,我们再次向所有参与本报告编纂工作的专家学者表示最诚挚的感谢,他们的智慧与汗水是这份报告得以 问世的关键。同时,我们也深深感激每一位读者的关注与支持,正是你们的期待与鼓励,激励着我们不断前 行,追求卓越。我们坚信,通过持续的探索与创新,具身智能必将为人类社会的可持续发展贡献更多力量,开 启一个更加智能、更加美好的未来!

成为VIP会员查看完整内容
37
登陆后查看更多精品内容
VIP会员
本周荟萃主题
区块链
区块链(Blockchain)是由节点参与的分布式数据库系统,它的特点是不可更改,不可伪造,也可以将其理解为账簿系统(ledger)。它是比特币的一个重要概念,完整比特币区块链的副本,记录了其代币(token)的每一笔交易。通过这些信息,我们可以找到每一个地址,在历史上任何一点所拥有的价值。
深度学习
机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。
机器学习
“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。”

——中文维基百科
强化学习
强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。
推荐系统
推荐系统,是指根据用户的习惯、偏好或兴趣,从不断到来的大规模信息中识别满足用户兴趣的信息的过程。推荐推荐任务中的信息往往称为物品(Item)。根据具体应用背景的不同,这些物品可以是新闻、电影、音乐、广告、商品等各种对象。推荐系统利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程。个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和产品过程无疑会使淹没在信息过载问题中的消费者不断流失。为了解决这些问题,个性化推荐系统应运而生。个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。
卷积神经网络
在深度学习中,卷积神经网络(CNN或ConvNet)是一类深度神经网络,最常用于分析视觉图像。基于它们的共享权重架构和平移不变性特征,它们也被称为位移不变或空间不变的人工神经网络(SIANN)。它们在图像和视频识别,推荐系统,图像分类,医学图像分析,自然语言处理,和财务时间序列中都有应用。
计算机网络
计算机网络( Computer Networks )指将地理位置不同的多台计算机及其外部设备,通过通信线路连接起来,在网络操作系统及网络通信协议的管理和协调下,实现资源共享和信息传递的计算机系统。
命名实体识别
命名实体识别(NER)(也称为实体标识,实体组块和实体提取)是信息抽取的子任务,旨在将非结构化文本中提到的命名实体定位和分类为预定义类别,例如人员姓名、地名、机构名、专有名词等。
机器翻译
机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。
计算机视觉
计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。
微信扫码咨询专知VIP会员