潜在对手正在利用人工智能武器发动新一轮心理战。采用了一种新的人工智能驱动的不对称战争战略,利用生成式模型以前所未有的规模放大虚假信息。目前不少事件凸显了人工智能驱动的宣传破坏关键系统稳定的灾难性潜力,使得必须做出调整。人工智能采用战略是向前迈出的一步,但在训练士兵充分利用人工智能进行信息战和应对这些不断变化的威胁,仍然存在差距。
一些潜在对手正在利用人工智能加强其虚假信息宣传活动,特别是通过机器人账户的演变,这些账户现在可以生成更像人类、更具说服力的内容。例如在一些国家大选之前,行动者试图利用人工智能来加强其影响力行动的范围和可扩展性,其中一些行动的具体目标是在其国内和全球范围内塑造对候选人的舆论、左右选举结果、破坏公众信心以及挑拨离间。人工智能的整合使行动者能够实时监控信息环境,从而快速调整虚假信息策略。
在心理战中使用人工智能已成为塑造地区和全球叙事、扩大全球影响力战略的关键要素。通过利用人工智能创建深度伪造、自动化社交媒体机器人以及针对特定受众定制虚假信息,增强了操纵公共话语的能力。这一战略不仅仅局限于在线影响力;人工智能能力使大规模网络战成为可能,这一点在针对受众协调一致的虚假信息活动中较为突出。 认知战将人工智能与心理战和网络战相结合。
不采取行动以应对对手的人工智能强化信息战会带来巨大风险。对手利用人工智能扩大宣传和造谣活动的能力,有可能破坏社会稳定。如果不加以应对,这种技术优势可能会增强敌对势力破坏地区稳定、影响选举和操纵舆论的目的,其效果将是前所未有的。不作为的代价很高,有可能导致战略失衡,有利于善于利用人工智能达到恶意目的的对手。试想一下,如果人工智能驱动的虚假信息宣传活动不受控制。大量虚假信息可能会削弱公众对民主机构的信任,造成混乱和分裂,从而产生破坏性影响。在这种环境下,国家在全球各地区施加影响和加强稳定的能力可能会被严重削弱。为此,迫切需要采取积极主动的应对措施。
军队人员,尤其是心理作战士兵的训练重点需要适应不断变化的技术环境。士兵们必须了解当前可用的人工智能工具,并理解这些工具如何协助分析作战环境、加快分析速度、生成内容以及解决指挥官的风险问题。提高人工智能素养是第一步。士兵应了解人工智能的基础知识、能力和局限性。这些基础知识对于将人工智能工具有效融入行动至关重要。训练计划应包括人工智能工具的实践经验,让士兵在现实场景中练习使用这些技术。有关在军事行动中使用人工智能的道德影响的教育对于确保遵守法律和道德标准也至关重要。鉴于人工智能的发展速度很快,训练计划必须强调持续学习和适应,以跟上新的进步。
将人工智能工具融入军事行动,尤其是信息战领域的军事行动,可提供若干关键优势,从而增强军队的能力,使心理作战士兵能够对抗敌方的信息攻势。这些优势包括强化分析、速度和效率、可扩展性以及降低风险。人工智能可以分析各种来源的海量数据,识别趋势、情绪和潜在威胁。这种能力使心理作战分遣队和团队能够更深入地了解作战环境,并制定更精确的信息传递方案。此外,人工智能还能快速高效地生成内容,这在当今日益快节奏的信息环境中至关重要。
此外,心理作战团队面临的一个主要问题是将其工作扩展到整个部署责任区。地域作战司令部、战区特种作战司令部等对陆军心理作战能力的需求已经很高。鉴于来自多个组织的高需求,分遣队需要分成较小的分队,以覆盖广泛的地理区域和关键任务,这给带宽管理和可扩展性带来了巨大挑战。人工智能可通过简化内容制作和分发,帮助克服这些带宽和可扩展性问题,使较小的分队能够支持更广泛的任务目标,覆盖更多地区,并在不牺牲速度或质量的情况下与多个受众接触。这种可扩展性对于有效打击大范围的虚假信息活动至关重要,因为时间通常是影响信息传播效果的关键因素。
人工智能还能大大加强风险管理。人工智能可以评估不同信息传播策略的潜在影响,帮助指挥官了解各种行动方案的相关风险和益处。通过模拟潜在的结果,人工智能可以更清晰地了解作战环境以及对手和其他受众可能做出的反应。此外,人工智能的风险缓解能力还能让团队获得可操作的见解和建议,简化规划流程,更好地为指挥提供支持。这取决于人工智能实施者能否将整合过程传达给指挥官和决策者。
内容生成是人工智能可以发挥作用的另一个关键领域,因为它可以用来高效、快速地创建真实可信的材料,从而最大限度地扩大影响。人工智能可以大规模生成高质量的内容,这对于反驳敌方言论和传播信息至关重要,可以快速应对敌方的宣传。自然语言处理等工具可以创建有说服力、与背景相关的内容,引起目标受众的共鸣。在快节奏的信息环境中,及时的干预可以产生重大影响,而自然语言处理的速度对实现这一目标至关重要。
受众反应测试是人工智能发挥重要作用的另一个领域,这主要得益于它的速度和效率。人工智能可以根据预先加载的受众特征模拟预期的受众反应和参与度指标,而不是完全依赖传统方法,使团队能够在广泛传播之前完善信息策略。虽然这种方法可能无法取代心理作战分队细致入微、基于经验的洞察力,但它能大大加快这一过程,比人工方法更快地对信息进行多次迭代测试和优化,从而提高有效参与的可能性。
要将人工智能工具有效地融入军事行动,全面的训练计划必不可少。该计划应包括基本的教学模块,涵盖人工智能的基础知识、人工智能扫盲的基本知识、人工智能和大型语言模型的工作原理、人工智能可提供的各种能力,以及人工智能的局限性和对其使用的担忧。这些基础知识对于理解如何在军事环境中应用人工智能至关重要。实践训练应成为该计划的重要组成部分。让士兵在模拟场景中使用人工智能工具的实际演练将帮助他们熟悉这项技术,并了解如何将其应用到实际行动中。这种实践方法可确保士兵不仅掌握理论知识,还能熟练使用人工智能工具。道德和法律方面的考虑也应成为训练的关键部分;士兵们必须意识到潜在的风险,并确保他们对人工智能的使用符合任何规定人工智能使用道德标准的战略文件或政策更新。
鉴于人工智能的快速发展,持续学习至关重要。持续的教育和训练对于确保士兵熟练使用人工智能至关重要。这可能包括定期更新新的人工智能工具和技术,以及让士兵了解人工智能最新发展的进修课程。鉴于心理作战人员在信息环境中挑战敌方叙事的作用,对他们进行专门训练也很有必要。就人工智能如何加强之前讨论过的特定任务--信息分析、内容生成和受众参与--进行集中训练,将使心理作战团队掌握将人工智能有效融入行动所需的技能。如果这种专门训练能够包括现实世界的例子和案例研究,以说明人工智能的成功实际应用,以及从实施和实验的斗争中吸取的经验教训,那么这种训练的质量将大大提高。
对抗对抗性人工智能优势的关键解决方案之一是更新军事政策,为人工智能工具的使用提供明确的界限。人工智能训练是基础,但只有建立正确的政策框架,才能最大限度地发挥其影响。当前的政策往往缺乏必要的针对性,无法指导军事人员合乎道德地有效使用人工智能技术。通过制定全面的指导方针,军方可以授权其成员以支持国家目标的方式使用人工智能,同时坚持遵守道德标准。这些政策更新应侧重于定义人工智能在各种军事行动中的可接受用途,制定部署和监督人工智能工具的协议,并提供一个随着技术发展不断评估和调整人工智能政策的框架。明确的指导方针不仅能提高行动效率,还能确保人工智能的使用是负责任和合乎道德的。
忽视对手采用的人工智能驱动的心理战战术的风险并不只是理论上的,它们已经开始显现。随着作战环境的不断变化,对手将继续利用人工智能来破坏制度的稳定、操纵公众舆论并削弱在全球舞台上的影响力。不作为的代价是惨重的,因为人工智能以刚刚开始掌握的方式加速了虚假信息活动的规模和复杂程度。如果不解决这些战术问题,就可能导致战略失衡,削弱力量,容易进一步丧失对机构的信任,削弱在全球施加影响和加强稳定的能力。
在信息环境的这一关键层面,不能落后。为了维护安全,现在就必须进行调整。这不仅需要政策更新,还需要一种全面的方法,包括高级训练、战略人工智能整合以及快速部署人工智能增强型行动。将人工智能作为心理战能力的一个积极组成部分,就能超越对手,解决心理作战部队在全球范围内面临的能力和问题,并为保护信息环境免受对手的恶意影响做好更充分的准备。这不是未来的挑战,而是当前的战斗,其利害关系不言而喻。
参考来源:美国西点
“人工智能与人类思维战场”题目有三种不同的解释:
第一种解释是,题目指的是人工智能已经获得了我们认为是人脑独有的能力。不可否认,在许多领域,人工智能正在成功地与人类个体和集体的智慧力量进行竞争--对抗。问问 ChatGPT 就知道了!这是否意味着,在不远的将来,人工智能可能会与人类完全相似,并发展出某种形式的智商或意识?要回答这个问题,我们需要了解意识的含义。尽管我们每个人都是这一深刻主观体验的专家,但要将其转化为科学术语却相当困难。我如何知道 “你 ”是什么样子,或者如何解释 “你就像我一样”?如果 “对于有意识的有机体来说,存在着成为该有机体的感觉”(Nagel,1974 年),那么这种体验与当前的人工智能能力有什么关系呢?也许与我们的直觉相反,拥有语言并不是先决条件。即使是非常简单的蠕虫,如生活在土壤中的优雅猫科动物,也有 “优雅的头脑”,为它们提供了惊人的感官、社交和学习能力(Ardiel & Rankin,2010 年)。许多认知科学家认为,意识的基本构成要素是我们感知外部和内部世界的能力,以及根据这些信息采取行动的能力,从而使你我这个奇妙的细胞集合体得以生存。根据这种观点,意识是一种为支持平衡而进化出的机制--生物系统维持其生命参数(如温度、葡萄糖水平、血压或水平衡)稳定值的过程。如果我们将人工智能系统的运行参数(如 CPU 温度或内存使用率)视为人工智能的内部状态,为其提供外部传感器,并在其设计中加入自我监测和维护功能,人工智能会变得有意识吗?在这种情况下,人工智能与人类是否仍有本质区别,抑或只是人类中心主义的空想?
第二种解释是,人工智能正日益增强人类的能力。在这个需要持续关注的世界里,不同的认知过程都在争夺资源。与人工智能联手带来的结果要优于人类认知本身所能完成的结果。例如,在放射学领域,如果由经过训练的人工智能系统来解读医学影像,并与过滤掉假阳性结果的人类专家合作,就能检测出人类视觉认知无法发现的细微差别,从而达到最高的准确率--我的同事 Sharon Ong 和她的团队就证明了这一点。人工智能在应对认知超载方面也非常有用。让我们考虑这样一个事实:人类感知系统收集的外部感官信息每秒大约有 1100 万比特。这些信息被提交给大脑进行处理,但我们的意识却无法处理如此庞大的数据。根据《大英百科全书》,它实际上每秒只能处理大约 50 个比特。你可能会问,剩下的 10 999 950 比特会怎么处理呢?我们的认知系统在设计上似乎可以进行大量的数据压缩和过滤,而不会危及我们的生存机会。然而,这样一来,人类的感知就变成了一种 “骗局”,一种 “受控幻觉”,而不是对现实的直接反映。大脑在构建我们的感知体验时,会将预测(基于过去的经验和背景)与只需修正的有限感官输入相结合。得益于这一可控过程,尽管我没有清楚地表达每一个字,而且你们中的一些人坐在房间的后面,但你们还是有可能听懂我在唱什么。尽管你们并没有持续监控环境的每一个细节,也没有从头开始构建环境的图像,但你们对这个舞台和草裙舞的印象还是相当不错的。这也很可能意味着,你刚刚忽略了我用动词 “唱 ”而不是 “说 ”来指代我正在从事的活动。这并不是什么大问题,除非必须根据我们的感知精确度做出生死攸关的决定。在这种情况下,让我们假设今年不是 2024 年,而是 1953 年,现在是 2 月 1 日,泽兰省、南荷兰省和北布拉班特省的大片地区被洪水淹没。许多人躲在屋顶和屋子里,还有一些农场的牲畜处于危险之中。一些人受伤,需要紧急医疗救助。当时,荷兰只有一架直升机可供使用。现在想象一下,你正在驾驶这架直升机。由于天色昏暗,你很难发现所有等待救援的生灵。在几分之一秒的时间内,你需要做出决定,将急救人员派往何处。你的认知系统正在为如何分配稀缺的注意力资源而战斗,你也越来越疲惫。但是,如果有数百架配备了计算机视觉、红外和声学传感器的无人机,经过训练后可以半自动地扫描大片区域并探测到有生命的动物,只需要人类操作员的快速确认。在决定向何处求助时,这难道不是一件非常有价值的事情吗?然而,在这种人类与人工智能合作的情况下,究竟谁应该承担道德和法律责任?是你、操作员、整个人类-人工智能团队、人工智能系统、训练它的工程师,还是决定使用这项技术的政府?
最后,第三种解释指的是,人类的思想是利用人工智能来吸引我们的注意力并影响我们的信仰和行为的战争场地。通常认为国家间的冲突涉及实体武器,但现代战争主要是一种社会现象,战斗发生在搜索引擎和社交媒体上。在过去的 10-15 年里,民众都受到了这些系统性混合战争的影响,这些战争破坏了民主结构的稳定。人工智能和认知神经科学领域的进步为借助所谓的认知战争影响人脑带来了新的可能性。“认知战是一种战略,其重点是改变目标人群的思维方式--并通过这种方式改变其行为方式"(Burda,2023 年)。通过收集和分析我们的在线行为和偏好数据,人工智能算法已经比我们自己更了解我们。巧妙定制的信息,无论真假,都能迎合我们的情绪,吸引我们的注意力,正如我们在 COVID-19 大流行中清楚体验到的那样。我们如何才能让人工智能加入我们的团队,帮助我们提高感知力,发现虚假信息,保护我们免受认知操纵?人工智能在道义上是否有义务做到实事求是?
要回答所有这些问题,不仅需要计算认知科学领域的能力,还需要人类学、政治学、哲学和传播学方面的能力。在这方面,本研究活动所在的人文与数字科学学院提供了一个独特的机会,来研究这种有能力影响人类安全和我们的民主(无论好坏)的技术。本文依次阐述关于人工智能和人类思维的三个视角。人工智能是当前的热门话题,很多人认为它既是巨大的机遇,也是一种威胁。作者认为人工智能研究的主要价值在于,它让我们更深入地了解我们是谁,超越了常识所提供给我们的条件。它伴随着风险,但在其最佳状态下,人工智能技术为我们提供了一种精神体验: 从隐喻的角度来说,因为它为人类的认知提供了一面镜子,让我们有可能与原本无法触及的事物进行交流。从字面意义上讲,因为我们可以用它来实现改变的意识状态。
根据日本“防卫战略”(2022 年 12 月 16 日由国家安全保障会议和内阁批准),日本将从根本上加强其 “多领域防卫力量”,通过包括空间、网络和电磁领域在内的有机综合能力的协同作用,能够在从和平时期到武装突发事件的所有阶段持续开展灵活的战略活动,重点关注对手的能力和新的战争方式。到 2027 财政年度或从现在起的五年内,日本将加强其防卫能力,使其能够承担主要责任,并在获得其盟国和其他国家的支持的同时破坏和击败此类威胁。此外,在大约 10 年后,日本将进一步实现这一防卫目标,并将加强其防卫能力,使其能够更早、更远地瓦解和击败入侵。
鉴于上述指导思想,日本防卫省/自卫队(以下简称 “MOD/SDF”)将根据以下计划方针,建设、维护和运用防卫能力。
日本防卫所需的功能和能力是:首先,日本需要具备远距离扰乱和击败入侵部队的能力。因此,日本将加强 “防区外防御能力 ”和 “空空导弹综合防御能力”。
其次,如果威慑失败,日本遭到入侵,日本需要确保不对称优势,除这些能力外,还利用有人和无人资产,并在水下、水面和空中等领域取得优势。为此,日本将加强 “无人防御能力”、“跨域作战能力 ”和 “指挥与控制/情报相关功能”。
最后,日本还需要以迅速而持久的方式开展行动,迫使对方放弃入侵。为此,日本将加强 “机动部署能力/平民保护 ”和 “可持续性和复原力”。
此外,日本还将重视防卫能力不可或缺的防卫生产和技术基础,以及支持防卫能力的人力资源基础等领域。
在设备采购方面,通过将引进新的高性能设备与延长现有设备的寿命和改进现有设备适当结合起来,MOD/SDF将有效地确保必要和足够质量和数量的防御能力。在这方面,MOD/SDF将在设备的整个生命周期,包括研发活动期间,加强项目管理,降低生命周期成本,提高成本效益。此外,MOD/SDF将实现防卫装备的加速部署,从政策角度来看,在可能直接影响自卫队当前和未来作战方式的领域采用先进的民用技术尤为迫切和重要。
在日本人口老龄化、出生率下降、新兵增加无望的情况下,防务省和自卫队将全面推进强化人才基础的各种措施,如加强征兵工作、利用自卫队后备役人员等、促进女性参与、提高自卫队军警人员的退休年龄、利用包括自卫队退役军警人员在内的多样化优秀人才、改善生活和工作环境、开发人力资源、改善待遇、支持再就业等。
为进一步综合强化日美联合威慑能力,日本将推进与太空、网络、电磁等跨领域作战相关的合作等。此外,为了强化支持各阶段有效联合应对能力的基础设施,日本将加强与信息安全和网络安全相关的行动,以及促进日美信息共享的设备和技术合作。此外,还将稳步实施支持驻日美军的措施。
根据 “自由开放的印度洋-太平洋”(FOIP)的愿景,为从战略上促进多方面、多层次的安全行动,日本将进一步推动建立互惠准入协定(RAA)、采购和交叉服务协定(ACSA)、(军事)信息安全总协定(GSOMIA/GSOIA)、防卫装备和技术转移协定等政策框架,同时还将促进防卫合作与交流,包括双边/多边训练和演习、防卫装备和技术合作、能力建设以及军种间的交流。
在从根本上强化防卫能力方面,日本将在坚持 “先废后建 ”方针的同时,优化自卫队的组织和核定兵力以及装备。还将进一步努力提高采购效率,从而大幅降低成本。此外,考虑到日本人口老龄化和出生率下降,日本将大力推进自动化、节省劳动力和优化。
美国陆军的水上舰队旨在深海和浅海水域运送补给、车辆和人员,并通过水路前往偏远的未开发地区。
对陆军水上运输船的需求不断增加,尤其是在印度洋-太平洋地区。然而,自 2018 年以来,舰队已经缩减了约一半。此外,陆军一直在努力维护其水上船只,只有不到 40% 的船队可以执行任务。
陆军正在建造新的水上船只,并制定舰队现代化战略。但是,它还没有充分分析如何满足当前和近期的需求。4 项建议就是针对这一问题提出的。
陆军的通用登陆艇可运输 5 辆艾布拉姆斯坦克以及其他货物
美国陆军的水上舰队负责在深海水域、沿海浅水区、内陆水道和河流中运送补给、装备和人员。然而,陆军的 70 艘水上运输船舰队满足任务要求的能力有限。陆军政策规定,包括水上飞机在内的地面装备的完全任务能力目标为 90%。完全具备执行任务的能力意味着水上运输工具可以随时执行任务。然而,水上舰艇完全能够执行任务的比例持续下降,从 2020 年的 75% 降至 2024 年迄今为止的不到 40%。
2020-2024 财政年度陆军水上舰队完全胜任任务的平均比率
任务合格率低妨碍了
陆军正在起草一份修订后的水上舰艇现代化战略,概述陆军水上舰艇到 2030 年和 2040 年的最终状态。然而,在该战略定稿之前,尚不清楚其中是否包括任何缓解计划,以应对当前影响水上舰队的挑战、风险和差距。制定应对挑战的缓解计划将增强陆军满足当前和近期任务需求的能力。此外,通过评估提高陆军满足任务要求能力的潜在方案的成本和效益,陆军将能更好地决定实施哪些行动。
此外,陆军一直在努力解决其水上舰队一系列长期存在的维护难题。使用手写系统管理维护对舰队的战备状态产生了不利影响。例如,截至 2024 年 5 月,一艘船已停用超过 5 年。陆军官员报告了导致重大延误的几个因素,包括维修工作。
2024 年 2 月,陆军成立了陆军水运企业执行委员会。该委员会已采取措施对陆军范围内的水上运输活动进行监督和协调。通过制定和发布一个反映有效治理所有领先做法的治理框架,陆军将能更好地制定综合战略,以应对持续存在的维护挑战。
在当代威胁环境中,威胁可能在意想不到的时间从意想不到的角度出现。准确辨别战术意图的能力对于有效决策至关重要。传统的威胁识别策略可能不再适用。本文将探讨如何利用算法识别威胁的战术意图。为此,在模拟实验中比较了人类和算法在识别敌对智能体战术意图方面的功效。在实验中,70 名人类参与者和一个算法在一个海军指挥和控制场景中扮演数据分析师的角色。在该场景中,敌方智能体控制一艘舰艇将拦截多艘友军舰艇中的一艘。数据分析师的任务是及时识别敌方智能体可能攻击的目标。我们对识别的正确性和及时性进行了研究。人类参与者的识别准确率为 77%,平均反应时间为 7 秒。算法的准确率达到了 87%,同时受限于人类的反应时间。当人类参与者识别正确时,算法有 89% 的时间表示同意。相反,当人的反应不正确时,算法有 91% 的时间不同意,这表明决策支持系统有机会在这种情况下影响人的决策。这项研究有助于加深我们对复杂作战环境中的态势感知和决策支持的理解。
对随机且不规则采样的时间序列进行建模是一个具有挑战性的问题,广泛存在于各类应用中,尤其是在医学领域。神经随机微分方程(Neural SDEs)是该问题的一种有吸引力的建模技术,它通过神经网络对SDE的漂移项和扩散项进行参数化。然而,当前训练神经SDEs的算法需要通过SDE动态进行反向传播,这大大限制了其可扩展性和稳定性。为了解决这一问题,我们提出了轨迹流匹配(Trajectory Flow Matching, TFM),它无需模拟即可训练神经SDE,避免了通过动态进行反向传播。TFM借鉴了生成模型中的流匹配技术来建模时间序列。在本研究中,我们首先建立了TFM学习时间序列数据的必要条件。接着,我们提出了一种重新参数化技巧,以提高训练的稳定性。最后,我们将TFM应用于临床时间序列场景,展示了在三个临床时间序列数据集上的性能改进,不仅在绝对性能方面有提升,同时在不确定性预测方面(这一参数在该领域尤为重要)也表现出色。
作为新一轮科技革命与产业变革的核心驱动力,人工智能技术正 在深刻地影响人类的社会生活。体育是人类促进自身健康、探索运动 极限的重要方式,同时也是以丰富人类社会文化和精神文明为目的的 一种有意识、有组织的社会活动。近年来,随着人工智能技术在体育 科技领域的逐步应用,体育学的科研、教学和实践也在发生着巨大变 革,体育人工智能学科已经初现端倪。2021 年 10 月,国家体育总局印发的《“十四五”体育发展规划》 中明确提出需加强信息技术在体育领域广泛应用,说明人工智能与体 育持续、全面、深层次的融合已成为助力体育事业发展的必然趋势。根据近年来的技术发展和应用实践,体育人工智能可定义为:面向人 类体育活动,基于人工智能技术,实现人体运动监测和感知,建立数 据分析理论与方法,揭示人体运动规律、评估运动表现、形成科学运 动方案、研发辅助训练装备,以提升竞技体育运动表现、实现全民科 学运动和主动健康。在竞技体育领域,面向运动员、教练员、裁判员,基于人体动作 捕捉、识别和分析开发的训练辅助系统、陪练机器人、战术优化系统、 智能裁判与辅助判罚系统等已在训练、竞赛、执裁方面得到了广泛应 用;在学校体育领域,依托人工智能、大数据打造的体育教学生态系 统,能帮助学生开展个性化的体育学习与训练、辅助体育教师提高教 学质量、协助管理者实现高效的教学管理,促进学校、家庭、社会 3 个方面的同向协力;在大众健身领域,各类基于人体数据的健身 APP 大量上线,智能化可穿戴设备逐渐普及,智能化运动场馆开始兴起, 人工智能为解决体育资源分布不平衡的问题提供了新的思路,使人民 群众享受到了现实可行的体育资源获取渠道。本白皮书将梳理体育人工智能发展历程以及应用于体育各个领域的人工智能关键技术,以期为体育科技工作者进一步探索研究体育 人工智能的理论、技术和应用提供借鉴与参考。
© 作者|刘子康 机构|中国人民大学研究方向|多模态,自然语言处理 本文聚焦于ICLR2025投稿中多模态大语言模型的相关论文,并对部分论文进行了总结与介绍。
随着大语言模型的迅速发展,如何将大语言模型应用在视觉领域也成为了一个热门研究方向。在本文中,我们从MLLM的训练,安全性分析,高效部署等方面,筛选并总结了十篇论文,展示了当下多模态大语言模型研究的具体内容。
本文主要研究了多模态大语言模型中模型性能与跨模态对齐和视觉表示相关性的对应关系。作者提出了“视觉表示定律”来展现这种关联。为了诠释这种相关性,作者提出了AC分数,即Cross-modal alignment(A) 与 Correspondence(C) of the vision representation,并认为模型的最终性能与该AC分数存在一个线性关系。
为了从实验角度证实这种关系的存在,本文首先对A分数与C分数分别进行了计算。对于A分数(跨模态对齐),作者采用CLIP视觉嵌入作为参考,并计算了CLIP嵌入与目标视觉表示嵌入的余弦相似度作为A分数。对于C分数(视觉表示相关性),作者从若干对图像中抽取特征,并通过这些特征来预测关键点,这些预测将被用来计算C分数。最终,AC分数并定义为一个多项式关系:
在后续实验里,作者在4个视觉相关的benchmark上,采用13个视觉表征训练了若干个线性回归模型。这些线性回归模型展示出AC分数与性能高达95.72%的相关程度,验证了其有效性。随后,作者基于AC分数设计了一个训练策略,该策略可以有效的预测模型性能,高效训练出最优模型。实验表明基于AC分数的训练策略是有效的。
本文提出了一个新的评测基准,旨在评测多模态大语言模型对于复杂指令的遵循能力。此前的工作包含了许多在开放场景下对模型能力的评测,如LLaVA-Bench与MM-Vet,但这些评测对指令任务的设置往往相对宽松。MIA-Bench希望能够评测模型严格执行复杂指令的能力,包括多层的指令与组合指令,通过建立这一更严格的标准,推动模型在实际应用中的精确性和可靠性的边界,确保输出不仅符合指令的一般意图,也能满足更加精确的复杂需求。
MIA-Bench 包含 400 个图像-提示对,涵盖了多样的图像内容,包括动物、食物、地标等,以覆盖广泛的现实世界场景。同时,在指令层面,作者设计了大量不同复杂度与组合程度的指令,涵盖了五个指令类别,专门用于评测模型的语言灵活性、语法准确性和描述准确性。作者采用了GPT-4o对不同模型生成的回复进行了自动化的评测,并揭示了当前模型在复杂指令遵循方面仍然存在的若干缺陷。
本文研究了大模型的视觉适配对于模型安全性的影响。首先,作者设计了一系列实验来研究视觉适配对大语言模型安全性的影响。作者采用LLaMA-2 Chat 7B与Tulu-2 7B作为语言基座分别进行了视觉指令微调。微调过程中存在三种设定:仅对指令数据进行基于安全性的筛选,进行视觉指令微调与安全性微调,进行视觉指令微调与RLHF,实验结果如下所示:
实验表明,即使在对训练数据进行精心筛选的情况下,大语言模型也会出现安全性的退化。同样的,基于安全性微调的方法,包括SFT与RLHF是有效的,但是仍然无法完全保障模型的安全性能。这些发现证明了大语言模型在视觉适配的过程中存在不可避免的安全性退化。 基于这些观察,作者深入的探索了模型安全性的退化原因。此前工作已经发现了语言模型内部存在着安全性相关的层,作者沿用了这些方法,并计算了LLaMA-2-Chat 7B and LLaMA-2-Chat-VL,进行视觉适配之前与适配之后的模型,在相关层中隐藏状态的相似程度。作者发现,LLM和LVLM早期层之间的余弦相似度接近1.0,表明这些层的行为几乎完全相同。然而,这种相似度在更深层中急剧下降到大约0.2,表明出现了显著的分歧。作者观察到从视觉适配的早期到后期,隐藏层状态的相似度出现了逐渐下降。此前的工作将第6层到第14层识别为主要的安全层,本文的分析显示,这些层的余弦相似度降至大约0.5,表明在视觉适配训练期间发生了重大变化,并对模型的安全性造成的潜在的负面影响。 基于以上实验结论,作者提出了基于模型参数合并的方法来高效地解决多模态大语言模型的安全性退化问题。通过将安全性微调后的多模态大语言模型与原始的多模态大语言模型的参数进行合并,模型既避免的视觉能力的明显下降,又保持了较高的安全性,有效的解决了模型安全性退化的问题。
本文提出了一个新的多模态大语言模型:Mini-Gemini。尽管现有的开源多模态大语言模型在基本视觉对话和推理方面取得了进展,但与GPT-4和Gemini等高级模型相比,仍存在性能差距。为了弥补这样的视觉差距,本文希望从三个方面来挖掘MLLM的潜力,即高分辨率视觉令牌、高质量数据和由多模态模型指导的生成。 具体来讲,为了增强MLLM在不同分辨率上的性能,Mini-Gemini引入了双视觉编码器。在低分辨率的场景下,模型采用了传统的处理流程,并使用预训练的CLIP-ViT编码器来编码视觉嵌入。通过这种方式,可以很好地保留不同视觉令牌之间的长距离关系,以便后续在大型语言模型中进行交互。在高分辨率场景下,作者采用基于CNN的编码器来进行自适应且高效的高分辨率图像处理。基于上述的不同分辨率特征,作者提出了块信息挖掘,基于低分辨率视觉令牌检索出最有效的高质量高分辨率视觉令牌,在保证总令牌数不变的情况下,增加输入视觉信息的有效性。同时,由于框架的灵活性,用户可以轻易的进行视觉令牌扩展,通过更多的视觉令牌数获得更好的性能,如下图所示:
在数据侧,Mini-Gemini同时支持视觉-语言生成与语言-视觉生成。首先,与此前工作类似,Mini-Gemini从多个数据源中获得了大量的视觉指令数据,并用于视觉指令微调。除此之外,作者还基于GPT4生成了13K的指令遵循数据,这些数据可以帮助模型在实际场景中生成有意义的prompt,并借助 Stable Diffusion进行图片生成。总的来说,Mini-Gemini进一步挖掘了VLMs的潜力,并同时赋予当前框架图像理解、推理和生成的能力。 基于Mini-Gemini框架,作者开发了一系列从2B到34B的密集型和MoE大型语言模型。这些模型在若干个零样本基准测试中取得了领先性能,甚至超过了部分闭源模型。
本文主要研究了多模态大语言模型的高效部署问题。尽管MLLM在复杂视觉推理任务中取得了令人满意的表现,但在部署时仍面临高资源消耗的问题。本篇文章提出了一种大型视觉-语言模型的自动剪枝方法,用于高效的视觉推理。与传统方法不同,SLIMLLAVA仅使用少量样本搜索所需的剪枝策略,通过最大化模型在未知数据上的泛化能力,从而获得大型视觉-语言模型的最优精度-效率权衡。
具体而言,由于可用于剪枝的样本有限,对搜索到的剪枝策略的真实网络目标进行评估非常具有挑战性。因此,作者通过结构风险最小化(SRM)原则来最大化剪枝策略的泛化能力,该原则可以通过经验风险和未见数据分布界定。作者经过一系列推导证明,低权重范数表明模型输出与输入的相关性弱,因此对不同数据分布有高泛化能力。尽管对在有限样本上进行准确度-效率的权衡是困难的,依然鼓励剩余的模型部分具有较低的权重范数。这样,最终的剪枝策略能够保证模型适应没有见过的下游任务分布。由于在视觉适配训练中,MLLM通常采用Projector层对视觉特征映射到LLM的输入空间,因此,其在融合视觉和语言模态方面扮演着至关重要的角色。因此,作者将Projector层的权重视作剪枝策略的搜索空间,该部分权重的优化就被等价于搜索空间的进化。此后,作者提出了一系列方法,基于欧氏距离对搜索空间进行优化,并得到了最终的最优剪枝策略。基于以上剪枝策略,作者在LLaVA上进行了广泛的测试,并证明了其在若干个下游任务上的有效性。
本文聚焦于通过视觉理解能力的提升来增强多模态大语言模型。作者提出了一种多模态语言模型Arcana,并开发了两项关键技术以提升模型性能。首先,作者引入了多模态LoRA(MM-LoRA),旨在增强解码器在视觉-语言理解中的作用。与传统的语言模型解码器不同,MM-LoRA包含两个并行的LoRA—一个用于视觉,一个用于语言,并且分别都具备自己独特的参数。这种解耦的参数设计使得每种模态都能进行更专业的学习,并更好地整合多模态信息。其次,作者引入了梯形的查询适配器(QLadder),用于改善视觉编码器。QLadder采用了一个可学习的“梯形”结构,对来自于预训练好的视觉编码器(如CLIP)的中间表示进行深度聚合,使得模型能够学习到新的,高度信息密集的视觉特殊特征,同时保留了视觉编码器原有的强大能力。这些技术很好的增强了Arcana在多模态场景下的视觉感知能力,提高了在不同下游任务的性能。
本文主要聚焦于长视频理解任务,这些任务提供了宝贵的时序信息,但现有的多模态大语言模型在理解长视频时依然存在不同。此前的主要方法是,通过使用视觉重采样器,减少视觉令牌的数量来解决这一问题。本文从一个新的视角,即语言模型的角度来探讨这一问题。作者发现,仅仅通过简单地扩展语言骨干的上下文长度,多模态大语言模型能够在没有任何视频数据训练的情况下理解数量更多的视觉令牌,作者将这一现象称作上下文转移。为了进一步的衡量多模态模型在视觉模态中对长上下文的泛化能力,作者开发了V-NIAH(Visual Needle-In-A-Haystack),一个受语言模型中NIAH基准而启发的长视频理解基准。本文提出了长视频助手(LongVA)可以处理2000帧,或超过200K的视觉令牌,而不需要额外的复杂设计。通过这种简易的上下文拓展方法,LongVA在Video-MME和MLVU基准上实现了7B模型中的最先进性能。
本文主要研究了大型视觉语言模型(LVLMs)的效率问题。LVLM的效率受到预填充阶段注意力机制的计算瓶颈以及解码阶段获取键值(KV)缓存的内存瓶颈的限制,特别是在涉及高分辨率图像或视频的场景中。视觉内容通常显示出大量的冗余,导致LVLMs中的注意力图显著稀疏。在以往的工作中,这种稀疏性可以通过加速注意力计算或压缩KV缓存的各种方法来解决。然而,大多数研究只关注解决其中一个瓶颈,并且不能支持针对不同层以及不同任务稀疏性的动态调整。本文提出了一个为LVLMs设计的高效推理框架ZipVL,通过动态调整重要令牌比例来解决计算和内存瓶颈。此处的令牌比例是基于不同层的特定注意力分布自适应确定的,而不是固定的超参数,从而为较简单的任务提高效率,同时为更具挑战性的任务保持高性能。随后,这些归一化注意力得分被用于选择重要令牌,并仅对这些重要令牌执行注意力计算以加速预填充阶段。为了缓解解码阶段的内存瓶颈,作者对KV缓存采用混合精度量化,对重要令牌的缓存使用高位量化,而对不那么重要的令牌的缓存应用低位量化。实验表明,ZipVL可以将预填充阶段加速2.6倍,并将GPU内存使用量减少50.0%,在Video-MME基准上仅使LongVA-7B模型的准确度降低了0.2%,有效提高了LVLMs的生成效率。
本文主要研究了多模态大语言模型(MLLMs)在多模态数学推理上的应用。大型语言模型在数学推理方面展示了显著的能力,特别是在处理基于文本的数学问题时。然而,当前的MLLMs,特别是那些专注于数学推理的模型,主要集中在解决几何问题上,却忽视了数学其他领域可用的多样性视觉信息。此外,这些专门的数学MLLMs所依赖的几何信息通常来源于几个公共数据集,这些数据集在多样性和复杂性上通常是有限的。为了解决这些限制,作者构建了一个名为MathVL的微调数据集,并通过在MathVL上进行有监督的微调(SFT),开发了一系列专门的,使用不同参数规模的数学推理MLLMs,称为MathGLM-Vision。为了全面评估MathGLM-Vision的有效性,作者在几个公共基准测试和精心设计的包含2000个问题的MathVL-test基准测试上进行实验。实验结果表明,与一些现有模型(包括骨干模型和开源数学推理MLLMs)相比,MathGLM-Vision取得了显著的改进。这些发现表明,多样化数据集在提升MLLMs的数学推理能力方面具有显著的重要性。
本文主要研究了大型视觉语言模型(LVLMs)中的幻觉问题。为了缓解这一问题,此前的一些工作通过人为干扰原始视觉或指令输入来诱发幻觉,然后通过对比原始和干扰后的LVLMs输出来生成正负样本对,通过一些对齐训练的方法来减轻幻觉。然而,这种基于全面输入干扰的方式有时会引入潜在的噪声,并且还会使推理成本翻倍。为了解决这些问题,作者提出了一种简单而有效的方法,名为自反省解码(Self-Introspective Decoding,SID)。作者通过一系列经验性实验证明,预训练的LVLMs能够自反省地评估视觉令牌的重要性,这种评估是基于先前的视觉和文本令牌来进行的。基于这一发现,作者开发了一种基于文本和上下文感知的令牌选择策略(Context and Text-aware Token Selection,CT2S),该策略仅保留早期解码层后最不重要的视觉令牌,从而在自回归解码过程中适应性地放大视觉与文本关联的幻觉。这种策略确保模型在早期解码层接受的多模态知识能够诱导幻觉的产生,这种幻觉无目的的,并显著减少计算负担。随后,通过在原始令牌中削减这类幻觉相关的令牌,可以有效地缓解幻觉问题,同时不影响LVLMs的一般能力。广泛的实验表明,基于SID方法推理,模型生成的文本幻觉较少,质量更高,且不产生明显的额外计算成本。
物联网(IoT)与现代人工智能(AI)的结合催生了一个新的范式,称为物联网的人工智能(AIoT)。在这篇综述中,我们对AIoT的研究进行了系统且全面的回顾。我们探讨了与感知、计算以及网络与通信相关的AIoT文献,这三者构成了AIoT的三大关键组成部分。除了在这些领域的进展外,我们还回顾了为多个重要应用领域设计的特定领域AIoT系统。我们还创建了一个配套的GitHub仓库,汇总了本次综述中提到的论文:https://github.com/AIoT-MLSys-Lab/AIoT-Survey。该仓库将会被持续维护,并随着新的研究成果的出现进行更新。随着物联网和人工智能在社会中的作用日益重要,我们相信AIoT正在成为物联网与现代人工智能交汇处的一个重要研究领域。我们希望这篇综述能成为从事AIoT研究的人员的宝贵资源,并能促进未来的探索,填补空白,推动该领域的进一步发展。
物联网(IoT)的普及,如智能手机、可穿戴设备、无人机和智能音箱,以及它们捕获的大量数据,彻底改变了我们的工作、生活和与世界互动的方式。这些设备配备了感知、计算、网络和通信功能,能够收集、分析和传输各种数据,包括图像、视频、音频、文本、无线信号、个人的生理信号以及物理世界的相关数据。近年来,人工智能(AI)尤其是在深度学习(DL)/深度神经网络(DNN)、基础模型和生成式AI方面的进步,推动了AI与IoT的整合,使物联网的人工智能(AIoT)的概念成为现实。IoT与现代AI的协同作用增强了决策能力,改善了人机交互,并促进了更高效的操作,使AIoT成为一个充满活力和前景广阔的领域,具有从根本上改变人们感知和与世界互动的潜力。 如图1所示,AIoT的核心建立在三大关键组成部分之上:感知、计算和网络与通信。具体来说,AIoT利用了多种车载传感器,如摄像头、麦克风、运动传感器和生理传感器,从个体和物理世界中收集数据。通过现代AI算法处理收集到的传感器数据,用于分类、定位、异常检测等多种任务。最后,AIoT的网络与通信组件确保传感器数据和/或计算结果能够可靠地传输到云端、边缘或其他附近的AIoT设备。与传统的物联网相比,AIoT的计算组件专注于AI相关的计算任务。此外,AIoT的感知和网络与通信组件也得到了AI的赋能。正是这两个关键区别使得AIoT能够通过现代AI的突破,赋能数十亿的日常设备。 除了在三大关键组成部分的进展外,领域特定的AIoT系统也已在众多应用领域提出和开发。例如,在医疗领域,AIoT系统实现了远程患者监测,促进了现场疾病诊断,并以辅助技术的形式帮助残障人士。在增强、虚拟和混合现实领域,AIoT系统实现了3D跟踪,提供沉浸式用户体验。在视频流和分析领域,AIoT系统被开发用于提升视频质量并优化视频处理效率。所有这些领域特定的系统都展示了AIoT在变革各行业中的潜力。 本综述的总体目标是提供一个系统且全面的AIoT研究回顾。如图2所示,我们将AIoT文献分为四大类:感知、计算、网络与通信,以及领域特定的AIoT系统。具体来说:
我们还建立了一个GitHub仓库,用于组织本综述中涉及的论文,地址为:https://github.com/AIoT-MLSys-Lab/AIoT-Survey。我们将积极维护该仓库,并随着新研究的出现及时更新。 尽管已经有多篇与AIoT相关的综述【21, 30, 89, 94, 168, 196, 233, 324, 329】,它们主要关注AIoT的某些特定方面。相比之下,本综述提供了AIoT研究的全景视角。更重要的是,我们主要关注基于现代AI技术(如DL、基础模型和生成式AI)构建的感知、计算、网络与通信及领域特定AIoT系统的文献。我们希望本次综述以及GitHub仓库能够为研究人员和从业者提供宝贵资源,帮助他们全面了解AIoT研究,并激励他们为这一重要且激动人心的领域作出贡献。
理解图像内容是许多应用的重要组成部分,例如自动驾驶、增强现实、机器人、医学影像和遥感。随着深度神经网络的突破,语义图像理解在过去几年中取得了显著进展。然而,神经网络需要大量标注数据才能进行适当训练。由于大规模真实世界数据集的标注成本高昂,网络可以在具有现成或较低成本标注的数据集(如自动标注的合成数据)上进行训练。然而,神经网络通常对领域偏移(domain shifts)敏感,因此在与训练数据不同的领域中表现较差。因此,无监督领域适应(UDA)和领域泛化(DG)方法的目标是使在源域(例如合成数据)上训练的模型在未标注或甚至未见过的目标域(例如真实世界数据)上表现良好。
大多数UDA/DG研究专注于设计适应和泛化技术以克服领域偏移的问题。然而,学习框架中其他方面对领域鲁棒性的影响大多被忽视。因此,我们从更全面的角度研究领域鲁棒性,探讨不同学习框架方面对UDA和DG的影响,包括网络架构、通用训练方案、图像分辨率、裁剪大小和上下文信息。特别是,我们解决了现有DG和UDA方法中的以下问题:(1) 我们研究了最新架构对领域鲁棒语义/全景分割的影响,并设计了一种专为领域泛化和领域适应分割量身定制的网络架构,而不是依赖过时的分割架构来评估DG/UDA策略。(2) 为了避免对源域的过拟合,我们提出了保持先验知识的通用训练策略。(3) 为了在DG/UDA增加的GPU内存消耗下实现精细的分割细节,我们提出了一个领域鲁棒且内存高效的多分辨率训练框架。(4) 为了解决目标域的局部外观歧义,我们提出了一种增强空间上下文关系学习的方法。以下段落详细介绍了这些贡献。
由于之前的UDA和DG语义分割方法大多基于过时的DeepLabV2网络和ResNet骨干网络,我们对较新的架构进行了基准测试,揭示了Transformer的潜力,并设计了DAFormer网络架构,专为UDA和DG量身定制。它由分层Transformer编码器和多级上下文感知特征融合解码器组成。DAFormer网络通过三种简单但至关重要的训练策略来稳定训练并避免对源域的过拟合:在源域上进行稀有类采样,通过缓解自训练对常见类别的确认偏差,改善伪标签的质量;Thing-Class ImageNet特征距离和学习率预热有助于从ImageNet预训练中转移特征。通过这些技术,DAFormer在UDA和DG中实现了显著的性能提升,甚至能够学习像火车、公交车和卡车等难以分类的类别。
此外,我们研究了全景分割的主要架构设计及其UDA能力。我们表明,之前的全景UDA方法在设计上做出了次优选择。基于这些发现,我们提出了EDAPS,一种特别为领域适应全景分割设计的网络架构。它使用一个共享的领域鲁棒Transformer编码器,以促进语义和实例特征的联合适应,同时针对领域适应语义分割和实例分割的具体需求设计了任务特定解码器。
虽然DAFormer和EDAPS能够更好地区分不同的类别,但我们观察到它们缺乏精细的分割细节。我们将其归因于使用了下采样的图像,导致了低分辨率的预测。然而,直接使用全分辨率图像在UDA/DG中由于其较高的GPU内存消耗而不可行。使用高分辨率图像的随机裁剪进行训练虽然缓解了这一问题,但在捕捉长程、领域鲁棒的上下文信息方面表现不足。因此,我们提出了HRDA,一种用于UDA和DG的多分辨率训练方法,结合了小型高分辨率裁剪以保留精细分割细节和大型低分辨率裁剪以捕捉长程上下文依赖关系,同时保持可管理的GPU内存占用。HRDA能够适应小物体并保留精细分割细节,显著提高了之前UDA和DG方法的性能。
即使有了DAFormer和HRDA改进的区分能力和高分辨率性能,UDA方法在目标域中具有类似视觉外观的类别上仍然表现挣扎,因为没有可用的真实标签来学习细微的外观差异。为了解决这个问题,我们提出了一个掩码图像一致性(MIC)模块,通过学习目标域的空间上下文关系作为稳健视觉识别的额外线索,来增强UDA。MIC通过对随机遮蔽的目标图像的预测与基于完整图像生成的伪标签之间的一致性进行约束。为了最小化一致性损失,网络必须学会从上下文中推断被遮蔽区域的预测。由于其简单且通用的概念,MIC可以集成到各种UDA方法中,涵盖不同的视觉识别任务,如图像分类、语义分割和目标检测。MIC显著提高了不同识别任务和领域差距的最新性能。
总体而言,本论文揭示了在领域鲁棒的视觉场景理解中,从网络架构和通用训练策略等学习框架的不同方面进行全面考量的重要性。所提出的方法大幅提升了从合成到真实、白天到夜晚、晴朗到恶劣天气等多个感知任务的领域适应性能。例如,在GTA→Cityscapes的语义分割中,它们实现了+18.4 mIoU的总体提升。超越领域适应,DAFormer和HRDA甚至在更具挑战性的领域泛化设置中也表现出色,在从GTA泛化到5个未见的真实世界数据集时,性能提升了+12.0 mIoU。实现已开源并可在https://github.com/lhoyer上获取。