推断图结构数据的属性(例如分子溶解度)本质上涉及从图到其属性的隐式映射的学习过程。对于诸如图卷积网络(Graph Convolutional Networks,GCNs)等图属性学习器而言,这一学习过程通常代价高昂。为了解决这一问题,我们提出了一种称为图神经教学(Graph Neural Teaching,GraNT)的新范式,该范式通过一种新颖的非参数化教学视角重新诠释了学习过程。 具体而言,该非参数化教学方法为通过示例选择来教授隐式定义(即非参数化)映射提供了理论框架。GraNT 中的这种隐式映射是由密集的图-属性对构成的,教学者(teacher)从中选择一个子集,以促进 GCN 训练的更快收敛。 通过分析图结构在基于参数的梯度下降训练中的影响,并将 GCN 参数更新所驱动的演化过程重新表述为非参数化教学中的函数梯度下降(functional gradient descent),我们首次证明了教授图属性学习器(如 GCNs)在理论上等价于教授具备结构感知能力的非参数化学习器。 这一发现使 GraNT 能够自然地致力于提升图属性学习器的学习效率。实验证明,在保持泛化性能的同时,GraNT 显著减少了训练时间:图级回归任务减少了 36.62%,图级分类减少了 38.19%,节点级回归减少了 30.97%,节点级分类减少了 47.30%。
随着无人机(Unmanned Aerial Vehicle,UAV)成本的降低,无人机引起了越来越多的研究兴趣.其应用领域广泛,包括农业、消防、测绘、航拍以及娱乐应用.这些应用需要无人机在精准的自我定位下进行自主飞行,通常高度依赖于全球导航卫星系统(Global Navigation Satellite System,GNSS).然而,GNSS在长距离无线电通信方面存在多种缺陷(如非视距接收、多路径效应、欺骗信号),这推动了补充或取代卫星导航新方法的发展.基于视觉的无人机定位与导航方法利用无人机搭载的视觉传感器,实现自主定位与导航,成为解决这一问题的重要途径.本文的贡献在于系统性地梳理了基于视觉的无人机定位与导航技术,全面总结了该领域的研究现状和发展趋势.首先,介绍了无人机视觉定位的方法,主要分为图像检索和图像匹配两类,并对其技术特点、适用场景以及相关数据集和评价指标进行了分析.其次,详细阐述了无人机视觉导航的方法,根据导航功能的不同分为障碍物检测与规避方法以及路径规划方法,揭示了现有技术的优势和局限.最后,进一步讨论了基于视觉的无人机定位与导航方法在公共可用数据集、硬件加速、环境复杂性、实时性要求、能源限制以及模拟器到真实世界的泛化等方面可能面临的挑战.
国防政策作为国家安全战略的基石,通过统筹资源配置与军事能力发展以应对潜在威胁。基于场景的规划是国防规划的核心工具,使政策制定者与军事战略家能够前瞻未来挑战并构建灵活的响应机制。本文深入探讨国防政策与基于场景的防御规划间的相互作用,阐明政治目标、军事需求与资源限制间的关键关联。同时,分析北约防务规划过程(NDPP)作为结构化方法,如何为未来防务需求的能力发展提供重要洞见。
国防政策是国家安全的关键要素,涵盖影响国家在应对不断演变的风险与威胁时生存与保护的各项决策。国防政策通过文职与军事部门的协作制定,旨在确保国家能够在未来冲突或危机中进行自我防御。其制定的核心在于规划过程,其中可包含基于场景的规划——该方法支持预判未来威胁并制定应对策略。国家安全与国防规划相互关联,是国家整体战略框架中不可或缺的组成部分。国家安全战略(NSS)界定国家行为体(通常但不精确地称为国家)的总体政治与战略目标,明确其维护安全与应对潜在威胁的优先事项。该战略作为基础框架,支撑更具体的政策(如国防政策)制定。
图. 国防规划的背景。
图. 战略制定与国防规划过程的交互作用
国防政策可理解为国家为确保生存并维护其利益而在面临风险与威胁时采取的一系列过程与行动。该政策整合文职与军事力量以维护安全,负责界定国家战略目标(包括军事力量的使用)。国防规划衍生自国防政策,涉及识别并发展应对未来安全挑战所需手段的结构化过程。其内容包括如何运用现有能力、需发展哪些额外能力以应对潜在威胁。能力发展是国防规划的关键成果,通过资源分配创建或提升军队实现战略目标的能力。
此过程涵盖部队结构设计、技术投资以及确保军事资产具备可持续性并能适应未来风险。这些要素共同构建系统化国防体系,确保国家具备应对多维未来场景的备战能力。
后续章节将探讨国防政策与规划的关系,重点分析基于场景规划方法的重要性。通过案例研究解析北约防务规划过程(NDPP),展示这些原则在国际层面的结构化应用实践。
国防政策可理解为一套旨在保护国家免遭生存性威胁的行动。巴塔利诺将国防政策定义为"国家为在风险与威胁面前确保生存而采取的一系列行动"。该定义强调需针对广泛潜在风险(包括即时与长期安全挑战)进行准备的紧迫性。然而,国防政策不仅限于生存保障——还涵盖保护战略利益的更广泛目标。塔加列夫通过划分国防政策的两大核心任务深化此概念:其一,为实现军事目标而战略性运用武力;其二,界定应对未来风险与挑战所需能力。这两大要素构成国防规划的基础,将政治雄心转化为具体军事能力。
国防规划还面临平衡政治雄心与资源可用性的挑战。格雷与阿特亚加强调,政治当局对军事力量的要求与实现目标所需资源配置之间需保持协调。这种平衡对避免军事资源过度消耗或必要能力发展不足至关重要。
基于场景的规划已成为现代国防战略不可或缺的组成部分。该方法通过构建假设或真实世界场景模拟潜在威胁,使国防规划者能够预判未来军事需求。
在国防规划范畴内,必须考量规划过程的一致性,以及部队设计与可持续性要素。
图.不确定性对国防规划方法的影响(荷兰案例)
场景分析为评估现有能力适用性、确定应对新兴挑战所需补充资源提供框架。
图. 场景影响与可能性的正式化处理(荷兰案例)
基于场景规划的核心挑战之一在于确保自上而下的政治指令与自下而上的军事需求间的一致性。自上而下的一致性指国家安全战略中界定的政治目标与军事能力间的协调性。这意味着文职领导人设定的目标必须在现有军事资源与战略框架内具备可行性。自下而上的一致性则涉及整合军事行动反馈、吸纳技术创新、并根据市场机遇与威胁演变调整能力。两种一致性形式对维持高效且适应性强的军事力量至关重要。
有效的部队设计需在作战能力与长期可持续性间寻求平衡。国防规划者不仅需考虑军事资产的即时效用,还需评估其适应未来技术进步与威胁演变的能力。基于场景的规划为部队设计提供灵活性,确保军事能力在不可预见的挑战中保持有效性。待实现的能力须源自作战运用理念、组织架构与资金投入的平衡组合。规划者必须确保军事力量既能应对当前风险,又具备时间维度上的可扩展性与可持续性。
北约防务规划过程(NDPP)为协调各国防务能力与联盟整体目标提供结构化方法。NDPP于2008年设立,旨在协调北约成员国的防务规划活动,确保其共同应对当前及未来的安全挑战。
图.北约防务规划过程
NDPP采用五年期循环过程,每四年重复一次,以确保北约军事力量与动态演化的安全环境保持同步。
图. NDPP
步骤1:制定政治指导方针
北约最高决策机构北大西洋理事会(NAC)设定防务规划的政治指导方针。该方针明确北约雄心头等级(LoA),规定联盟应具备执行的行动类型与数量规模。盟军作战司令部(ACO)与盟军转型司令部(ACT)提供战略军事建议支撑方针制定,并发布《指导原则与规划假设》指导后续军事活动。
步骤2:确定能力需求
根据政治指导方针,盟军转型司令部(ACT)协同盟军作战司令部(ACO)及北约各职能规划领域,确定实现北约LoA所需的最低能力要求(MCR)。这些要求基于场景分析与经批准的政治目标制定,确保联盟履行作战承诺。该过程每四年执行一次,但可根据形势变化启动非常规审查。
步骤3:分配需求与设定目标
ACT主导能力目标分配,确保北约成员国间责任公平分担。过程包含与盟国协商确定《能力目标包》,随后北约国际参谋部(IS)主持多边会议并提交NAC批准。分配机制依据各国规模与战略重要性,确保其对北约防务目标作出比例性贡献。
步骤4:推动实施
北约防务投资部支持成员国将国家防务规划与联盟优先事项对接。在ACT指导下,该过程推动跨国合作以避免能力重复建设,提升发展效率。步骤4为持续性过程,长期支持成员国履行义务。
步骤5:成果审查
北约每两年审查成员国能力目标达成进展,全面评估联盟战备状态与LoA实现程度。ACT通过分析《防务规划能力调查》反馈,评估现役与规划中军事力量效能。这一周期性审查过程确保北约防务能力持续优化。
尽管NDPP为防务规划提供结构化框架,但其仍尊重北约成员国的主权。
各国保留决定如何实现分配能力目标的自主权,允许其国防政策具备灵活性。同时,北约确保这些国家层面的努力与联盟整体目标兼容,促进成员国间的凝聚力与互操作性。
在应对不断演变的安全挑战时,国家主权与联盟凝聚力间的平衡对维持统一防御态势至关重要。
NDPP高度依赖基于场景的规划指导能力发展过程。
北约运用多样化规划场景模拟潜在未来冲突,并评估部队应对这些挑战的战备状态。这些场景设计涵盖从大规模集体防御行动到小型危机管理任务的全谱系突发事件。
基于场景的方法使北约能够识别能力缺口、优化投资优先级,并确保其军事力量可应对当前与未来威胁。
在开发场景时,北约兼顾现实与假设性威胁,确保其军事力量为多维度潜在突发事件做好准备。例如,北约《战略概念》界定联盟三大核心任务:集体防御、危机管理与合作安全。NDPP的基于场景规划工作与这些任务对齐,确保北约根据其LoA保持同时执行大型联合行动(MJOs)与小型联合行动(SJOs)的能力。
基于场景规划的核心挑战之一在于确保所采用的场景兼具现实性与全面性。此类规划可能过度聚焦特定突发事件,忽视更广泛的战略考量。
此外,随着技术创新与地缘政治动态的演变,防务规划者必须持续更新场景以保持其对未来威胁的关联性。这需要从作战环境中获取持续反馈,并具备将新情报与技术进展灵活整合至规划过程的灵活性。
预算限制同样构成防务规划的重大挑战。如巴列斯特罗斯所述,防务能力采办项目的可行性常受制于财政资源可用性。防务规划者因此必须在雄心与实用性间寻求微妙平衡,确保军事能力发展符合可用资金约束。这一挑战在北约等多国框架下尤为显著——各国优先事项与财政能力的差异可能阻碍共同防务目标的实施。
基于场景的规划是现代国防政策的核心工具,为预判未来威胁、协调军事能力与政治目标提供灵活框架。通过将真实世界与假设场景融入防务规划过程,政策制定者与军事规划者可确保部队为多维度突发事件做好准备。
北约防务规划过程(NDPP)展示了基于场景规划在国际层面的应用范式——通过协调各国努力构建统一且响应迅速的防御态势。随着全球威胁持续演变,基于场景的规划仍将是国防政策的关键要素,助力军事力量装备升级与战备提升以应对未来挑战。
通过维持政治雄心、资源配置与军事能力间的协调性,防务规划者可制定灵活且可持续的防御战略,满足单一国家及北约等多国联盟的需求。
参考来源:Sergio Alvaré Peláez
引言:产业化拐点确立,三重驱动开启万亿赛道。人形机器人板块正从主题投资迈向成长投资,2025年有望成为全球量产元年。技术端,大模型突破通用性瓶颈,DeepSeek低成本训练范式加速AGI落地;产业端,特斯拉、英伟达、华为等科技巨头密集布局;政策端,政府工作报告明确,培育具身智能等未来产业,大力发展智能机器人。我们预计,2025年全球出货量将达万台级别,2027年特斯拉目标产能突破百万台,产业链长期成长空间打开。 产业逻辑:AI赋能+巨头入局,三重驱动强化趋势。1)技术基座升级:非具身大模型实现任务分解与规划,具身大模型直接输出高频动作指令,AGI终极形态下机器人将具备单模型闭环、主动理解与强适应能力;2)场景成本突破:特斯拉Optimus将率先导入超级工厂,车端供应链复用推动售价降至2-3万美元,远期规模效应下成本有望进一步下探;3)政策密集催化:2025年政府工作报告首次将具身智能纳入未来产业培育,地方政策围绕技术攻关、产业集群、应用示范三方面加码,形成“中央定调-地方落实”的立体支持体系。 供给维度:全球产业巨头形成多维共振。1)特斯拉:2025年计划出货数千台,2027年目标百万台,硬件方案趋于锁定,复用汽车降本经验;2)华为:具身智能创新中心聚焦“大脑”(多模态大模型)与“小脑”(柔性制造技术);赛力斯启动具身智能团队招聘;3)英伟达:构建三大机器人协同平台,形成“训练-仿真-部署”闭环,联合Figure、宇树等14家厂商推动通用机器人开发。此外,Figure AI、宇树科技、优必选等创业公司启动量产,小鹏、比亚迪等车企复用汽车供应链切入赛道,北京、上海等十余省市出台专项政策推动产业集群发展,协同创新与生态共建成为产业化关键驱动力。 产品维度:确定性+高壁垒/高价值量为核心主线。1)感知层:六维力传感器通过精准力学反馈实现力控交互与平衡调节;触觉传感器向MEMS微型化/柔性化升级,电子皮肤技术加速突破;视觉方案中,特斯拉延续纯视觉路线,国内多采用3D视觉融合激光雷达提升环境建模精度;2)执行层:谐波减速器是旋转关节核心部件,行星滚柱丝杠是直线关节核心部件;无框电机与空心杯电机分别适配关节与灵巧手驱动需求。当前产业链高价值、高壁垒环节集中于行星滚柱丝杠、六维力传感器、空心杯电机及MEMS触觉传感器四大方向,国产替代空间显著,具备技术卡位能力的厂商有望率先抢占人形机器人产业化红利。
战争中的通信能力正经历快速变革。由简易双向无线电与野战电话主导通信网络的时代已一去不返。持续扩张的全球通信网络使信息共享方式突破数十年前难以想象的边界。但军事力量对可靠无缝通信的依赖本质从未改变。
信息如今已成为与子弹同等重要的武器。可靠的通信网络使联军指挥官得以协调全球范围的部队机动、规划打击目标并实时决策。这些进步得益于战场创新与"联合任务网络(FMN)"等能力的发展。
FMN源于北约在阿富汗作战的经验总结。简言之,是北约间为实现互操作性目标而达成的通信设备与流程协同协议。FMN的愿景是打造"零日互操作部队"。本文将解析该概念内涵、实现过程中的挑战,以及将愿景转化为现实的路径。
在伊拉克战争中,北约军事过渡小组(MiTT)通常由十余名军事专业人员组成(包含海军陆战队员、水兵及陆军士兵),负责将伊拉克部队培养成无需外部援助即可承担安全任务的作战力量。从任务首日起,面临的最大挑战便是通信系统的互操作性缺失问题。
在MiTT小组中,拥有多种通信平台确保小组与上级指挥机构间的顺畅联络。但小组与伊拉克友军间的通信状况截然不同。某些情况下,与分散在作战区域各处的部队只能通过非加密手机通话实现沟通——这远非理想状态。"零日互操作性"的目标正是避免此类情形在北约部队中重演。
联军通信系统应在部署后立即投入使用。理论上,"零日互操作性"意味着各类通信系统可即时同步,无需耗时技术调试而导致信息共享延误。为实现该目标,联军需建立通用技术标准:支持安全加密的数据共享、具备快速部署能力,并在严酷作战环境中保持稳定运行。
未能实现零日互操作性将引发切实风险,其中关键性威胁包括:
北约2011年在利比亚实施的"联合保护者行动"可视为上述风险的现实例证。行动初期出现显著协同延迟:部分国家无法获取关键情报流,导致空袭与侦察规划延误。零日互操作性的缺失使联军在快速演变的战场环境中反应迟滞。
在单一作战部队内部建立并维持可靠通信已属挑战,更遑论跨国部队。针对零日互操作性,联合任务网络(FMN)致力于攻克三大核心难题:
北约由数十个国家组成的联盟,所有成员国并未采用相同的通信设备与流程。每个成员国都拥有独立的通信网络与标准体系——这一状况在历史上(尤其是阿富汗冲突前)曾导致严重的通信整合障碍。缺乏共同框架时,联军部队面临数据共享延迟、无线电频率不兼容、加密协议不匹配等问题。
在阿富汗冲突期间及阿富汗任务网络(AMN)建立前,实现零日互操作性绝无可能。互操作性缺陷引发严重问题,削弱联军作战效能。系统间无法互通的事实使北约意识到:若缺乏更广泛、适应性更强的通信体系,零日互操作性仅是空中楼阁。
实现FMN愿景的另一大挑战在于统一通信框架(Unified Communications Framework, UCF)的缺失。北约在阿富汗的经验强化了制定通信标准化方案的必要性,以确保未来冲突中的快速部署能力。缺乏UCF,零日互操作性便无从谈起。
使零日互操作性成为现实的解决方案是联合任务网络(FMN)。FMN通过提供统一信息共享协议技术指南实现军事通信网络标准化。该指南包含以下核心要素:
此外,配备适用于FMN的现成装备也至关重要。若装备能消除零日互操作性的部分障碍,该愿景的实现将大幅推进。军事通信专业人员应寻求能在严苛环境中实现语音、数据与无线电通信全集成解决方案。通信设备需为偏远地区作战部队提供灵活可扩展的移动连接能力。
现代冲突的快速节奏意味着零日安全、可靠、即时通信能力不再是可选配置,而是现代联合作战的刚性需求。北约在利比亚与阿富汗等实战行动表明:互操作性缺失将导致时间损失、人员伤亡与任务失败。
参考来源:Base Camp Connect
天基服务及其中断在持续进行的乌克兰战争中发挥了前所未有的作用。太空在这场战争中的角色为美国如何在未来潜在冲突中准备太空域行动提供了重要经验。在本报告中,兰德公司研究人员对战争期间太空活动进行开源分析,并为国家安全界提炼相关启示。
本报告围绕对乌克兰战争最具塑造力的三大任务领域展开:卫星通信(SATCOM);定位、导航与授时(PNT);以及包含天基图像或雷达的情报、监视与侦察(ISR)。针对每个任务领域,兰德研究人员梳理了乌克兰与俄罗斯战前能力,明确这些能力在战争中的运用或干扰方式,并确定冲突中关键相关方面临的挑战或问题。研究基于公开信息,包括西方、乌克兰及俄罗斯官员的公开声明;俄乌防务企业文献;以及开源报道。
这是探讨数字能力在北约组织中不断演变作用的系列三篇文件中的最后一篇。本文旨在理解互操作性在北约背景下的优势与挑战。
本系列文件由微软资助,作为更广泛研究工作的一部分,旨在探索北约及其成员国如何推进数字能力发展、如何更有效赋能此类能力建设、以及如何通过此类能力增强北约的韧性与互操作性。完整系列论文旨在推动2025年6月海牙峰会前关于北约数字能力重要性及未来发展的预备性讨论。
近年来,生成式人工智能领域经历了前所未有的增长,其背后主要驱动力是大规模基础模型的发展。然而,这一进展也带来了一个关键瓶颈:基础模型的开发正变得日益昂贵且排他,原因在于其高度依赖经过精心策划的大规模数据集。大型科技公司投入巨额资源来收集和清洗用于预训练和适应的大规模数据集。这种以数据为中心的壁垒不仅加剧了资源密集型企业研究与学术界之间的差距,也进一步加重了基础模型“黑箱化”的问题。 即便是大型企业,这种数据策划方式也最终会消耗掉大部分高质量数据,难以实现可扩展性。与此同时,大量包含噪声、弱信号和偏差的不完美数据资源依然触手可及且成本低廉,然而在传统范式下,基于这些数据训练的模型往往在性能上逊于基于精心策划数据训练的模型。
随着人工智能日益塑造我们的世界并持续扩张,我们正面临一个根本性挑战:我们如何将这些充满缺陷的不完美数据,从限制转化为推动AI民主化发展的机遇?这种以数据为中心的民主化进程,不仅能提升AI开发的可及性,也将催生更加稳健、适应性更强的基础模型,使其更能反映现实数据的复杂性与多样性。
我的论文正是围绕这一挑战展开,提出了“感知不完美的人工智能”(Imperfection-Aware AI)这一范式转变,使AI系统能够有效利用廉价且不完美的数据资源。将基础模型训练置于多样且真实世界的不完美数据中,天然地使其暴露于人类生成内容的复杂性与细节,从而提升模型应对真实世界变异的能力。通过将传统视为缺陷的“不完美数据训练”转化为优势,我们可以推动构建更稳健、更具伦理性且具有普适适应能力的AI系统,为全球研究者和开发者提供可及的AI技术。
为实现这一愿景,我的研究重点围绕以数据为中心的方法展开,旨在理解基础模型在不完美数据训练下的“物理机制”,缓解由数据缺陷带来的潜在不良影响,并充分利用各种不完美数据和标签以实现更稳健的学习能力:
探索预训练数据不完美性的影响:我研究了不同类型的数据缺陷(如损坏、偏差、多样性)如何在预训练过程中影响基础模型的“物理行为”。我的研究是最早揭示预训练过程中引入一定程度数据不完美性有助于模型泛化能力的工作之一。这一发现从根本上改变了我们对不完美数据的看法——它不再是需要被消除的障碍,而是一种可用于提升模型稳健性并推动AI民主化的宝贵资源。
理解与缓解灾难性继承(Catastrophic Inheritance):尽管利用不完美数据有助于AI的民主化,我们仍需深入理解其局限性。我提出了“灾难性继承”这一全新研究方向,用以探索预训练数据中的缺陷如何传递并影响下游任务。我开发了开源评估工具,并设计了微调方法以缓解其负面影响,确保模型在使用不完美数据训练的前提下,依然具备可靠性与泛化能力。
利用不完美数据与标签进行迁移学习:为真正实现AI开发的可及性,我提出了一系列稳健学习方法,能够有效利用现有的不完美数据与标签,促进模型在下游任务上的高效适应。值得一提的是,我的工作首次提出了一个通用框架,能够统一处理14种以上的弱监督与噪声监督形式,为实际场景中仅有混合不完美数据的情况下,实现可扩展的迁移学习提供了可能。
本论文旨在为理解基础模型时代下的数据不完美性提供重要见解,将不完美数据学习技术落地应用,并激励相关领域的后续研究。
这是探讨数字能力在北约组织中不断演变作用的系列三篇文件中的第二篇。本文旨在探究北约当前如何为数字能力发展配置资源、分析数字能力发展的阻碍因素与赋能条件,并深入理解数字能力投资不足的影响。
本系列论文由微软资助,作为更广泛研究工作的一部分,旨在探索北约及其成员国如何推进数字能力发展、如何更有效赋能此类能力建设、以及如何通过此类能力增强北约的韧性与互操作性。完整系列论文旨在推动2025年6月海牙峰会前关于北约数字能力重要性及未来发展的预备性讨论。
摘要——视觉语言建模(Vision-Language Modeling, VLM)旨在弥合图像与自然语言之间的信息鸿沟。在先进行大规模图文对预训练、再在任务数据上进行微调的全新范式下,遥感领域中的VLM取得了显著进展。所产生的模型得益于广泛通用知识的融入,在多种遥感数据分析任务中展现出强大的性能。此外,这些模型还具备与用户进行对话式交互的能力。
本文旨在为遥感领域的研究者提供一份及时且全面的综述,系统回顾基于该两阶段范式的VLM研究进展。具体而言,我们首先对遥感中的VLM进行分类梳理,包括对比学习、视觉指令微调以及文本条件图像生成。针对每一类方法,我们详细介绍了常用的网络结构与预训练目标。 其次,我们对现有研究进行深入评述,涵盖对比学习类VLM中的基础模型与任务适配方法,指令微调类VLM中的架构改进、训练策略与模型能力,以及生成式基础模型及其代表性的下游应用。 第三,我们总结了用于VLM预训练、微调与评估的数据集,分析其构建方法(包括图像来源与描述生成方式)与关键属性,如数据规模与任务适应性。 最后,本文对未来研究方向提出若干思考与展望,包括跨模态表示对齐、模糊需求理解、基于解释的模型可靠性、持续扩展的模型能力,以及具备更丰富模态与更大挑战的大规模数据集。 关键词——遥感,视觉语言建模,对比学习,视觉指令微调,扩散模型
遥感中的视觉语言建模(Vision-Language Modeling, VLM)旨在弥合遥感图像与自然语言之间的信息鸿沟,促进对遥感场景语义(如地物属性及其关系)的深入理解,并实现与智能遥感数据分析模型或方法的更自然交互方式 [17],[164]。自从遥感领域引入图像描述 [62]、视觉问答 [54]、文本-图像(或图像-文本)检索 [166] 以及基于文本的图像生成 [165] 等任务以来,受益于深度学习的发展,VLM在遥感领域取得了显著成果。 早期的VLM研究主要强调模型结构的精心设计,并通过从零开始在小规模数据集上进行监督训练。例如,在图像描述任务中,许多研究 [167]–[170] 试图将卷积神经网络(如VGG [171]和ResNet [172])与序列模型(如LSTM [173]和Transformer [174])有效结合,并在UCM-captions [62]与Sydney-captions [62]等数据集上进行训练。在这一经典的构建范式下,深度模型通常在测试集上表现良好,但在大规模部署中效果欠佳。此外,尽管这些模型能够描述图像内容,但在处理图像相关问答等任务时能力不足,限制了其在多样化场景中的应用。 近年来,预训练-微调的新范式为上述挑战提供了有前景的解决方案。其核心思想是,首先在大规模图文数据上进行预训练,使模型能够学习涵盖广泛视觉与文本概念及其对应关系的通用知识,然后在特定任务数据上进行微调。已有研究表明,通用知识的融入不仅提升了模型在单一任务中的泛化能力 [7],[8],还增强了模型在多种下游任务中的适应性与多样性 [1],[3]。因此,该新范式下的视觉语言建模已成为遥感领域的研究热点。迄今为止,相关研究取得了显著进展,如图1所示,主要体现在以下几个方面:
基于对比学习的方法(如GeoRSCLIP [7]、SkyCLIP [8]和RemoteCLIP [2]),在跨模态任务与零样本图像理解任务中取得了重要突破;
学习图文间隐式联合分布的方法(如RS-SD [7]、DiffusionSat [38]和CRSDiff [39]),支持通过文本提示生成图像;
视觉指令微调方法(如GeoChat [3]、LHRSBot [9]和SkySenseGPT [11]),在遥感数据分析中表现出更强的性能、多样化的能力与对话交互能力。
尽管已有诸多成果,但VLM仍被公认为一个尚未完全解决的研究难题。目前的模型仍无法达到遥感专家在遥感数据处理方面的水平。为推动该领域进一步发展,已有若干综述论文试图系统梳理遥感中的视觉语言建模。例如,Li等人 [17] 从应用视角出发总结了相关模型,并提出潜在研究方向,但其主要聚焦于视觉基础模型和早期工作;Zhou等人 [16] 则回顾了近期研究进展,但缺乏对关键设计的深入剖析,而这些设计对于未来研究的启发具有重要意义。此外,作为VLM研究的前提条件,相关数据集在现有综述中也未受到充分关注。 因此,本文旨在针对遥感领域中的预训练-微调范式,提供一份及时且全面的文献综述,重点包括:
对遥感VLM方法的分类,详细介绍各类方法中常用的网络结构与预训练目标;
对基于对比、指令与生成三类VLM方法的最新进展进行总结,重点分析其关键设计与下游应用;
对用于预训练、微调与评估的数据集进行梳理,分析其构建方法与关键特性;
讨论当前挑战与未来可能的研究方向。
图2展示了本文的整体框架。