Datawhale分享

作者:厦门大学,林子雨副教授

成为VIP会员查看完整内容
91

 通用大模型怎么了?推理大模型这么火!   概述:推理大模型建立在通用大模型基础之上,在推理框架上线之前,通用大模型直接回答。那现在就让他基于思维链,一步一步做好规划、调整、校对并完成输出。所以通用大模型和推理大模型它不是矛盾的存在。   简单来看,推理大模型和通用大模型功能不一,如果把AI模型比作工具包,DeepSeek把传统通用大模型比作一把瑞士军刀,功能多但不够锋利;推理大模型则像手术刀,专精切割但用途单一。

成为VIP会员查看完整内容
75

澳门城市大学张宏纲教授(IEEE Fellow)本学期在澳门城市大学数据科学学院针对研究生开设了《人工智能前沿专题-大语言模型基础导论》课程,该课程的主要内容包括:LLM的基本概念、关键机制和方法、AI Agent、LLM与强化学习、大模型的数学原理、扩散模型、通信专属大模型和NetGPT、以及DeepSeek的若干技术内核。

该ppt共分为8各部分,具体如下:

  1. The Background and Basics of Data-Driven Scaling Law, Transformer, andFoundation Models (LLMs/LMMs -Large Language/Multimodal Models);
  2. Key Mechanisms and Methods in Data-Driven LLMs/LMMs - Prompt, Fine-Tuning, LoRA, Mixture of Experts (MoE) , Chain of Thoughts (CoT) and RAG;
  3. Embodied Al Agents and Data-Driven LLMs/LMMs;
  4. Mutual-Play between Data-Driven LLMs/LMMs and Reinforcement Learning;
  5. The Mathematical Basics of Generative Pretrained Transformer (GPT) andData-Driven LLMs/LMMS;
  6. Diffusion Models, Algorithms and Data-Driven LLMs/LMMS;
  7. Telecom LLMs/LMMs, Networked GPT (NetGPT) and other Key Applications;
  8. Summary.

成为VIP会员查看完整内容
68

AI编程:重构代码编写的范式。AI编程已经成为AI发展的一个重要的细分领域,正在逐步赋能编程工作的各个方面,包括代码自动补全、代码生成、测试验收等。根据《2024年中国AI代码生成市场观测报告》,2023年中国AI代码生成市场规模达到65亿元,随着规范化开发需求和中小型企业用户对辅助开发工具的需求增加,预计到2028年,中国AI代码生成市场规模预计将增长至330亿元,年复合增长率达38%。   GitHub Copilot引领AI编程,智能体、多模态等技术持续提升行业潜力。   据2024年7月微软财报电话会议所披露信息,Github Copilot的年度经常性收入(ARR)已经成功突破3亿美元大关,ARR数值占Github当年整体增长的40%,已然成为推动Github业务拓展的核心驱动力之一。而对比2023年,Github Copilot在2023年的ARR约为1亿美元。   2025年2月纳德拉表示GitHub Copilot将all-in智能体,GitHub现任CEOThomas Dohmke表示自主SWE智能体也将融入GitHub用户体验。智能体将GitHub Copilot的体验提升到人类程序员水平,在处理代码问题时,无需开发者特别指定相关代码,便可主动定位合适代码并解决问题,如同为每个代码库配备了专属的工程师,并且具有强大的自主能力,识别错误并自动修复。与此同时,Github Copilot也将实现“Vision”等功能,向多模态等方向不断进发。   国内企业重点发力,大厂已实现在内部的大量应用。科技大厂中,以百度、阿里、字节的火山引擎为例,均在AI编程领域取得成绩,在三方基准测试平台Chatbot Arena公布的最新的大模型盲测榜单中,Qwen2.5-Max在数学和编程等单项能力上排名第一;截至2024年4月,Baidu Comate深度融入开发流程,参与了大量项目的开发工作,编写了百度内部四分之一的代码;在字节内部,豆包MarsCode已经覆盖了70%以上的开发者,从编码阶段就开始为开发者贡献代码和技术解决方案。   上市公司中,卓易信息旗下艾普阳的SnapDevelop集成ChatGPT,在智能化时代引领IDE新发展;普元的低代码开发平台推动AI编程效率提升,同时与华为等国产化生态持续深入融合;截至2024年9月,商汤的代码小浣熊个人用户超过10万人,实现了单日生成代码量突破十亿Tokens;金现代自身低代码平台持续迭代,已经积累多个重要政企客户。

成为VIP会员查看完整内容
63

大语言模型(LLMs)在自然语言理解、文本摘要和机器翻译等多种任务中取得了显著成功。然而,LLMs 的通用特性往往限制了它们在需要专门知识的领域特定应用中的有效性,如医疗、化学或法律分析等。为了解决这一问题,研究人员探索了多种方法,通过将领域特定知识注入 LLMs 来提升其性能。在本综述中,我们提供了这些方法的全面概述,并将其归纳为四种主要方法:动态知识注入、静态知识嵌入、模块化适配器和提示优化。每种方法都有独特的机制,可以为 LLMs 注入领域专业知识,在灵活性、可扩展性和效率之间取得平衡。我们讨论了这些方法如何使 LLMs 能够处理领域特定任务,比较它们的优缺点,评估领域特定的 LLMs 与通用 LLMs 的表现,并强调该新兴领域中的挑战与机遇。对于希望深入研究该领域的读者,我们还总结了常用的数据集和基准测试。为了让研究人员及时了解最新的研究进展,我们维护了一个开源平台,地址为:officialrepo.com,专门用于记录领域特定 LLM 相关的研究。

2 背景2.1 领域特定知识领域特定知识是指与特定领域或应用相关的专门信息或专业知识,区别于跨多个领域的通用知识。通用知识使模型能够理解广泛的上下文,而领域特定知识对于需要精确、领域特定理解的专业任务至关重要。例如,在科学文本处理 [Bran et al., 2023] 中,模型必须理解复杂的科学术语、概念和方法论,以提供准确且相关的答案。同样,在电子商务搜索 [Zhao et al., 2024a] 中,理解领域特定术语(如产品类别、技术规格或购物俗语)对于提供相关的搜索结果和推荐至关重要。在医疗应用中,LLMs 必须理解医学术语、诊断、治疗方案和药物相互作用。例如,生物医学问答 [Pei et al., 2024] 和医疗报告摘要依赖于整合来自医学文献(如 PubMed [Dernoncourt and Lee, 2017])的知识。为满足这些需求,研究人员探索了多种将领域特定知识整合到 LLMs 中的方法。本文旨在对这些注入方法进行全面综述。2.2 知识表示与编码知识可以根据结构和应用需求以不同形式呈现。例如,知识图谱 [Zhang et al., 2024c] 将信息表示为图中的实体和关系,从而实现结构化推理和推断。这些图谱广泛应用于问答系统和推荐系统等任务中,其中实体之间的关系至关重要。同样,以文本形式存在的知识(如维基百科 [Jeong et al., 2024])提供了大量非结构化信息。知识也可以以向量空间的形式存储,而非可读文本或图谱格式。例如,软提示调优 [Singhal et al., 2023a] 学习向量形式的有用知识,并将其与原始输入连接,以指导 LLMs 执行特定的下游任务。除了外部表示,知识还可以从模型内部涌现。例如,思维链提示 [Yao et al., 2024] 引入了中间推理步骤,帮助模型将复杂任务分解为可管理的部分。通过显式地推理这些步骤,LLM 可以更有效地利用其内部存储的信息,从而在需要逻辑推理、多步计算或决策的任务中表现更佳。

3 知识注入范式

本节介绍了四种主要的知识注入范式:动态知识注入、静态知识嵌入、适配器和提示优化。这些范式展示了将外部领域特定知识整合到LLMs中的多种机制。我们使用统一的符号(如表1所述)系统地表示这些过程。外部知识K通过修改原始参数θ、引入额外参数ϕ或利用辅助机制整合到LLMs中。

**3.1 动态知识注入

动态知识注入定义为首先从外部知识库或知识图谱中检索信息,然后将其与输入结合以供LLMs使用的过程:

该范式提供了快速的推理,因为它消除了额外的检索步骤,并且通常表现更强。然而,它也面临一些挑战,例如更新成本高(每当领域知识变化时都需要微调)以及可扩展性问题,因为嵌入大型或频繁变化的知识库可能计算成本高昂。3.3 模块化知识适配器为解决静态知识嵌入的高更新成本问题,另一种范式——模块化知识适配器——引入了小型可训练模块,这些模块可以插入基础模型或与其并行运行,以存储领域特定知识,同时节省计算资源。在这种方法中,LLM的原始参数θθ通常保持冻结,以保留模型的通用能力。给定知识数据集KK,适配器参数ϕϕ通过最小化以下目标进行训练:

其中,pp 表示包含隐式领域知识或特定指令的文本提示。提示优化具有显著优势,包括消除对外部领域知识库的依赖并避免训练。然而,它也面临一些挑战,因为设计有效的提示可能既复杂又耗时。此外,长提示可能会减少可用的上下文窗口,从而可能影响模型的效率和性能。3.5 四种范式的比较 表2:基于训练成本、推理速度和局限性的知识注入范式选择指南动态知识注入在运行时整合外部知识,提供了灵活性和对新信息的适应性,而无需增加训练成本。然而,它需要一个有效的检索模块,推理速度高度依赖检索性能,这可能会减慢整体过程。静态知识嵌入在预训练或微调期间嵌入领域专业知识,需要大规模的领域特定数据和大量的训练资源(如GPU和时间)。虽然它不会产生额外的推理成本,但其局限性在于潜在的灾难性遗忘风险以及无法适应不断变化的信息。模块化适配器作为一种折中方案,允许即插即用的组件以最少的训练数据增强领域特定能力。只需训练少量参数,从而降低了训练成本,且推理速度几乎不受影响。然而,训练数据的质量显著影响该方法的性能。提示优化则完全避免了重新训练,通过精心设计的输入激活已有知识。它对推理速度没有影响,但依赖于大量人工努力来找到最佳提示。该方法在利用新知识方面能力有限,主要激活已有知识。我们在表2中总结了这些比较,作为实用指南,帮助根据具体任务需求和场景确定最合适的方法。

4 应用

4.1 生物医学

生物医学领域受益于丰富的专业语料库,如PubMed [Dernoncourt and Lee, 2017] 和MedQA [Jin et al., 2021],这使得开发专门针对生物医学文本训练的LLMs成为可能。这些模型通常采用静态知识嵌入方法,充分利用生物医学数据的领域特定丰富性。例如,PMC-LLaMA [Wu et al., 2023] 通过在S2ORC数据集 [Lo et al., 2020] 中筛选的490万篇PubMed Central文章上进行进一步预训练,扩展了LLaMA 7B模型,完成了五个训练周期以有效嵌入生物医学知识。类似地,Med-PaLM 2 [Singhal et al., 2023b] 基于PaLM 2通过指令微调构建。该微调结合了多种医学问答数据集,包括MedQA、MedMCQA [Pal et al., 2022] 和HealthSearchQA [Singhal et al., 2023a]。除了基础模型外,整合外部工具和知识可以进一步提升性能。例如,GeneGPT [Jin et al., 2024] 利用在代码任务上预训练的LLM,通过使用NCBI Web API来应对GeneTuring测试。该方法结合了上下文学习和增强的解码算法,能够识别并执行API调用。类似地,Med-PaLM [Singhal et al., 2023a] 引入了向量提示——存储和检索医学领域知识的表示——以扩展Flan-PaLM [Chung et al., 2024] 的能力。

4.2 金融

经过微调的金融LLMs通过任务特定训练,展示了将通用模型适应领域特定任务的显著进展。PIXIU [Xie et al., 2023] 在13.6万条针对金融任务的指令样本上微调LLaMA,使模型能够处理广泛的领域相关场景。InstructFinGPT [Zhang et al., 2023] 在来自两个金融情感分析数据集的1万条指令样本上微调LLaMA,主要专注于金融分类任务。FinGPT [Yang et al., 2023] 引入了一个端到端的框架,用于在金融行业中训练和部署FinLLMs。利用LoRA技术,FinGPT在大约5万条任务特定样本上微调开源LLMs(如LLaMA和ChatGLM),实现了无需完全重新训练的高效微调。相比之下,从头训练的金融LLMs旨在创建专门为金融任务设计的模型。BloombergGPT [Wu et al., 2023] 利用来自Bloomberg特定数据的50亿个token子集(仅占其总训练语料库的0.7%)来定制其模型以适应金融应用。XuanYuan 2.0 [Zhang and Yang, 2023] 结合了3660亿个token进行预训练,并额外使用130亿个token进行微调,创建了最大的中文金融聊天模型。类似地,Fin-T5 [Lu et al., 2023] 引入了基于T5架构的中文金融预训练语言模型,使用了300GB的金融语料库。此外,SNFinLLM [Zhao et al., 2024a] 在推理过程中动态整合实时金融数据,以增强决策能力,展示了领域特定预训练和适应性在金融LLMs中的价值。4.3 材料科学与生物医学领域不同,在材料和化学领域,由于缺乏大规模语料库,研究主要集中在利用任务相关工具,这与动态知识注入范式一致。例如,Xie et al. [2024] 展示了Darwin 1.5如何利用自然语言输入和两阶段训练策略,在材料发现和设计任务中取得显著改进。Bran et al. [2023] 引入了ChemCrow,这是一个通过化学专家设计的工具增强LLMs的框架,用于有机合成和药物发现等下游任务。还有关于提示优化的研究 [Tang et al., 2025],表明设计更好的规划提示可以有效利用模型的内部知识来协调复杂任务。这种方法利用多个LLMs的规划和执行能力,实现化学实验的自主性。最近,化学领域对静态知识嵌入和模块化知识适配器的探索兴趣日益增加。例如,Chen et al. [2024] 策划了一个QA数据集,用于微调预训练模型(如BERT和LLMs中的Llama),旨在提高其在化学相关任务中的表现。类似地,Xie et al. [2024] 引入了Darwin 1.5,这是一个为材料科学量身定制的开源大型语言模型。

4.4 人本科学

我们介绍的最后一个领域是人本科学,涵盖了广泛的应用,如心理咨询、金融预测、社会行为预测和法律推理。所有这些领域都围绕理解和满足人类需求、行为和决策过程展开。在心理健康领域,PsyQA [Sun et al., 2021] 等数据集为训练心理咨询场景中的模型提供了基础。例如,SoulChat [Chen et al., 2023] 是一个在10万条长文本心理咨询会话上通过静态知识嵌入微调的模型,专为共情对话设计。类似地,MeChat [Qiu et al., 2023] 采用动态知识注入以适应实时输入,显著增强了其情感支持能力。这些进展展示了人本科学通过个性化和情境感知解决方案应对复杂现实挑战的潜力。在教育领域,LLMs在应对个性化学习、课程对齐和互动教学等挑战方面展现了巨大潜力。例如,个性化学习要求模型适应个体需求,提供定制反馈和情感支持。EduChat [Dan et al., 2023] 通过静态知识嵌入利用心理学和教育学的教育理论,支持开放问答、作文批改和情感支持等任务。类似地,QiaoBan [Weixiang et al., 2023] 专注于以儿童为中心的教育,通过提示优化根据儿童心理和情感状态调整模型行为,专门为年轻学习者服务。领域特定教育和互动教学也通过LLMs取得了进展。CyberQ [Agrawal et al., 2024] 通过AISecKG [Agrawal, 2023] 结合静态知识嵌入和动态知识注入,生成基于网络安全最佳实践的问答。互动教学则受益于SocraticLM [Liu et al., 2024c] 等模型,该模型通过在SocraTeach数据集上微调的适配器,引导学生进行批判性思维和问题解决。在社会科学领域,SocialLLM [Jiang and Ferrara, 2023] 等模型结合静态知识嵌入和动态知识注入,分析社交网络中的人类行为。适配器促进大规模数据整合,而提示优化则引导模型关注特定的社会行为模式。FPS [Liu et al., 2024e] 和FUSE [Liu et al., 2024f] 等模型使用提示优化来模拟虚假新闻在社交网络中的传播和演变,帮助理解 misinformation 的影响。表3总结了主流模型及其信息。更多跨领域的模型可访问:Survey-official-repo。

5 工具、资源与分析

5.1 知识注入框架

本节详细介绍了四种开源框架,分别对应不同的知识注入方法,以促进理解与应用:KnowGPT [Zhang et al., 2024c] 用于动态知识注入,StructTuning [Liu et al., 2024d] 用于静态知识嵌入,K-Adapter [Wang et al., 2021] 用于模块化知识适配器,以及SelfLift [Cheng et al., 2024] 用于提示优化。KnowGPT 通过强化学习从知识图谱中提取高度相关的子图,动态结合知识图谱与提示优化。这些子图以三元组形式表示,并通过多样化的提示模板转化为自然语言提示,供语言模型解释和利用。KnowGPT框架显著降低了LLMs的API调用成本,同时提升了其在领域特定任务中的表现。StructTuning 采用结构感知的方法,通过两阶段策略将领域知识嵌入预训练模型:结构感知持续预训练将知识编码到模型参数中,而结构感知监督微调通过结构化问答任务优化理解。该框架在关系分类和问答等知识驱动任务中展现了显著的性能提升,实现了通用性与效率的平衡。K-Adapter 将知识存储在适配器模块中。其核心方法是冻结原始模型参数,并为每种知识类型分配一个独立的任务特定适配器。这些适配器作为独立模块插入模型的中间层,以生成特定知识的增强表示。该设计有效缓解了灾难性遗忘问题,防止新注入的知识覆盖模型的已有知识。SelfLift 则通过迭代使用检索增强生成器创建无界记忆池,并利用记忆选择器选择输出作为下一轮生成的记忆。这是提示优化的一个优秀示例,模型的输出被动态优化并重复使用,以增强其在后续任务中的整体性能和连贯性。

5.2 数据集与基准测试

我们在表3中总结了领域特定LLM研究中常用的数据集或基准测试,观察到不同领域的数据集丰富度存在显著差异。生物医学领域拥有众多高质量数据集,如PubMed、PubMedQA [Jin et al., 2019] 和BioASQ [Tsatsaronis et al., 2012],支持问答和临床摘要等任务。相比之下,材料和化学领域的资源较为有限,数据集如USPTO和Enzymes主要关注化学反应。其他领域的多样化数据集则分散在心理健康(如PsyQA和SmileChat)和教育(如SocraTeach和儿童情感教育对话数据集)等领域。这种多样性突显了为LLMs定制领域特定数据集的努力,同时也强调了在代表性不足的领域中更广泛地策划基准测试的必要性。

5.3 领域特定LLM与通用LLM的性能对比

由于通用领域的强大LLMs也存在,因此有必要讨论领域特定LLMs与通用LLMs的对比,以确定特定知识注入过程是否必要。这里我们以生物医学领域为例,因为该领域的研究成果显著,如表4所示。结果来自相关论文或paperswithcode.com。首先,我们可以观察到闭源LLMs目前是最有效的模型,而通用领域与领域特定LLMs之间的性能差距相对较小。例如,GPT-4和Med-Gemini [Saab et al., 2024] 在MedQA数据集上均表现出色,得分超过90。然而,由于闭源LLMs缺乏透明度,开源LLMs的努力不应被忽视。在这一领域,领域特定LLMs通常优于通用领域模型。例如,PMC LLaMA-13B在MedQA数据集上比LLaMA2-70B高出10多分。这证明了领域特定LLMs在专业任务中实现卓越性能的价值。尽管通用领域模型可以提供强大的结果,但结合领域特定知识可以显著提升性能,尤其是在开源项目中。这突显了投资领域特定LLMs以应对专业领域独特挑战的重要性。

6 挑战与机遇

6.1 知识一致性整合知识注入使LLMs能够整合不同的领域特定知识。然而,检索到的知识可能与模型的预训练表示或其他检索到的事实冲突,导致输出不一致 [Xu et al., 2024a]。例如,在医疗或法律分析中,可能会出现冲突的治疗方案或矛盾的法律先例,从而导致不可靠的决策并削弱系统的可信度。为解决这一问题,未来研究必须专注于检测不一致性、解决冲突并保持整合知识的一致性。可以通过优先考虑可靠来源、应用领域特定规则或使用集成技术来平衡多重视角来解决冲突。对齐算法和验证模块可以进一步确保检索到的知识与模型的推理过程一致,并在影响输出之前验证其可靠性。这些努力对于增强知识增强型LLMs在复杂、高风险领域中的可靠性和适用性至关重要。6.2 跨领域知识迁移跨领域知识迁移涉及使LLMs具备在不同领域间泛化知识的能力。尽管这显著扩展了其适用性,但也因领域特定术语、本体和推理模式的复杂性和多样性而引入了挑战。例如,将化学知识迁移到医疗领域可能需要协调不同的数据结构和推理框架。克服这些挑战需要在模块化知识表示和迁移学习技术方面取得进展。未来研究可以探索混合方法,将静态嵌入与动态检索相结合,使LLMs能够在不牺牲深度的情况下灵活适应跨领域知识。此外,创建标准化的跨领域基准测试和数据集可以促进系统化评估,并推动多领域知识迁移方法的创新。7 结论通过领域特定知识增强的LLMs展现了显著的潜力,并引起了越来越多的研究兴趣。本综述系统回顾了LLM知识注入系统,探讨了知识表示方法、整合策略以及保持模型通用性的机制。我们还总结了生物医学、化学和计算社会科学等领域的应用。通过突出标准数据集、基准测试、挑战和未来机遇,我们旨在为激发进一步探索知识增强型LLMs以应对领域特定挑战提供有价值的资源。

成为VIP会员查看完整内容
57

AAAI(AAAI Conference on Artificial Intelligence) 由国际先进人工智能协会主办,是人工智能领域的顶级国际学术会议之一。第39届AAAI人工智能年度会议将于2025年2月在美国宾夕法尼亚州费城召开。本文将介绍自动化所在本届大会上的录用成果。

图片

人工智能在科学领域的应用涵盖了广泛的范围,从原子层面,解决量子系统的偏微分方程,到分子层面,预测化学或蛋白质结构,甚至扩展到像传染病爆发这样的社会预测。近年来,大型语言模型(LLMs)取得了显著的进展,诸如ChatGPT等模型在涉及自然语言的任务中表现出了强大的能力,例如语言翻译、构建聊天机器人和回答问题。当我们考虑科学数据时,我们会注意到它们在序列上与自然语言有相似之处——如以文本呈现的科学文献和健康记录、按序列排列的生物组学数据,或像脑电信号这样的传感器数据。问题随之而来:我们能否利用这些最新LLMs的潜力推动科学进步?在本教程中,我们将探讨大型语言模型在科学数据三大关键类别中的应用:1)文本数据,2)生物医学序列,3)脑电信号。此外,我们还将深入探讨LLMs在科学研究中的挑战,包括确保可信度、实现个性化和适应多模态数据表示。

Xuan Wang 是弗吉尼亚理工大学计算机科学系的助理教授。她的研究兴趣包括自然语言处理、数据挖掘、科学中的人工智能以及医疗保健中的人工智能。她目前的研究方向包括基于有限监督的自然语言理解、大型语言模型的复杂推理与规划,以及通过多模态科学基础模型推动科学发现。她曾获得2025年思科研究奖、2024-2025年NSF NAIRR试点奖以及2021年NAACL最佳演示论文奖。她分别于2022年、2017年和2015年在伊利诺伊大学香槟分校获得计算机科学博士学位、统计学硕士学位和生物化学硕士学位,并于2013年获得清华大学生物科学学士学位。她曾在IEEE-BigData 2019、WWW 2022、KDD 2022和EMNLP 2024等会议上举办教程。

人工智能(AI)在科学领域的卓越能力涵盖了广泛的范畴,从原子层面(如尝试求解量子系统的偏微分方程)到分子层面(如精准预测化学物质和蛋白质的结构),甚至延伸到社会预测(如预测传染病爆发)(Zhang et al., 2023a)。在这一充满可能性的背景下,大语言模型(LLMs)的最新进展,尤其是以ChatGPT为代表的模型,已崭露头角,展示了在自然语言相关任务中的显著能力。这些任务包括语言翻译、构建聊天机器人和回答问题(Yang et al., 2023)。有趣的是,当我们将注意力转向科学数据时,会发现其与自然语言在序列形式上有着惊人的相似性。科学文献和健康记录以文本叙述的形式呈现,生物组学数据表现为分子序列,甚至像脑信号这样的传感器数据本质上也是序列化的(Wang et al., 2021a; Thirunavukarasu et al., 2023)。这一观察引发了一个引人深思的问题:我们能否利用这些先进的大语言模型的潜力来推动科学进步?在本教程中,我们将踏上探索这一交叉领域的旅程——将尖端的大语言模型与科学研究相结合。我们的探索聚焦于三类关键的科学数据:1)文本数据(Alsentzer et al., 2019; Singhal et al., 2022; Beltagy et al., 2019; Lee et al., 2020; Gu et al., 2021; Alrowili and Vijay-Shanker, 2021; Yasunaga et al., 2022),2)生物医学序列(Ji et al., 2021; Zvyagin et al., 2022; Fishman et al., 2023; Dalla-Torre et al., 2023; Nguyen et al., 2023; Yamada and Hamada, 2022; Yang et al., 2022; Chen et al., 2022; Zhang et al., 2023b; Rives et al., 2021; Bepler and Berger, 2021; Brandes et al., 2022; Madani et al., 2023; Lin et al., 2023; Zheng et al., 2023; Xu et al., 2023),以及3)脑信号(Wang et al., 2022a; Wang and Ji, 2022; Tang et al., 2023)。通过借鉴大语言模型的变革性能力,我们试图在每个领域中揭示新的理解和创新。随着教程的深入,我们还将讨论将AI融入科学研究过程中伴随的复杂挑战。可信赖性是其中至关重要的一点——我们如何确保AI增强的科学洞察力的可靠性?个性化的概念也成为一个关键考量,促使我们根据科学研究的特定需求定制大语言模型。此外,科学数据的多维度特性要求我们掌握处理跨模态数据表示的艺术。

教程大纲

本教程预计时长为3小时,中间包含30分钟的休息时间。

内容大纲如下:

1 背景与动机 [20分钟]我们将首先介绍大语言模型(LLMs)的背景知识以及“科学人工智能”(AI for Science)的整体概况。随后,我们将围绕三类关键科学数据(1)文本数据,(2)生物医学序列,以及(3)脑信号,激发对大语言模型在科学领域应用的兴趣。

2 大语言模型在科学文本数据中的应用 [40分钟]首先,我们将介绍大语言模型在科学文本数据中的应用。科学文本数据涵盖多个领域,例如生物医学文献(Beltagy et al., 2019; Lee et al., 2020; Gu et al., 2021; Alrowili and Vijay-Shanker, 2021; Yasunaga et al., 2022)和电子健康记录(Alsentzer et al., 2019; Singhal et al., 2022)。这类数据与大语言模型的基本结构高度契合,广泛应用于科学和医疗领域,支持信息提取(Wang et al., 2021b; Zhong et al., 2023; Wang et al., 2022b)和问答任务(Krithara et al., 2023)。

3 大语言模型在生物医学序列中的应用 [60分钟]接下来,我们将探讨大语言模型在复杂的生物序列数据中的应用。这一领域充满可能性,我们重点关注以下三类相互交织的生物序列:DNA序列:从生命的蓝图出发,我们深入研究了(Ji et al., 2021)、(Zvyagin et al., 2022)、(Fishman et al., 2023)、(Dalla-Torre et al., 2023)和(Nguyen et al., 2023)等开创性工作。这些研究为解密生物体本质中的秘密铺平了道路。DNA大语言模型在下游任务中应用广泛,例如从DNA序列中预测调控元件(如增强子、启动子、表观遗传标记和剪接位点)(Grešová et al., 2023; Dalla-Torre et al., 2023)。RNA序列:在基因表达的复杂世界中,我们借鉴了(Yamada and Hamada, 2022)、(Yang et al., 2022)、(Chen et al., 2022)和(Zhang et al., 2023b)等创新成果。这些进展帮助我们解码由RNA调控的生物过程。RNA大语言模型在RNA结构与功能预测(Yamada and Hamada, 2022; Zhang et al., 2023b)、RNA-蛋白质相互作用预测(Chen et al., 2022)以及细胞类型注释(Yang et al., 2022)中应用广泛。蛋白质序列:进入蛋白质的复杂领域,我们参考了(Rives et al., 2021)、(Bepler and Berger, 2021)、(Brandes et al., 2022)、(Madani et al., 2023)、(Lin et al., 2023)、(Zheng et al., 2023)和(Xu et al., 2023)等重要研究。这些研究揭示了分子功能与相互作用的复杂机制。蛋白质大语言模型在功能性蛋白质生成(Leinonen et al., 2004)和蛋白质结构预测(Suzek et al., 2015)中具有广泛应用。在这些领域中,大语言模型的变革性能力体现在众多高影响力的下游应用中。从预测分子结构到预测分子相互作用,从揭示分子功能到与疾病进展过程建立关联,大语言模型作为创新的灯塔,引导我们更深入地理解生命的基石。4 大语言模型在脑信号中的应用 [30分钟]最后,我们将探讨大语言模型在脑信号领域的迷人应用。本节首先介绍一种开创性的预训练脑信号表征模型(Wang et al., 2022a)。在此基础上,我们进一步探讨一个激动人心的主题——开放式词汇脑信号到文本的翻译(Wang and Ji, 2022; Tang et al., 2023)。这一研究旨在训练翻译模型,自动解读个体思维中的复杂内容,为技术与认知过程的潜在融合提供了引人入胜的视角。

**4.5 未来研究方向 [30分钟]**作为总结,我们将深入探讨将AI应用于科学研究中的挑战。其中一个重要挑战是确保AI增强的科学洞察力的可靠性和可信度,包括模型的可解释性、对抗攻击的鲁棒性、对不同人群的模型偏见以及数据隐私问题。我们还将探讨个性化的概念,即根据不同的个性化数据调整大语言模型。例如,不同人在相同语境下思考同一个词时,脑信号存在显著的个体差异。我们能否基于不同人的脑信号模式构建个性化的大语言模型,而非使用单一模型适应所有人?此外,科学信息的多样性要求我们掌握高效处理多类型数据的技能。例如,谷歌发布的Med-PaLM-2(Singhal et al., 2023)整合了电子健康记录中的图像、文本和基因组数据,展示了专家级的医学问答能力。我们能否开发更高效的方法,将多模态和多组学的大语言模型整合为一个强大的统一模型?

成为VIP会员查看完整内容
64

《数据科学中的因果推断》书籍简介当你了解事件的原因时,你就能够影响其结果。本书为因果推断提供了一本易于理解的入门指南,展示了如何通过统计学和机器学习来确定因果关系和估算效应。A/B 测试或随机对照实验成本高昂,在商业环境中往往难以实施。《数据科学中的因果推断》揭示了即使没有进行实验或测试,依然可以利用数据识别因果关系的方法和技术。在《数据科学中的因果推断》一书中,你将学习如何:

  • 使用因果图建模现实

  • 运用统计学和机器学习技术估算因果效应

  • 确定何时使用 A/B 测试、因果推断和机器学习

  • 解释和评估目标、假设、风险和局限性

  • 确定分析中是否拥有足够的变量 通过了解因果关系,你不仅可以做出基于数据的预测,还可以进行干预以影响结果。《数据科学中的因果推断》将展示如何构建数据科学工具,识别趋势和事件的根本原因。你将学习如何解读历史数据,理解客户行为,并为管理层提供决策支持,帮助其做出最优决策。购买本书的纸质版将免费附赠 PDF 和 ePub 格式的电子书(来自 Manning Publications)。关于技术为什么你会得到某个特定的结果?是什么因素导致了不同的结果?这些是因果推断中的核心问题。这一强大的方法论能够在无法进行实验、A/B 测试或昂贵的对照试验时,依然帮助你做出更好的决策,通过连接因果关系来改进决策。关于本书《数据科学中的因果推断》介绍了将因果推理应用于日常商业场景的技术。通过这本清晰易懂的实用指南,你无需掌握高级统计学或高等数学就能实践因果推断!通过应用基于有向无环图(DAG)的简单方法,你将学会如何评估广告效果、选择有效的健康治疗方案、制定合理的产品定价等。本书内容

  • 何时使用 A/B 测试、因果推断和机器学习

  • 评估目标、假设、风险和局限性

  • 将因果推断应用于实际商业数据 读者对象适合数据科学家、机器学习工程师和统计学家。作者介绍Aleix Ruiz de Villa Robert 是一位自由职业的数据科学顾问,拥有来自巴塞罗那自治大学的数学分析博士学位。Aleix 曾在新闻、零售、交通和软件开发行业工作,并且是巴塞罗那数据科学与机器学习聚会的创始人。

成为VIP会员查看完整内容
56

 

1.DeepSeek简介   公司简介   1.DeepSeek简介   DeepSeek全称杭州深度求索人工智能基础技术研究有限公司,简称深度求索,成立于2023年7月,是幻方量化旗下的AI公司,专注于实现通用人工智能(AGI),具有深厚的软硬件协同设计底蕴。   模型简介   DeepSeek共研发开源十余款模型,目前最受关注的有V3对话模型和R1推理模型,分别于2024年12月26日和2025年1月20日先后发布。从反映关注度的微信指数上可以看出,两次模型发布都造成了后续DeepSeek关注度的飙升,12月28日DeepSeek指数达到约6000万,1月31日达9.8亿。   V3:是采用混合专家架构(MoE)的高性能对话模型,支持多任务处理并在代码生成、数学推理等场景表现优异。   R1:是基于强化学习训练的推理模型,专注于代码生成和复杂数学问题解决,推理能力通过蒸馏技术可迁移至小型模型。

成为VIP会员查看完整内容
52

人工智能为作战理论变革、武器装备智能化发展带来重大机遇。随着信息技术的发展,人工智能技术大量运用于军事领域已成现实,并逐渐向情报分析、指挥决策等领域渗透。未来,软件助力数据驱动决策、算法优化杀伤和架构增强弹性,进而从辅助工具到战略资产,并重新定义战争。AI的快速发展为这一路径提供了极大可能性。我国需在自主可控的软件生态、军民融合的技术转化、以及人机协同的作战理论层面加速布局。   AI在战场上的运用主要包括四个方面:第一,替代重复性的军事劳动,比如测算导弹发射轨迹;第二,态势感知的实时决策,将AI技术赋能OODA(基于感知-判断-决策-行动),缩短环路解算时间,从而为打赢战争提供关键支撑;第三,非理想环境下作业,比如在极冷或极热环境中执行任务;第四,将人工智能技术赋能无人系统,进行敌我识别或攻击。   对标美军激进的AI战略,我国AI+军工发展正当时。美军将AI视为推动“第三次抵消战略”的核心驱动力和赢得大国高端战争的关键,推出“联合战争概念”以指导智能化战争能力开发。按照美军规划,2025年初步具备智能化作战能力,2035年实现作战装备、信息系统、作战指挥、组织形态的智能化转型。美国军事化战略已向智能化演进,国防预算将持续向AI与防务的结合方向倾斜。我国《军队装备科研条例》3月1日起施行,将推动军队装备科研自主创新与智能化转型。顶层设计持续推进,有望驱动军工快速“AI化”。   AI时代重构美国军工市场竞争格局。美国AI龙头企业Palantir和Anduril计划与SpaceX、OpenAI、自动驾驶船舶制造商Saronic以及AI数据公司ScaleAI等多家科技企业联手竞标近9000亿美元的国防预算,从而打破美国“传统”国防承包商的垄断。美国军工复合体或将重构,AI时代将重塑美国军工市场竞争格局。我国由于军事装备特殊性和数据保密性,AI+军工将形成以军工央企为主导,以各细分领域民营龙头科技企业为重要补充的发展模式。   国防AI应用:由点及面突破,实战需求提升。对当前AI+军事发展阶段进行梳理,我们发现我国AI与军工领域的结合正处于技术单点突破到实战化运用的初级发展阶段,市场发展空间广阔,其中,AI在无人作战系统方面的应用最为领先,尤其是军用无人机和军用机器人。根据MarketsandMarkets,2023年全球人工智能的军事市场规模为92亿美元,预计到2028年将达388亿美元,CAGR为33.3%,增长迅速,产业链相关企业有望显著受益。   投资建议:拥抱AI,聚焦无人和情报系统优化。考虑到应用的急迫性和可行性,我们认为未来AI+泛军工最先取得快速发展的领域包括:1)现役装备“+AI”:加强装备的战场数据智能感知、机动打击精确制导、协同作战智能指控、装备运行智能保障等方面的综合作战效能提升;2)无人智能装备;3)人机协同作战;4)AI赋能军民融合:AI+低空、AI+卫星。AI向军事/军工/军民融合领域的渗透将由点及面迅速铺开,细分赛道增速可观,建议关注:   AI+指挥/情报:对标Palantir的中科星图、华如科技和兴图新科;   AI+应用的观想科技、七一二、智明达、国星宇航;   AI特种芯片供应商紫光国微和AI服务器电源供应商新雷能等。

成为VIP会员查看完整内容
49

本文探讨了俄乌战争(2022-2024 年)中无人驾驶飞行器(UAV)的使用是否构成军事事务革命(RMA)。通过分析整个冲突期间的无人机行动,本研究评估了新武器、新组织和新战争方式的出现--科恩的 RMA 框架确立了这三项标准。研究发现,无人机在这场冲突中的应用代表了一种 RMA,具体表现为各种无人机技术的扩散、乌克兰专门无人系统部队的建立--世界上第一个独立的无人系统军事部门--以及包括无人机群和人工智能瞄准在内的新作战概念的出现。本研究利用乌克兰无人机行动的大量文献资料和军事创新理论,展示了无人系统如何改变现代战争。研究结果对军事现代化,尤其是对美国陆军具有重大意义。本论文建议成立专门的无人系统分部,为无人机饱和的战场开发新的作战概念,并将采购战略转向可减员系统,以便在无人战争无处不在的时代保持军事效率。

乌克兰创新性地使用无人机来对抗俄罗斯的常规军事优势,以及俄罗斯快速发展自己的无人机技术,都有可能为其他冲突提供借鉴,包括美国与中国等近邻竞争对手之间的潜在对抗。在大国竞争重新抬头的时代,了解强国和弱国如何利用无人机对于制定有效的战略和能力至关重要。俄乌战争中低成本、商业化无人机的广泛使用表明,无人机技术正在使更多国家和非国家行为体获得复杂的空中力量能力。胡塞武装在 2023 年 10 月以色列-哈马斯战争后开始的针对商业航运的行动中使用了这种系统,这就是廉价无人机的引入如何改变战争的一个例子。廉价无人机在非国家行为者中的普及使他们能够对敌人造成严重破坏,但这也会使他们容易受到同行组织的无人机攻击。国家和非国家行为体廉价无人机系统的扩散对未来冲突、反恐努力和全球稳定具有重大影响。这可能需要对防空、部队保护和行动安全采取新的方法。

无人飞行器的自主性和杀伤力不断增强,对未来战争提出了重要的伦理和法律问题。人类对致命自主武器系统的控制、平民伤亡增加的可能性以及降低使用武力的门槛等问题都需要认真考虑。俄乌战争提供了具体的例子,可以为这些重要的辩论提供参考。在乌克兰,低成本无人机在对抗昂贵的常规军事硬件时表现出的有效性挑战了传统的军事采购成本效益观念。这可能促使国防开支的优先次序和工业生产发生重大转变。它还可能加速反无人机技术的发展,从而有可能引发该领域的新一轮军备竞赛。

正如在乌克兰所看到的那样,将无人机融入各级军事行动可能需要对军事组织结构、培训计划、甚至征兵策略做出重大改变。了解这些组织方面的挑战和适应性对于寻求有效利用无人机能力的军队来说至关重要。对于美军,特别是陆军来说,全面了解俄乌战争中无人机的使用情况对于为正在进行的现代化工作提供信息至关重要。这场冲突提供了关于各种无人机类型和使用策略的有效性的真实数据,以及对潜在弱点和应对措施的深入了解。这些信息有助于制定从研发重点到战术理论的决策。分析乌克兰无人机能力和战术的快速演变可以为该领域未来的潜在发展提供宝贵的见解。这有助于决策者、军事规划人员和分析人员预测与无人机技术相关的新威胁和机遇。

总之,在俄乌战争中使用无人机是了解现代战争潜在转变的重要案例研究。无论这些系统被证明是真正的革命性还是仅仅是重要的进化步骤,在未来数年中,军事事务和国际关系的多个领域都将感受到它们的影响。因此,要制定有效的战略、政策和能力来应对无人机技术扩散带来的挑战和机遇,就必须对这场冲突进行严谨的分析。

关键研究结果

1.新武器

在俄乌战争中,出现并迅速发展了各种无人机技术,这些技术在科恩的框架中被称为 “新武器”。这些新武器包括:低成本、商业化的军用无人机的普及;开发出具有更强能力的专用军用无人机;将人工智能和机器学习整合到无人机系统中;闲逛弹药和神风特攻队无人机作为战略打击资产出现;以及使用无人机群来压制防御。这些技术创新极大地扩展了空中力量的可获取性和可负担性,使国家和非国家行为者都能部署大量可攻击系统。

2.新组织

无人机的重要性与日俱增,推动了重大的组织变革,包括创建乌克兰专门的无人系统部队作为一个独立的军种,在现有的部队结构中发展专门的无人机部队和小组,实施为无人机行动量身定制的新的培训和招募方法,以及将民间志愿者和组织纳入无人机采购和行动。这些组织变革反映了对军事力量结构应如何有效利用无人系统的根本性重新思考。

3.新的战争方式

无人机催生了新的作战概念和战术,包括纵向和横向扩大战场、模糊传统战线、利用持续监视和精确打击制造心理压力、将无人机与常规武器系统集成以提高效能、采用蜂群战术压垮敌方防御,以及快速传播无人机拍摄的信息战和公共信息。这些发展与以往的战争大相径庭,改变了多领域作战的特点。

成为VIP会员查看完整内容
47

2025年1月20日,DeepSeek发布自研模型R1在全球科技行业引起的震动,被西方媒体称为“DeepSeekShock”。DeepSeek不仅在媒体圈迅速爆火,同样也成为了资本市场的宠儿,其概念指数仅仅诞生10日后板块成交金额就超过了全部A股成交额的20%。这一切现象究其原因,是因为DeepSeek通过技术微创新,以更低的硬件成本和更短的时间实现了可以与市场领先产品竞争的能力。更重要的是,DeepSeek打破了行业“限制中国企业对于最先进GPU获取,将能够阻止中国AI技术发展”的一贯认知。   本文有别于市场上大部分研究报告冗长的技术细节描述,我们针对投资人短时间内客观理解DeepSeek的需求,加入了不同于市场的思考和量化的分析比较。以下是报告的核心观点:   DeepSeek的技术创新在哪里?1)首创DeepSeekMoE架构,专门设计用于实现终极专家专业化。DeepSeekMoE通过降低激活参数比例,实现了训练效率3.6X的提升和训练吞吐量3.6X的提升。2)通过引入MLA机制,DeepSeek-V2实现了显著增强的性能,节省了42.5%的训练成本、减少了93.3%的KV缓存、并将最大生成吞吐量提升至5.76倍。   DeepSeek-V3实际开发成本几何?公司官宣正式训练成本为580万美元,但是并没有披露隐性成本。DeepSeek-V3是建立在前期模型基础上开发的,前期研发投入约为2000-3000万美元。其他数据获取成本和硬件折旧成本未披露,实验试错成本约为500万美元,因此预计实际总成本超过4000万美元。实际成本虽然高达公开口径成本的7倍左右,但是仍然相对Llama3-405B降低了约69%;相对于GPT-4o降低了95%。   未来GPU算力需求会大幅下降吗?短期内云服务大厂资本开支持续处于上升通道,这是由于ScalingLaw导致行业对于算力军备竞赛的恐慌性投资仍然存在。但是ScalingLaw中,数据资源同样限制着模型性能的提升。根据EPOCHAI预测,到2028年人类生成的公共文本数据总有效库存量约为300Ttoken将被全部耗尽。换句话说,在现有模型框架和数据资源供给下,2028年之后单纯算力提升将难以继续推动模型性能的升级。     核心结论:   给予行业“强于大市”评级。随着DeepSeek的横空出世,低成本高性能的模型训练部署成为可能。我们预计接入DeepSeekAPI的细分领域推理服务商将会快速涌现,同时终端设备将会能够实现蒸馏小模型的本地部署能力,包括服务器,智能手机和智能驾驶系统都将会迎来新一轮的升级浪潮。我们看好以下细分板块在DeepSeek推动下的未来发展:   先进算力芯片制造产业链:算力芯片设计,先进制程晶圆代工,先进封测等等。   专业咨询服务:包括AI+医疗,法律,金融,会计,教育,政务等咨询服务领域。   2C智能终端:AI+智能手机,智驾汽车等终端产业链。   2B本地部署设备:服务器OEM及产业链。

成为VIP会员查看完整内容
42

DeepSeek通过创新算法使推理效率大幅优化,大幅降低了应用成本。DeepSeek-V3的训练成本仅为2.788MH800GPU小时,同时其支持FP8混合精度训练,并针对训练框架进行了全面优化,以实现加速训练和降低GPU内存使用,通过算法、框架和硬件的共同设计,克服了跨节点MoE训练中的通信瓶颈,显著提高了训练效率并降低了训练成本。DeepSeek每百万输入tokens成本为0.55美元,每百万输出tokens成本为2.19美元,相较于ChatGPTO1模型,输入和输出成本均降低了96%。DeepSeek-V3采用了多头潜在注意力(Multi-head Latent Attention,MLA)和DeepSeekMoE架构,显著提高了推理速度和显存利用率,能够在保持模型性能的同时实现高效的训练和推理。   DeepSeek从成本端和技术端对垂类AI小模型(AIAgent)带来了直接催化。从成本端看,更低的推理成本降低了垂类AIAgent的开发成本,极大刺激了各行业的企业智能化需求。技术端看,Deepseek在自然语言理解、多模态交互等底层技术上的突破直接降低了垂直领域小模型的技术门槛,其开源的分布式训练框架等技术能够被小模型复用。同时,Deepseek的模型知识蒸馏等压缩技术使小模型既能继承大模型能力,又保持轻量化特性。对数据实时性敏感的垂类AIagent需要在感知端和云端快速传递数据,对低时延高带宽网络提出要求,同时小模型下沉到中小企业,进一步带来了网络通信基础设施需求,对交换机、边缘计算设备、5G切片等带来新需求。   光模块等需求来源从训练转向推理,带来多场景适配需求。虽然单次训练任务的算力需求降低,但模型轻量化可能推动分布式训练和边缘计算的普及,导致数据中心内部短距连接需求从集中式超算集群转向更分散的节点间通信。机架内光模块对于高密度计算仍需要低延迟、高带宽的互连,800G模块需求可能受分布式架构的推动;而在边缘场景,短距光模块在边缘服务器的部署比例可能上升,但单点用量低于传统超算中心。同时,技术替代效应强于需求收缩,CPO的核心价值在于解决传统可插拔光模块的功耗和密度瓶颈,即使算力需求下降,但对于能效比要求、空间压缩要求、降低成本要求仍可能驱动其渗透率提升。

成为VIP会员查看完整内容
43

随着像 OpenAI O3 和 DeepSeek-R1 等先进推理模型的出现,大语言模型(LLMs)展现出了卓越的推理能力。然而,它们在执行严格逻辑推理方面的能力仍然是一个悬而未决的问题。本文综述了大语言模型中逻辑推理的最新进展,这是人工智能研究中的一个关键领域。文章概述了大语言模型中逻辑推理的范围、理论基础以及用于评估推理能力的基准测试。我们分析了不同推理范式下现有的能力——演绎推理、归纳推理、溯因推理和类比推理——并评估了提升推理性能的策略,包括以数据为中心的调优、强化学习、解码策略和神经符号方法。最后,本文展望了未来的研究方向,强调了进一步探索以增强人工智能系统逻辑推理能力的必要性。

成为VIP会员查看完整内容
41

制定行动方案(COA)是军事决策过程中的一个重要步骤。在陆地作战中,这是一个人工的、创造性的过程,指挥官及其参谋人员在整个过程中要考虑许多因素,如任务、地形和天气、条令、威胁能力和自身能力。这种手工流程的缺点是无法考虑太多因素,参与的参谋人员数量较多,而且很难对主要行动方案进行评估。新的(基于人工智能的)技术可以克服这些缺点,并在实施后可作为战术决策辅助工具。本文介绍了一项研究成果,在为陆地行动提供自动战术决策支持工具方面迈出了一步。对于连级的单一 SEIZE 任务,根据条令模板,使用遗传算法根据模拟效果选择和优化 COA。通过将(遗传算法)优化过程中模拟运行的各个结果与地形的战术特征联系起来,初步阐明了生成的行动方案。

图 1. 四种不同军事决策过程的比较

制定行动方案(COA)是陆地作战军事决策过程中的关键步骤。制定行动方案过程的步骤包括生成可能的行动方案、根据指挥官给出的标准对行动方案进行评估,以及从所有生成的行动方案中选择一个作为命令的行动方案。这是一个人工的、创造性的过程,指挥官及其参谋要考虑许多因素。人工遵循这种流程的好处是,计划人员还能将预见的任务内化,从而更有能力适应新情况。不过,这种手工流程也有缺点,如无法考虑所有可能性、涉及的人员数量多、所需时间长以及难以评估主要行动方案。新技术,如基于人工智能的规划技术和作战模拟,可以克服这一缺点,并提供决策支持工具,通过考虑各种可能性并建议系统认为具有高潜力的可能性,来促进这一人工流程。

有了这种决策支持工具,指挥官就有可能无法完全理解所建议的任务和计划的动机和细节。因此,必须特别注意对自动生成的计划进行解释。因此,我们将深入探讨(人工智能)自动化如何支持行动方案的制定,以及如何以军事规划流程参与者可理解和熟悉的方式解释所选的行动方案。

作为向通用战术决策辅助工具迈出的第一步,本文针对一个特定的使用案例进行了探索性研究。所选场景是一个连级任务,原则上可由机器人自主系统(RAS)部队执行。规划过程中选择了 “SEIZE ”任务,北约将其定义为 “清除指定区域并取得控制权”。根据领域知识中的 “条令模板 ”选择了通用 COA。利用遗传算法(GA) 从具体路线和阶段划分方面对选定的 COA 进行了优化,该算法通过任务模拟对 COA 的实施进行评估。对所评估 COA 的统计分析将其与战术地形特征联系起来,从而为解释所获得的结果迈出了第一步。

第二节讨论了军事决策和 COA 生成的背景。第三节讨论(基于人工智能的)工具如何支持陆地行动的军事决策过程。第四节介绍了解释所生成的作战行动指令的方法,第五节列举了一个实例,以在实际情况中展示第三节的理论。第六节是总结和未来展望。

用于 COA 生成、评估和选择的 AI 和模拟支持工具

决策过程可以使用各种工具来支持。一个显而易见的选择是模拟,它可以对操作的结果进行估计。此类工具可用于 COA 评估步骤,指挥官设计的 COA 可通过模拟进行评估。集成人工智能可增强这一过程,通过利用人工智能方法生成和完善 COA,从而创建更复杂的工具。这种方法将传统的战略制定与尖端技术相结合,为优化复杂军事场景中的决策过程提供了一条途径。

解释 COA 的结果

行动方案是在战场上取得决定性优势的复杂计划。任何提出行动方案的人工智能系统都会对大量可能的行动方案进行分析,并以某种方式对这些方案进行比较。人类也遵循类似的过程,最大的区别是只考虑 2-3 种主要作战行动。不过,人类可以解释自己的选择和偏好,决策支持系统也应具备类似的功能。

  • 用任务术语解释生成的COA结果

在这项工作中,我们以与模型无关的方式处理问题,即生成 COA 的算法的内部推理机制不能用于推导解释。这样做有几个原因 (1) 将算法视为黑箱,解释生成方法就可以应用于任何类型的算法。(2) 目前还没有就哪种方法最适合生成 COA 达成共识,因为 COA 的性质相当复杂。当不同的技术被证明更有效时,在基于模型的解释上所做的努力可能很快就会被淘汰。我们提出了一种使用三步法生成人类可读解释的方法,如图 3 所示。这三个步骤是:(1) 地理空间锚定,提取描述任务区的术语;(2) 统计分析,使用学习系统生成的数据评估潜在的解释模式;(3) 生成解释,将有希望的模式转化为人类可读的文本。

图 3 生成解释的三个拟议步骤 生成解释的三个拟议步骤

在地理空间锚定阶段,系统会在任务区寻找命名的地理空间要素。这些元素与战术空间对象(TSO)有密切关系[10]。由于地理空间锚定的命名要素并非针对特定任务,因此它们属于 0 级 TSO。有名称的常见地形要素包括街道、湖泊、河流、城市、城镇和区内的区域。但有些区域很少有名称,如森林或开阔区域(平原)。由于用户很可能不熟悉自动生成的名称,因此为了向用户提供良好的解释,必须为这些区域分配一个名称,并在地图上清晰地向用户突出显示该区域。

研究了利用开放信息源检索/缩减此类区域的方法。其中一个很有前景的来源是开放式街道地图。数据提取可以通过 geofabric 下载。在这种情况下,我们检查了挪威的数据。可下载的内容包括建筑物、土地利用、自然、地点(如城镇、村庄)、礼拜场所(如教堂)、兴趣点(如学校、政府办公室)、铁路、公路、交通、运输、水域和水道的数据。有些地物是点状地物(如兴趣点),有些是线状地物(如水道),有些是多边形地物(如建筑物)。许多要素都有名称,可从数据集中检索名称和位置。就本研究的主题而言,我们认为可以从该数据源中提取街道和城市区域等信息。但是,森林面积太大,没有任何用途,而且开放区域也没有描述。由于大部分场景都发生在城外的森林和开阔地带,因此我们暂时不使用该数据集。

此外,有几个区域源自 C2 系统,如任务区、侧翼单位区域和相线。这些内容可以从 C2 系统中的信息中检索到,也可以很容易地输入。为了测试解释功能,我们手动创建了一个包含所有所需信息的 geojson。所创建的多边形与 OpenStreetMap 数据集中的多边形相同,而林区、空地和 C2 信息项目则是根据自己的判断添加的。为创建用于本节介绍的统计分析技术的数据集,在执行模拟时记录了以下值:位置、健康状况、目标、被敌方发现、造成的伤害和效果测量(即友方平均健康状况、敌方平均健康状况以及两者之间的△)。用于统计分析的数据是优化过程中评估的所有独特行动方案。即使是差劲的 COA 也能有助于适当解释不应该做什么。为了分析生成的数据,我们选择了一种基于模式的方法。解释模式可以看作是一种结构化的假设,说明哪些因素促成了任务的完成或失败(即有效提高或降低模拟的平均得分)。哪些因素应成为模式的一部分可能是无限的,因为任何方面都可以纳入解释(例如,早餐吃三份而不是两份三明治可提高任务成功率)。不过,我们的方法仅限于军事人员经常使用和认可的元素。在所介绍的原型系统中定义的解释模式包括以下可选要素:

位置/区域。这是一块地形的多边形,可能从其他来源获取。位置必须可以通过计算进行评估,也就是说,位置的起点和终点必须清晰明了。另一个重要方面是对每个位置进行命名,以便在以后的解释中使用。

单位指示。一个特定的单位正在执行一个特定的操作可能很重要。因此,可以标明该单位。如果没有说明,则可以接受任何单位。

时间指示。某些操作必须在某个时间之前或之后或在某个时间间隔内执行,这一点可能很重要。通过添加定时,可以检测到这些微妙之处。

否定。人们可能希望知道某些事情没有发生,从而获得更好的任务结果。这表示模拟过程中没有发生事件。

其他模式。为使系统更具活力,模式之间可以相互关联。只有当所有链接模式都有效时,该模式才有效。例如 A 单元位于 X 位置,而 B 单元位于 Y 位置。

成为VIP会员查看完整内容
42

2025 年技术预测--按技术发展等级排序

1.大型语言模型(LLM)部署(A-): 我们将看到新型语言模型的部署,如小型语言模型和特殊用途模型。

2.人机的采用(A/B): 无人机即服务(DaaS)将重新定义物流、农业和灾难响应,为各行各业提供可靠、低成本和快速周转的解决方案。

3.智能体(A/B): 结合了 LLM、机器学习(ML)模型和基于规则的系统的人工智能体将为金融、制造和零售业务提供自主、高度专业化的解决方案。

4.人工智能增强型机器人(B+): 嵌入式智能将使机器人能够在动态环境中感知、学习和协作,实现前所未有的自主性和类似人类的适应性。

5.医疗/健康领域的可穿戴设备/生物标志物(B+): 可穿戴设备将追踪生物标志物,用于早期疾病检测和前瞻性健康,从健身追踪扩展到慢性病的医疗级监测。

6.信息技术与能源的融合(B+): 能源的数字化转型将反映信息技术的发展,实现可持续的电网、可再生能源的整合以及人工智能的指数级增长,从而实现高效的电力传输。

7.增强型人工智能(B+): 增强型人工智能将重新定义人机协作,将机器的精确性与人类的监督相结合,在医疗保健、金融和教育领域提供包容、道德的解决方案。

8.自动驾驶(B+): 自动驾驶汽车将减少排放、提高安全性并改变城市物流,但广泛采用取决于监管部门的批准和公众的信任。

9.智能农业(B+): 人工智能驱动的系统将提高作物产量、资源管理和可持续性,通过实时土壤和气候监测解决粮食安全问题。

10.功能安全/自动驾驶汽车(B): 先进的安全框架将确保自动驾驶汽车在公共和商业领域可靠运行,赢得信任,从而得到更广泛的采用。

11.人工智能辅助药物发现(B): 人工智能的进步将加速药物发现,确定新型化合物和治疗方法,尽管数据质量和监管障碍依然存在。

12.可持续计算(B): 数据中心将采用节能硬件、智能资源管理和可再生能源,但推广可持续发展实践仍是一项挑战。

13.错误/虚假信息(B): 人工智能工具将检测并减少错误信息,抵制其在社交网络上的快速传播,以保护公众舆论和信任。

14.基于人工智能的医疗诊断(B): 人工智能将提高诊断的精确度,尤其是在放射学和病理学方面,从而改善患者的治疗效果,同时减少临床医生的工作量。

15.人工智能优化的绿色高性能计算(B-): 人工智能将优化高性能计算工作流程,降低能耗。面临的挑战包括高成本和开发可靠的能源测量与分配方法。

16.下一代网络战(B-): 人工智能驱动的网络防御将应对不断变化的威胁。挑战包括国际合作、响应速度以及抵御日益增强的人工智能攻击。

17.新型电池化学(B-): 固态电池和钠离子电池将提高能量密度和安全性。面临的挑战包括扩大生产规模和管理供应链依赖性。

18.数据封建主义(B-): 新工具将赋予用户重新控制数据的能力。面临的挑战包括实施公平访问和调整全球监管框架。

19.核动力数据中心(B/C): 小型模块化反应堆(SMR)将为数据中心提供稳定、碳中性的能源。监管审批、可扩展性和公众接受度仍是重大障碍。

20.人工智能监管的工具和政策(B/C): 人工智能伦理和治理框架将会出现。挑战包括统一全球标准和确保有效的执行机制。

21.脑计算机接口(BCIs)(C+): 脑机接口将帮助残疾人并加强交流。高成本、安全问题和可扩展性阻碍了更广泛的应用。

22.空间计算(C+): 可靠的自主计算将为深空任务提供支持。面临的挑战包括辐射加固、有限的电力供应和极端的环境条件。

预测技

成为VIP会员查看完整内容
44
登陆后查看更多精品内容
VIP会员
本周荟萃主题
区块链
区块链(Blockchain)是由节点参与的分布式数据库系统,它的特点是不可更改,不可伪造,也可以将其理解为账簿系统(ledger)。它是比特币的一个重要概念,完整比特币区块链的副本,记录了其代币(token)的每一笔交易。通过这些信息,我们可以找到每一个地址,在历史上任何一点所拥有的价值。
深度学习
机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。
机器学习
“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。”

——中文维基百科
强化学习
强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。
推荐系统
推荐系统,是指根据用户的习惯、偏好或兴趣,从不断到来的大规模信息中识别满足用户兴趣的信息的过程。推荐推荐任务中的信息往往称为物品(Item)。根据具体应用背景的不同,这些物品可以是新闻、电影、音乐、广告、商品等各种对象。推荐系统利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程。个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和产品过程无疑会使淹没在信息过载问题中的消费者不断流失。为了解决这些问题,个性化推荐系统应运而生。个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。
卷积神经网络
在深度学习中,卷积神经网络(CNN或ConvNet)是一类深度神经网络,最常用于分析视觉图像。基于它们的共享权重架构和平移不变性特征,它们也被称为位移不变或空间不变的人工神经网络(SIANN)。它们在图像和视频识别,推荐系统,图像分类,医学图像分析,自然语言处理,和财务时间序列中都有应用。
计算机网络
计算机网络( Computer Networks )指将地理位置不同的多台计算机及其外部设备,通过通信线路连接起来,在网络操作系统及网络通信协议的管理和协调下,实现资源共享和信息传递的计算机系统。
命名实体识别
命名实体识别(NER)(也称为实体标识,实体组块和实体提取)是信息抽取的子任务,旨在将非结构化文本中提到的命名实体定位和分类为预定义类别,例如人员姓名、地名、机构名、专有名词等。
机器翻译
机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。
计算机视觉
计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。
微信扫码咨询专知VIP会员