探索联邦军事大型语言模型中的潜在提示注入攻击及其缓解方法 - 专知VIP

会员服务 ·

1

分层联邦学习 · AI与军事 · 大型语言模型 ·

探索联邦军事大型语言模型中的潜在提示注入攻击及其缓解方法

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

摘要——联邦学习（FL）在军事合作中越来越多地被采用，以开发大型语言模型（LLM），同时保持数据主权。然而，提示注入攻击——对输入提示的恶意操控——带来了新的威胁，可能会破坏操作安全、扰乱决策过程，并削弱盟友之间的信任。本文从一个角度出发，重点讨论了联邦军事LLM中的四种潜在漏洞：机密数据泄露、搭便车攻击、系统干扰和虚假信息传播。为了应对这些潜在风险，我们提出了一个人类与AI协作的框架，该框架结合了技术和策略上的对策。在技术方面，我们的框架通过红蓝队对抗演习和质量保证手段，检测并缓解共享LLM权重中的对抗性行为。在策略方面，该框架促进了AI与人类政策共同制定及安全协议的验证。我们的研究成果将为未来的研究提供指导，并强调在新兴军事环境中采取积极应对策略的重要性。 关键词：联邦学习、大型语言模型、对抗性攻击、军事政策

成为VIP会员查看完整内容

2

相关内容

分层联邦学习

分层联邦学习

人工智能在军事情报中的应用：分析过程中附加价值的实验研究

人工智能在军事情报中的应用：分析过程中附加价值的实验研究

专知会员服务

19+阅读 · 1月26日

强化学习增强的大型语言模型：综述

强化学习增强的大型语言模型：综述

专知会员服务

42+阅读 · 2024年12月17日

图神经网络在金融欺诈检测中的应用综述

图神经网络在金融欺诈检测中的应用综述

专知会员服务

25+阅读 · 2024年11月22日

多模态情感计算的最新趋势：来自自然语言处理视角的综述

多模态情感计算的最新趋势：来自自然语言处理视角的综述

专知会员服务

27+阅读 · 2024年9月16日

迈向可信的人工智能：伦理和稳健的大型语言模型综述

迈向可信的人工智能：伦理和稳健的大型语言模型综述

专知会员服务

35+阅读 · 2024年7月28日

战争中的人工智能：巡飞弹药——当前的应用和法律挑战

战争中的人工智能：巡飞弹药——当前的应用和法律挑战

专知会员服务

62+阅读 · 2024年5月4日

大型语言模型的景观：范式与微调策略的全面综述和分析

大型语言模型的景观：范式与微调策略的全面综述和分析

专知会员服务

46+阅读 · 2024年4月17日

变革军事行动：探讨人机协同作战（MUM-T）及其前景

变革军事行动：探讨人机协同作战（MUM-T）及其前景

专知会员服务

50+阅读 · 2024年4月12日

大规模神经网络最新文献综述：训练高效DNN、节省内存使用、优化器设计

大规模神经网络最新文献综述：训练高效DNN、节省内存使用、优化器设计

专知会员服务

26+阅读 · 2022年4月5日

深度学习的对抗攻击与防御方法综述

专知会员服务

98+阅读 · 2020年12月8日

【军事博弈论】在大规模战斗行动中为旅级作战部队制定有效的优先情报需求

【军事博弈论】在大规模战斗行动中为旅级作战部队制定有效的优先情报需求

专知

53+阅读 · 2022年6月9日

《面向军事应用的数据驱动的行为建模》荷兰应用科学研究组织（NTO）

《面向军事应用的数据驱动的行为建模》荷兰应用科学研究组织（NTO）

专知

31+阅读 · 2022年6月2日

【综述】多智能体强化学习算法理论研究

【综述】多智能体强化学习算法理论研究

深度强化学习实验室

12+阅读 · 2020年9月9日

深度学习可解释性研究进展

深度学习可解释性研究进展

专知

19+阅读 · 2020年6月26日

模型攻击：鲁棒性联邦学习研究的最新进展

模型攻击：鲁棒性联邦学习研究的最新进展

机器之心

34+阅读 · 2020年6月3日

【综述】生成式对抗网络GAN最新进展综述

【综述】生成式对抗网络GAN最新进展综述

专知

57+阅读 · 2019年6月5日

【UC伯克利】可解释性机器学习：定义、方法和应用

【UC伯克利】可解释性机器学习：定义、方法和应用

专知

70+阅读 · 2019年1月19日

自然语言处理中的深度迁移学习——文本预训练

自然语言处理中的深度迁移学习——文本预训练

专知

16+阅读 · 2018年12月10日

理解人类推理的深度学习

理解人类推理的深度学习

论智

18+阅读 · 2018年11月7日

深度学习中的注意力机制

深度学习中的注意力机制

人工智能头条

16+阅读 · 2017年11月2日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

27+阅读 · 2015年12月31日

具有适应性安全的基于属性加密算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向快速油藏历史拟合的粒子群算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

39+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

面向CCMANET网络可证明安全命名与名字路由机制关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于免疫的Rootkit隐遁攻击动态内存取证方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于Markov博弈的计算机网络对抗行动策略分析与建模研究

国家自然科学基金

15+阅读 · 2013年12月31日

面向人与Agent混合的多团队协作仿真训练方法研究

国家自然科学基金

18+阅读 · 2012年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

164+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

36+阅读 · 2023年4月19日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

73+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

425+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

132+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

58+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

71+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

155+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

45+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

22+阅读 · 2023年3月17日

VIP会员

相关主题

分层联邦学习

大型语言模型

相关VIP内容

人工智能在军事情报中的应用：分析过程中附加价值的实验研究

人工智能在军事情报中的应用：分析过程中附加价值的实验研究

专知会员服务

19+阅读 · 1月26日

强化学习增强的大型语言模型：综述

强化学习增强的大型语言模型：综述

专知会员服务

42+阅读 · 2024年12月17日

图神经网络在金融欺诈检测中的应用综述

图神经网络在金融欺诈检测中的应用综述

专知会员服务

25+阅读 · 2024年11月22日

多模态情感计算的最新趋势：来自自然语言处理视角的综述

多模态情感计算的最新趋势：来自自然语言处理视角的综述

专知会员服务

27+阅读 · 2024年9月16日

迈向可信的人工智能：伦理和稳健的大型语言模型综述

迈向可信的人工智能：伦理和稳健的大型语言模型综述

专知会员服务

35+阅读 · 2024年7月28日

战争中的人工智能：巡飞弹药——当前的应用和法律挑战

战争中的人工智能：巡飞弹药——当前的应用和法律挑战

专知会员服务

62+阅读 · 2024年5月4日

大型语言模型的景观：范式与微调策略的全面综述和分析

大型语言模型的景观：范式与微调策略的全面综述和分析

专知会员服务

46+阅读 · 2024年4月17日

变革军事行动：探讨人机协同作战（MUM-T）及其前景

变革军事行动：探讨人机协同作战（MUM-T）及其前景

专知会员服务

50+阅读 · 2024年4月12日

大规模神经网络最新文献综述：训练高效DNN、节省内存使用、优化器设计

大规模神经网络最新文献综述：训练高效DNN、节省内存使用、优化器设计

专知会员服务

26+阅读 · 2022年4月5日

深度学习的对抗攻击与防御方法综述

专知会员服务

98+阅读 · 2020年12月8日

热门VIP内容

开通专知VIP会员享更多权益服务

国内机器人行业梳理：量产元年，百家争鸣

【ICLR2025】RANDLORA: 全秩参数高效微调大规模模型

探索联邦军事大型语言模型中的潜在提示注入攻击及其缓解方法

国内机器人行业梳理：量产元年，百家争鸣

相关资讯

【军事博弈论】在大规模战斗行动中为旅级作战部队制定有效的优先情报需求

【军事博弈论】在大规模战斗行动中为旅级作战部队制定有效的优先情报需求

专知

53+阅读 · 2022年6月9日

《面向军事应用的数据驱动的行为建模》荷兰应用科学研究组织（NTO）

《面向军事应用的数据驱动的行为建模》荷兰应用科学研究组织（NTO）

专知

31+阅读 · 2022年6月2日

【综述】多智能体强化学习算法理论研究

【综述】多智能体强化学习算法理论研究

深度强化学习实验室

12+阅读 · 2020年9月9日

深度学习可解释性研究进展

深度学习可解释性研究进展

专知

19+阅读 · 2020年6月26日

模型攻击：鲁棒性联邦学习研究的最新进展

模型攻击：鲁棒性联邦学习研究的最新进展

机器之心

34+阅读 · 2020年6月3日

【综述】生成式对抗网络GAN最新进展综述

【综述】生成式对抗网络GAN最新进展综述

专知

57+阅读 · 2019年6月5日

【UC伯克利】可解释性机器学习：定义、方法和应用

【UC伯克利】可解释性机器学习：定义、方法和应用

专知

70+阅读 · 2019年1月19日

自然语言处理中的深度迁移学习——文本预训练

自然语言处理中的深度迁移学习——文本预训练

专知

16+阅读 · 2018年12月10日

理解人类推理的深度学习

理解人类推理的深度学习

论智

18+阅读 · 2018年11月7日

深度学习中的注意力机制

深度学习中的注意力机制

人工智能头条

16+阅读 · 2017年11月2日

相关基金

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

27+阅读 · 2015年12月31日

具有适应性安全的基于属性加密算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向快速油藏历史拟合的粒子群算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

39+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

面向CCMANET网络可证明安全命名与名字路由机制关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于免疫的Rootkit隐遁攻击动态内存取证方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于Markov博弈的计算机网络对抗行动策略分析与建模研究

国家自然科学基金

15+阅读 · 2013年12月31日

面向人与Agent混合的多团队协作仿真训练方法研究

国家自然科学基金

18+阅读 · 2012年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

164+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

36+阅读 · 2023年4月19日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

73+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

425+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

132+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

58+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

71+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

155+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

45+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

22+阅读 · 2023年3月17日

微信扫码咨询专知VIP会员