来源:哈尔滨工业大学、自然语言处理研究所(HIT-NLP)
2022年11月30日,OpenAI推出全新的对话式通用人工智能工具——ChatGPT。ChatGPT表现出了非常惊艳的语言理解、生成、知识推理能力,它可以很好地理解用户意图,做到有效的多轮沟通,并且回答内容完整、重点清晰、有概括、有逻辑、有条理。ChatGPT上线后,5天活跃用户数高达100万,2个月活跃用户数已达1个亿,成为历史上增长最快的消费者应用程序。除了被广大用户追捧外,ChatGPT还受到了各国政府、企业界、学术界的广泛关注,使人们看到了解决自然语言处理这一认知智能核心问题的一条可能的路径,并被认为向通用人工智能迈出了坚实的一步,将对搜索引擎构成巨大的挑战,甚至将取代很多人的工作,更将颠覆很多领域和行业。 哈工大自然语言处理研究所组织多位老师和同学撰写了本调研报告,从技术原理、应用场景、未来发展等方面对ChatGPT进行了尽量详尽的介绍及总结。
本报告仅供内部参考。 主要编撰人员 第一章由车万翔、杨沐的、张伟男、赵妍妍、冯骁骋、孙承杰、李佳朋编写;第二章由张伟男、隋典伯、高翠芸、朱庆福、李明达、王雪松编写;第三章由刘铭、朱聪慧、汤步洲编写;第四章由徐永东、高翠芸、朱庆福编写;第五章由杨沐昀、张伟男、韩一、庄子或编写;第六章由隋典伯、高翠芸编写;第七章由车万翔、刘铭编写。参与各章审校工作的还有:崔一鸣、徐志明等。 报告整体由车万翔统稿。
目录
第一章 ChatGPT的背景与意义
1.1 自然语言处理的发展历史 1.2 大规模预训练语言模型的技术发展历程 1.3 ChatGPT技术发展历程 1.3.1 ChatGPT的相关技术 1.3.2 ChatGPT技术发展脉络的总结 1.3.3 ChatGPT的未来技术发展方向 1.4 ChatGPT的优势与劣势 1.4.1 ChatGPT的优势 1.4.2 ChatGPT的劣势 1.5 ChatGPT的应用前景 1.5.1 在人工智能行业的应用前景及影响 1.5.2 在其他行业的应用前景及影响 1.6 ChatGPT 带来的风险与挑战 第二章 ChatGPT相关核心算法
2.1 基于Transformer的预训练语言模型.. 2.1.1 编码预训练语言模型(Encoder-only Pre-trained Models) 2.1.2 解码预训练语言模型(Decoder-only Pre-trained Models) 2.1.3 基于编解码架构的预训练语言模型(Encoder-decoder Pre-trained Models) 2.2 提示学习与指令精调 2.2.1 提示学习概述 2.2.2 ChatGPT中的指令学习 2.3 思维链(Chain of Thought,COT) 2.4 基于人类反馈的强化学习(Reinforcement Learning with Hu-man Feedback,RLHF) 第三章 大模型训练与部署
3.1 大模型并行计算技术 3.2 并行计算框架 3.3 模型部署 3.3.1 预训练模型部署的困难 3.3.2 部署框架和部署工具 3.3.3 部署技术和优化方法 3.4 预训练模型的压缩 3.4.1 模型压缩方案概述 3.4.2 结构化模型压缩策略 3.4.3 非结构化模型压缩策略 3.4.4 模型压缩小结 第四章 ChatGPT相关数据集
4.1 预训练数据集 4.1.1 文本预训练数据集 4.1.2 代码预训练数据集 4.2 人工标注数据规范及相关数据集. 4.2.1 指令微调工作流程及数据集构建方法 4.2.2 常见的指令微调数据集 4.2.3 构建指令微调数据集的关键问题 第五章 大模型评价方法
5.1 模型评价方式 5.1.1人工评价 5.1.2 自动评价 5.2 模型评价指标 5.2.1 准确性 5.2.2 不确定性 5.2.3 攻击性 5.2.4 毒害性 5.2.5 公平性与偏见性 5.2.6 鲁棒性 5.2.7 高效性 5.3 模型评价方法小结 第六章 现有大模型及对话式通用人工智能系统
6.1 现有大模型对比 6.2 对话式通用人工智能系统调研 6.2.1 对话式通用人工智能系统 6.2.2不同系统之间的比较 第七章 自然语言处理的未来发展方向
7.1 提高ChatGPT的能力 7.2 加深对模型的认识 7.3 实际应用 7.4 从语言到AGI的探索之路
GPT-4来了!今日凌晨,万众瞩目的大型多模态模型GPT-4正式发布! OpenAI CEO Sam Altman直接介绍说:
这是我们迄今为止功能最强大的模型!
图灵奖三巨头之一Geoffrey Hinton对此赞叹不已,「毛虫吸取了营养之后,就会化茧为蝶。而人类提取了数十亿个理解的金块,GPT-4,就是人类的蝴蝶。」
OpenAI发文称,GPT-4能接受图像和文本输入,输出文本内容,虽然在许多现实场景中的能力不如人类,但在各种专业和学术基准测试中已做到人类水平的表现。GPT-4 实现了以下几个方面的飞跃式提升:强大的识图能力;文字输入限制提升至 2.5 万字;回答准确性显著提高;能够生成歌词、创意文本,实现风格变化。
它强大到什么程度呢?输入一张手绘草图,GPT-4能直接生成最终设计的网页代码。
它以高分通过各种标准化考试:SAT拿下700分,GRE几乎满分,逻辑能力吊打GPT-3.5。
GPT-4在高级推理能力上超越ChatGPT。在律师模拟考试中,ChatGPT背后的GPT-3.5排名在倒数10%左右,而GPT-4考到了前10%左右。GPT-4的长度限制提升到32K tokens,即能处理超过25000个单词的文本,并且可以使用长格式内容创建、扩展对话、文档搜索和分析等。OpenAI还贴心地发布了GPT-4开发者视频,手把手教你生成代码、检查错误信息、报税等。在视频中,OpenAI联合创始人兼总裁Greg Brockman说了句有点扎心的话:“它并不完美,但你也一样。”OpenAI正通过ChatGPT和API发布GPT-4的文本输入功能,图像输入功能暂未开放。ChatGPT plus订阅者可直接获得有使用上限的GPT-4的试用权,4小时内最多只能发布100条信息。开发者也可以申请GPT-4 API,进入候补名单等待通过。
**申请直通门:**http://t.cn/A6ClOHn7随着时间的推移,OpenAI会将其自动更新为推荐的稳定模型(你可以通过调用gpt-4-0314来锁定当前版本,OpenAI将支持到6月14日)。定价是每1k prompt tokens 0.03美元,每1k completion tokens 0.06美元。默认速率限制是每分钟40k tokens和每分钟200个请求。gpt-4的上下文长度为8192个tokens。还提供对32768个上下文(约50页文本)版本gpt-4-32k的有限访问,该版本也将随着时间的推移自动更新(当前版本gpt-4-32k-0314,也将支持到6月14日)。价格是每1k prompt tokens 0.06美元,每1K completion tokens 0.12美元。此外,OpenAI还开源了用于自动评估AI模型性能的框架OpenAI Evals,以便开发者更好的评测模型的优缺点,从而指导团队进一步改进模型。开源地址:github.com/openai/evalsGPT-4 技术报告
本文报告了GPT-4的发展,这是一个大规模的多模态模型,可以接受图像和文本输入并产生文本输出。虽然在许多现实世界的场景中,GPT-4的能力不如人类,但它在各种专业和学术基准上表现出了人类水平的表现,包括通过了模拟的律师考试,其分数约为考生的前10%。GPT-4是一个基于transformer的模型,预训练用于预测文档中的下一个token。训练后的校准过程会提高对事实的衡量和对期望行为的坚持程度。该项目的一个核心组件是开发基础设施和优化方法,这些方法可以在广泛的范围内预测性能。这使我们能够基于不超过GPT-4计算量的1/ 1000的训练模型准确地预测GPT-4性能的某些方面。本技术报告介绍了GPT-4,一个能够处理图像和文本输入并产生文本输出的大型多模态模型。此类模型是一个重要的研究领域,具有广泛的应用前景,如对话系统、文本摘要和机器翻译。因此,近年来,它们一直是人们感兴趣和取得进展的主题[1-28]。开发这样的模型的主要目标之一是提高它们理解和生成自然语言文本的能力,特别是在更复杂和微妙的情况下。为了测试它在这种情况下的能力,在最初为人类设计的各种考试中对GPT-4进行了评估。在这些评估中,它表现得相当好,经常超过绝大多数人类考生。例如,在模拟的律师考试中,GPT-4的分数落在了考生的前10%。这与GPT-3.5形成对比,GPT-3.5得分在最后10%。在一套传统的NLP基准测试中,GPT-4的表现优于之前的大型语言模型和大多数最先进的系统(这些系统通常有基准特定的训练或手工工程)。在MMLU基准29,30上,GPT-4不仅在英语方面以相当大的优势超过现有模型,而且在其他语言方面也表现出强大的性能。在MMLU的翻译变体上,GPT-4在考虑的26种语言中的24种超过了英语的最先进水平。我们将在后面的章节中更详细地讨论这些模型能力结果,以及模型安全性的改进和结果。本报告还讨论了该项目的一个关键挑战,即开发在大范围内表现可预测的深度学习基础设施和优化方法。这使我们能够对GPT-4的预期性能做出预测(基于以类似方式训练的小测试),并在最后的测试中进行测试,以增加我们对训练的信心。尽管GPT-4功能强大,但它与早期的GPT模型有相似的局限性[1,31,32]:它不完全可靠(例如,可能会出现“幻觉”),上下文窗口有限,并且不能从经验中学习。在使用GPT-4输出时应小心,特别是在可靠性很重要的情况下。GPT-4的能力和局限性带来了重大而新颖的安全挑战,我们认为,考虑到潜在的社会影响,仔细研究这些挑战是一个重要的研究领域。本报告包括一个广泛的系统卡(在附录之后),描述了我们预计的关于偏见、虚假信息、过度依赖、隐私、网络安全、扩散等方面的一些风险。它还描述了我们为减轻GPT-4部署带来的潜在危害而采取的干预措施,包括与领域专家进行对抗性测试,以及一个模型辅助的安全通道。本报告重点介绍了GPT-4的功能、局限性和安全性。GPT-4是[33]预训练的transformer风格的模型,可以使用公开可用的数据(如互联网数据)和第三方提供商授权的数据来预测文档中的下一个Token。然后使用来自人类反馈的强化学习(RLHF)[34]对模型进行微调。考虑到大型模型(如GPT-4)的安全影响,本报告没有包含有关架构(包括模型大小)、硬件、训练计算、数据集构造、训练方法或类似内容的进一步细节。我们致力于对我们的技术进行独立审计,并在这个版本附带的系统卡中分享了这一领域的一些初始步骤和想法我们计划向更多的第三方提供进一步的技术细节,他们可以就如何权衡上述竞争和安全考虑与进一步透明的科学价值提供建议
本书全面、深入地探讨了人工智能(AI)领域的理论和实践,以统一的风格将当今流行的人工智能思想和术语融合到引起广泛关注的应用中,真正做到理论和实践相结合。全书分7个部分,共28章,理论部分介绍了人工智能研究的主要理论和方法并追溯了两千多年前的相关思想,内容主要包括逻辑、概率和连续数学,感知、推理、学习和行动,公平、信任、社会公益和安全;实践部分完美地践行了“现代”理念,实际应用选择当下热度较高的微电子设备、机器人行星探测器、拥有几十亿用户的在线服务、AlphaZero、人形机器人、自动驾驶、人工智能辅助医疗等。本书适合作为高等院校人工智能相关专业本科生和研究生的教材,也可以作为相关领域专业人员的参考书。智能体(intelligent agent)的概念是贯穿整本书的主题思想。我们将人工智能定义为对从 环境中接收感知并执行动作的智能体的研究。每个这样的智能体都要实现一个将感知序列映射 为动作的函数,我们介绍了表示这些函数的不同方法,如反应型智能体、实时规划器、决策论 系统和深度学习系统。我们强调,学习既是构造良好系统的方法,也是将设计者的影响范围扩 展到未知环境的方法。我们没有把机器人学和视觉看作独立定义的问题,而是将其看作实现目 标的服务。我们强调任务环境在确定合适的智能体设计中的重要性。我们的主要目标是传达在过去 70 多年的人工智能研究和过去 2000 多年的相关工作中涌现 出现的思想。在表达这些思想时,我们在保持准确性的前提下尽量避免过于拘泥于形式。书中提供了数学公式和伪代码算法,让关键思想具体化;附录 A 中给出了数学概念和符号,附录 B 中给出了伪代码。本书主要用作本科人工智能课程或课程序列的教科书。本书共 28 章,每章大约需要一周 的课程量,因此完成整本书的教学需要两学期的时间。如果课程只有一学期,可以按教师和学 生的兴趣选择部分章节进行教学。本书也可用于研究生课程(可能需要增加参考文献中建议的 一些主要资料)或用于自学或作为参考书。在整本书中,定义了新术语的地方,都会以蓝色粗体显示。该术语的后续重要用法也以粗 体显示。本书还提供了简要的索引。阅读本书唯一的先修要求是对计算机科学基本概念(算法、数据结构、复杂性)的熟悉程 序达到大学二年级的水平。大学一年级的微积分和线性代数知识对一些主题的阅读很有帮助。
自ChatGPT推出以来,国内学术界和科技企业相继宣布或将推出类似机器人对话模型,有望推动大模型发展。2月7日,百度官宣“文心一言”。2月20日,复旦大学发布了类ChatGPT模型“MOSS”,并面向大众公开邀请内测,国产大模型有望迎来爆发式增长。 需求和政策两方面,合力推动AI产业增长。国内应用层面的需求推动AI产业的加速发展。根据IDC数据预测,2021年中国人工智能软件及应用市场规模为51亿美元,预计2026年将会达到211亿美元。数据、算法、算力是AI发展的驱动力,其中数据是AI发展的基石,中国数据规模增速有望排名全球第一。政策方面,“十四五”规划中提到“瞄准人工智能”,“聚焦人工智能关键算法”,加快推进“基础算法”的“突破与迭代应用”;北京、上海、广州等城市发布相关规划。 头部企业采取“模型+工具平台+生态”三层共建模式,有助于业务的良性循环,也更容易借助长期积累形成竞争壁垒。大模型厂商主要包括百度(文心大模型)、腾讯(HunYuan大模型)、阿里(通义大模型)、商汤、华为(盘古大模型)等企业,也有智源研究院、中科院自动化所等研究机构,同时英伟达等芯片厂商也纷纷入局。大模型增强了AI技术的通用性,助力普惠AI的实现。未来,大模型有望于场景深度融合,配合专业工具和平台支持应用落地,开放的生态来激发创新,形成良性循环。 技术发展有望促进生产效率提升,并进一步创造新的消费和需求,有利于文娱内容和互联网行业。在AIGC和ChatGPT方面,我们建议持续关注技术发展和应用情况,把握技术催化和商业化落地带来的投资机会:1)具备AIGC和ChatGPT的技术探索和应用的公司:百度集团-SW、商汤-W、万兴科技、拓尔思等;2)具有海量内容素材且具有AIGC探索布局的,图片/文字/音乐/视频内容及平台公司腾讯控股,阅文集团、美图公司、昆仑万维、汤姆猫、神州泰岳、视觉中国、中文在线、汉仪股份、天娱数科、风语筑等。
本书揭示了人类决策的局限性,探讨了如何使用人工智能(AI)来优化决策,以提高业务结果和效率,以及展望了决策智能(DI)可以对社会做出的重大贡献和它可能提出的道德挑战。 https://www.routledge.com/Decision-Intelligence-Human-Machine-Integration-for-Decision-Making-Human-Machine/OCallaghan/p/book/9781032384108 从用于设计自主智能代理的理论和概念,到支持DI系统的技术,以及公司使用决策构建模块构建DI解决方案的方式,使企业能够使AI民主化,本书提出了一个令人印象深刻的框架,以整合人工智能和人类智能,以实现不同类型的商业决策的成功。 本书充满了DI应用的案例研究,以及对该技术的社会影响的更广泛的讨论,《决策智能:用于决策的人机集成》吸引了人工智能和数据科学的学生以及考虑采用DI的企业。 想象一下,你正在做人生中最重要的决定之一,需要对信息进行彻底的分析。不幸的是,你没有时间收集所有数据并进行深入研究。相反,你可以根据朋友的建议在手机上安装一个价格合理的应用程序。该应用程序允许你用自然语言提出问题,并使用高度复杂的人工智能模型,根据对大量数据的分析提供快速答案。当你问一个问题时,该应用程序确定哪些数据最相关,收集数据,选择合适的模型和分析类型,执行分析,做出预测,评估结果,最后以简要报告、可操作的见解和建议的形式为你提供答案。你现在可以利用大数据和人工智能的力量,以最有效的方式做出最优的决策,而不是仅仅基于直觉做出重要的决策。这听起来像是科幻小说的情节,但事实并非如此。帮助我们更好更快地做出决定的前沿技术系统今天正在成为现实——这一新兴学科被称为决策智能(DI)。在很大程度上,DI是人工智能的应用,以提高决策的质量和准确性,同时使决策过程更有效。本书的目的是帮助读者了解DI这一新兴学科。他们将探讨与个人和组织决策有关的各种概念,包括人类和机器智能体如何做决策,在构建依赖注入系统时使用了什么技术、工具和技术,如何为采用依赖注入做好组织准备,以及如何利用依赖注入做出道德上最优的决策。本书基于对多个领域的数百份研究和文献的分析,其中包括决策科学、行为科学、管理决策、博弈论、系统思维、决策支持系统、决策建模、商业智能、行为经济学、人工智能和机器学习等。
当前的生成式人工智能浪潮是人工智能的一个子集,它基于文本提示生成新颖的内容。ChatGPT可以写一篇文章,Midjourney可以创作漂亮的插图,或者MusicLM可以创作一首广告歌。大多数现代生成式AI都是由基础模型驱动的,或使用大规模自监督在广泛数据上训练的AI模型,然后适应广泛的下游任务。这些模式为我们的生活、我们的社区和我们的社会带来了巨大的机遇,也带来了巨大的风险。一方面,它们可以无缝地补充人类的劳动,使我们更有生产力和创造力,另一方面,它们可能会放大我们已经经历的偏见或破坏我们对信息的信任。我们相信,跨学科合作对于确保这些技术惠及我们所有人至关重要。以下是斯坦福大学医学、科学、工程、人文和社会科学领域的领导人对生成式人工智能如何影响他们的领域和我们的世界的观点。一些人研究技术对社会的影响,另一些人研究如何最好地应用这些技术来推进他们的领域,还有一些人开发了基础模型下的算法的技术原理。
3月15日 OpenAI发布多模态大模型GPT-4,其不仅在语言处理能力上提高,还具备对图像的理解和分析能力。GPT-4商业化进程加快,开放API的同时还发布了在6个不同商业场景的应用落地。随后微软发布了震撼的微软365 Copilot,极大提升office的生产力和交互方式。此前,ChatGPT就已经展示了强大的能力,在文字创造、人机交互、教育、影音、零售等多场景落地应用。我们认为,多模态大模型已在多领域具有专家能力,未来将深度赋能千行百业,改变生产生活方式。 **1. 2023年3月15日,OpenAI目前最强大的多模态预训练大模型GPT-4正式发布。**其能够处理文本、图像两种模态的输入信息,单次处理文本量是ChatGPT的8倍,GPT-4的表现大大优于目前最好的语言模型,同时在学术考试中的水平远超GPT3.5。这意味着GPT-4不仅在学术层面上实现了模型优化与突破,同时也展现出了成为部分领域专家的能力。
**2. GPT-4商业化进程加快。**GPT-4在发布时便开放了其纯文本输入的API,这与GPT-3和GPT-3.5的滞后开放不同。同时,GPT-4这次一起推出了6个商业场景的具体应用落地,在优化人机交互体验、提供专业服务、提升组织效能、文化传承与保护等方面都展现了巨大的潜能,未来有望看到更多场景中的商业化拓展与落地。 **3. ChatGPT已经刮起GPT生态狂潮。**2023年3月1号,OpenAI基于GPT 3.5 Turbo模型开放了ChatGPT API。API收费模式为0.002美元/1000tokens。相较于前一代开放接口GPT 3.5,性能更强的同时,价格下降90%,加速ChatGPT相关应用生态的发展。 **4.应用百花齐放,创造新的生产方式。**微软先后在搜索引擎Bing、企业服务平台Dynamic 365及开发者工具平台Power Platform等接入 ChatGPT/GPT-4能力。微软还发布了震撼的Microsoft 365 Copilot,极大提升office的生产力和交互方式。与此同时,在越来越多的企业宣布接入ChatGPT的能力,其中不乏一些已经取得优秀商业化的应用。如Jasper、Quizlet、Shop等,在语言文字创造、人机交互、教育、绘画、影音、零售等多场景落地应用。 5. 我们认为以GPT4/ChatGPT为代表的预训练大模型是这一轮AI浪潮的重要革新,重点推荐关注海内外优秀应用落地情况,AI芯片产业链等投资机遇。
**GPT技术发展不及预期:**GPT属于先进AI算法,若后续GPT算法更新迭代效果不及预期,则会影响GPT演进及拓展,进而会影响其商业化落地等; **算法歧视与人权道德风险:**GPT引入基于人工反馈的强化学习,在人工反馈中,不可避免的会参杂歧视问题,从而会将歧视带入后续的人机交互中;大模型在进行预训练过程中,使用了大量数据,其中会涉及相关隐私问题; **数据数量与数据质量不及预期:**大模型需要大量的高质量数据进行训练,若数据数量和质量存在短板,则会影响模型效果。 **GPT接口开放不明确:**目前GPT是否能对国内开放API还不明朗,若未来无法接入,可能将导致相关应用在国内无法落地。 **算力受限:**目前大模型训练以GPU为主,尤其是英伟达的GPU。未来若GPU产能或者中美摩擦升级,可能导致国内厂商的算力布局。
提示工程是一门相对较新的学科,用于开发和优化提示,以有效地将语言模型(LM)用于各种应用和研究主题。提示工程技能有助于更好地理解大型语言模型(LLM)的能力和局限性。 **研究人员使用prompt engineering来提高LLM在广泛的常见和复杂任务上的能力,如问答和算术推理。**开发人员使用提示工程来设计与LLM和其他工具交互的健壮和有效的提示技术。 提示工程不仅仅是设计和开发提示。它包含了对与LLM交互和开发有用的广泛技能和技术。这是接口、构建和理解llm功能的一项重要技能。您可以使用prompt engineering来提高llm的安全性并构建新的功能,例如用领域知识和外部工具增强LLM。 由于对与LLM一起开发的高度兴趣,我们创建了这个新的prompt工程指南,其中包含所有最新的论文、学习指南、模型、讲座、参考资料、新的LLM功能和与prompt工程相关的工具。 视频:
地址:https://github.com/dair-ai/Prompt-Engineering-Guide
1. 引言
提示工程是一门相对较新的学科,用于开发和优化提示,以有效地将语言模型(LM)用于各种应用和研究主题。提示工程技能有助于更好地理解大型语言模型(LLM)的能力和局限性。研究人员使用prompt engineering来提高LLM在广泛的常见和复杂任务上的能力,如问答和算术推理。开发人员使用提示工程来设计与LLM和其他工具交互的鲁棒和有效的提示技术。 本指南涵盖了提示的基础知识,对如何使用提示来交互和指示大型语言模型(LLM)提供了一个粗略的想法。 LLM设置
在处理提示时,您将通过API或直接与LLM交互。您可以配置一些参数以获得不同的提示结果。 Temperature ——简而言之,Temperature 越低,结果越确定,因为总是选择可能性最高的下一个token。升高的Temperature可能导致更多的随机性,鼓励更多多样化或创造性的输出。我们实际上是在增加其他可能token的权重。在应用方面,我们可能希望对基于事实的QA等任务使用较低的Temperature,以鼓励更事实和更简洁的回答。对于诗歌生成或其他创造性任务,提高Temperature可能是有益的。 Top_p -类似地,使用Top_p(一种称为核采样的Temperature采样技术),您可以控制模型生成响应的确定性程度。如果你正在寻找准确和事实的答案,请保持这个数字较低。如果您正在寻找更多样化的响应,请增加到更高的值。 一般的建议是改变其中一个,而不是两个都改变。 在开始使用一些基本示例之前,请记住,您的结果可能会因您使用的LLM版本而有所不同。 提示的基础知识
提示的元素 随着我们介绍提示工程可能提供的越来越多的示例和应用程序,您将注意到有一些组成提示的元素。 提示(prompt)可以包含以下任何一个组件。 * 指令(Instruction):希望模型执行的特定任务或指令 * 上下文 context ——可以包含外部信息或额外的上下文,这些信息可以引导模型做出更好的响应 * 输入数据——是我们感兴趣的输入或问题 * 输出指示器 Indicator :表示输出的类型或格式。
提示并不需要所有组件,其格式取决于当前的任务。我们将在接下来的指南中接触到更多具体的例子。 设计提示的一般技巧
提示示例
在前一节中,我们介绍并给出了如何提示LLMs的基本示例。 在本节中,我们将提供更多示例,说明如何使用提示来实现不同的任务,并介绍其中的关键概念。通常,学习概念的最好方法是通过示例。下面我们将介绍几个示例,说明如何使用精心设计的提示来执行不同类型的任务。 主题: * 文本摘要 * 信息提取 * 问题回答 * 文本分类 * 谈话 * 代码生成 * 推理
2. 提示技术
在这一点上,很明显,改进提示有助于在不同的任务上获得更好的结果。这就是prompt engineering背后的全部思想。 虽然基本的例子很有趣,但在本节中,我们将介绍更高级的提示工程技术,使我们能够实现更复杂和有趣的任务。 * **Zero-shot Prompting **
**Few-shot Prompting **
**Chain-of-Thought Prompting **
**Self-Consistency **
**Generate Knowledge Prompting **
**Automatic Prompt Engineer **
**Active-Prompt **
**Directional Stimulus Prompting **
**ReAct **
**Multimodal CoT **
Graph Prompting
3. 提示应用
Program-Aided Language Models * Generating Data
4. 模型
ChatGPT
在本节中,我们将介绍ChatGPT的最新提示工程技术,包括提示、应用、限制、论文和额外的阅读材料。 主题:
ChatGPT介绍 * 回顾对话任务与ChatGPT的对话 * Python的笔记本 ChatGPT是OpenAI训练的一种可以进行对话交互的新模型。该模型被训练成遵循提示中的指示,在对话的上下文中提供适当的响应。ChatGPT可以帮助回答问题、建议食谱、以某种风格写歌词、生成代码等等。
ChatGPT使用来自人类反馈的强化学习(RLHF)进行训练。虽然这个模型比之前的GPT迭代更有能力(也经过训练以减少有害和不真实的输出),但它仍然有局限性。让我们通过具体的例子来介绍一些功能和限制。 你可以在这里使用ChatGPT的研究预览,但对于下面的示例,我们将使用OpenAI Playground上的聊天模式。 * GPT-4 在本节中,我们将介绍GPT-4最新的prompt工程技术,包括提示、应用、限制和其他阅读材料。
GPT-4介绍 最近,OpenAI发布了GPT-4,这是一个大型多模态模型,可以接受图像和文本输入并发出文本输出。它在各种专业和学术基准上实现了人类水平的表现。 书册:
**
**
课件:
最近,ChatGPT与DALL-E-2[1]和Codex[2]一起受到了社会的广泛关注。因此,许多人对相关资源感兴趣,并试图揭开其令人印象深刻的性能背后的背景和秘密。**事实上,ChatGPT和其他生成式AI (GAI)技术属于人工智能生成内容(AIGC)的范畴,它涉及通过AI模型创建数字内容,如图像、音乐和自然语言。AIGC的目标是使内容创建过程更加高效和可访问,允许以更快的速度生产高质量的内容。**AIGC是通过从人类提供的指令中提取和理解意图信息,并根据其知识和意图信息生成内容来实现的。近年来,大规模模型在AIGC中变得越来越重要,因为它们提供了更好的意图提取,从而改善了生成结果。随着数据和模型规模的增长,模型可以学习的分布变得更加全面和接近现实,从而产生更加真实和高质量的内容。**本文全面回顾了生成模型的历史,基本组件,以及AIGC的最新进展,从单模态交互和多模态交互。**从单模态的角度,介绍了文本和图像的生成任务和相关模型。从多模态的角度出发,介绍上述模态之间的交叉应用。最后讨论了AIGC存在的开放问题和未来的挑战。
1. 引言
近年来,人工智能生成内容(Artificial Intelligence Generated Content, AIGC)受到了计算机科学界以外的广泛关注,全社会开始关注大型科技公司[3]构建的各种内容生成产品,如ChatGPT[4]和DALL-E2[5]。AIGC指的是使用高级生成AI (GAI)技术生成的内容,而不是由人类作者创建的内容,AIGC可以在短时间内自动创建大量内容。例如,ChatGPT是OpenAI开发的用于构建对话式人工智能系统的语言模型,可以有效地理解并以有意义的方式响应人类的语言输入。此外,DALL-E-2是另一个最先进的GAI模型,也是由OpenAI开发的,它能够在几分钟内从文本描述中创建独特的高质量图像,如图1所示的“一个宇航员以逼真的风格骑马”。随着AIGC的卓越成就,许多人认为这将是人工智能的新时代,并将对整个世界产生重大影响。
**从技术上讲,AIGC是指给定人工指令,可以帮助教学和指导模型完成任务,利用GAI算法生成满足指令的内容。**该生成过程通常包括两个步骤:从人工指令中提取意图信息和根据提取的意图生成内容。然而,如之前的研究[6,7]所示,包含上述两个步骤的GAI模型的范式并不完全新颖。与之前的工作相比,最近的AIGC的核心进展是在更大的数据集上训练更复杂的生成模型,使用更大的基础模型架构,并能够访问广泛的计算资源。例如,GPT-3的主框架保持与GPT-2相同,但预训练数据大小从WebText 8增长到CommonCrawl9,基础模型大小从1.5B增长到175B。因此,在人类意图提取等任务上,GPT-3比GPT-2具有更好的泛化能力。
除了数据量和计算能力增加带来的好处,研究人员还在探索将新技术与GAI算法集成的方法。例如,ChatGPT利用来自人类反馈的强化学习(RLHF)[10-12]来确定给定指令的最适当响应,从而随着时间的推移提高模型的可靠性和准确性。这种方法使ChatGPT能够更好地理解人类在长对话中的偏好。同时,在计算机视觉领域,由Stability提出了稳定扩散[13]。AI在2022年也在图像生成方面取得了巨大成功。与之前的方法不同,生成扩散模型可以通过控制探索和利用之间的权衡来帮助生成高分辨率图像,从而将生成图像的多样性和与训练数据的相似性和谐地结合起来。
结合这些进展,模型在AIGC任务上取得了显著进展,并被应用于各个行业,包括艺术[14]、广告[15]、教育[16]等。在不久的将来,AIGC将继续成为机器学习的一个重要研究领域。因此,对过去的研究进行广泛的调研并确定该领域的开放问题至关重要。对AIGC领域的核心技术和应用进行了综述。 **这是对AIGC的首次全面综述,从技术和应用两个方面对GAI进行了总结。之前的研究从不同的角度关注GAI,包括自然语言生成[17],图像生成[18],多模态机器学习中的生成[7,19]。**然而,之前的工作只关注AIGC的特定部分。本文首先回顾了AIGC中常用的基础技术。进一步对先进的GAI算法进行了全面的总结,包括单峰生成和多峰生成,如图2所示。此外,还讨论了AIGC的应用和潜在挑战。最后指出了该领域存在的问题和未来的研究方向。
综上所述,本文的主要贡献如下:
据我们所知,我们是第一个为AIGC和AI增强生成过程提供正式定义和彻底调研的人。
回顾了AIGC的历史和基础技术,并从单模态生成和多模态生成的角度对GAI任务和模型的最新进展进行了全面分析。
讨论了AIGC面临的主要挑战以及AIGC未来的研究趋势。
调研的其余部分组织如下。第二节主要从视觉模态和语言模态两个方面回顾了AIGC的历史。第3节介绍了目前在GAI模型训练中广泛使用的基本组件。第4节总结了GAI模型的最新进展,其中第4.1节从单模态角度回顾了进展,第4.2节从多模态生成的角度回顾了进展。在多模态生成中,介绍了视觉语言模型、文本音频模型、文本图模型和文本代码模型。第5节和第6节介绍了GAI模型在AIGC中的应用以及与该领域相关的一些重要研究。第7、8节揭示了AIGC技术存在的风险、存在的问题和未来的发展方向。最后,我们在9中总结了我们的研究。2. 生成式人工智能的历史生成模型在人工智能领域有着悠久的历史,可以追溯到20世纪50年代,隐马尔可夫模型(HMM)[20]和高斯混合模型(GMMs)[21]的发展。这些模型生成了语音和时间序列等顺序数据。然而,直到深度学习的出现,生成模型才在性能上看到了显著的改进。
在早期的深度生成模型中,不同的领域通常没有太多的重叠。在自然语言处理(NLP)中,传统的生成句子的方法是使用N-gram语言建模[22]学习单词分布,然后搜索最佳序列。然而,该方法不能有效地适应长句子。为了解决这个问题,循环神经网络(RNN)[23]后来被引入到语言建模任务中,允许对相对较长的依赖关系进行建模。随后,长短期记忆(LSTM)[24]和门控循环单元(GRU)[25]的发育,它们利用门控机制在训练过程中控制记忆。这些方法能够处理样本[26]中的约200个标记,与N-gram语言模型相比,这是一个显著的改进。 同时,在计算机视觉(CV)领域,在基于深度学习的方法出现之前,传统的图像生成算法使用纹理合成[27]和纹理映射[28]等技术。这些算法基于手工设计的特征,在生成复杂多样的图像方面能力有限。2014年,生成对抗网络(Generative Adversarial Networks, GANs)[29]被首次提出,在各种应用中取得了令人印象深刻的结果,是该领域的一个重要里程碑。变分自动编码器(vae)[30]和其他方法,如扩散生成模型[31],也已开发用于对图像生成过程进行更细粒度的控制和生成高质量图像的能力
生成模型在不同领域的发展遵循不同的路径,但最终出现了交叉的问题:transformer架构[32]。Vaswani等人在2017年引入了NLP任务,Transformer后来被应用于CV中,然后成为不同领域许多生成模型的主要骨干[9,33,34]。在NLP领域,许多著名的大型语言模型,如BERT和GPT,采用transformer架构作为其主要的构建块,比之前的构建块(如LSTM和GRU)具有优势。在CV中,Vision Transformer (ViT)[35]和Swin Transformer[36]后来通过将Transformer架构与视觉组件相结合,进一步发展了这一概念,使其可以应用于基于图像的下游。除了transformer给单个模态带来的改进之外,这种交叉还使来自不同领域的模型能够融合在一起,以完成多模态任务。多模态模型的一个例子是CLIP[37]。CLIP是一种视觉-语言联合模型,将transformer架构与视觉组件相结合,允许它在大量文本和图像数据上进行训练。由于它在预训练时结合了视觉和语言知识,因此也可以作为多模态提示生成中的图像编码器。总而言之,基于transformer的模型的出现彻底改变了人工智能的产生,并导致了大规模训练的可能性。
近年来,研究人员也开始引入基于这些模型的新技术。例如,在NLP中,人们有时喜欢少样本提示[38],而不是微调,这是指在提示中包括从数据集中选择的一些示例,以帮助模型更好地理解任务需求。在视觉语言中,研究人员经常将特定模态模型与自监督对比学习目标相结合,以提供更鲁棒的表示。在未来,随着AIGC越来越重要,会有越来越多的技术被引入,让这个领域充满活力。
3. 生成式人工智能
我们将介绍最先进的单模态生成模型。这些模型被设计为接受特定的原始数据模态作为输入,例如文本或图像,然后以与输入相同的模态生成预测。我们将讨论这些模型中使用的一些最有前途的方法和技术,包括生成语言模型,如GPT3[9]、BART[34]、T5[56]和生成视觉模型,如GAN[29]、VAE[30]和归一化流[57]。
多模态模型
多模态生成是当今AIGC的重要组成部分。多模态生成的目标是通过学习数据[7]的多模态连接和交互来学习生成原始模态的模型。模态之间的这种连接和相互作用有时是非常复杂的,这使得多模态表示空间与单模态表示空间相比很难学习。然而,随着前面提到的强大的特定于模式的基础架构的出现,越来越多的方法被提出来应对这一挑战。在本节中,我们将介绍视觉语言生成、文本音频生成、文本图形生成和文本代码生成中的最先进的多模态模型。由于大多数多模态生成模型总是与实际应用高度相关,本节主要从下游任务的角度进行介绍。
4. 应用
5. 效率
在过去的十年中,具有神经网络的深度生成式人工智能模型一直主导着机器学习领域,其崛起归功于2012年的ImageNet竞赛[210],这导致了一场创建更深入和更复杂模型的竞赛。这种趋势也出现在自然语言理解领域,像BERT和GPT-3这样的模型已经开发出了大量参数。然而,不断增加的模型占用空间和复杂性,以及训练和部署所需的成本和资源,给现实世界中的实际部署带来了挑战。核心挑战是效率,可以分解如下:
推理效率: 这与部署用于推理的模型的实际考虑有关,即为给定的输入计算模型的输出。推理效率主要与推理期间模型的大小、速度和资源消耗(例如,磁盘和RAM使用)有关。 * 训练效率: 这涵盖了影响训练模型的速度和资源需求的因素,如训练时间、内存占用和跨多个设备的可伸缩性。它还可能包括考虑在给定任务上实现最佳性能所需的数据量。
百度于2023年3月16日召开关于“文心一言”的主题发布会,“文心一言”作为国内首款正式发布的生成式语言大模型,拥有文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成等功能。文心平台依托于百度自研的产业级深度学习平台飞桨(PaddlePaddle)打造,致力于为用户提供一站式AI开发服务: AI大模型与行业大模型:文心平台提供NLP、CV、跨模态、生物计算四大主流AI研究领域的多个基础大模型,多个模型在技术层面实现突破创新,处于世界领先水平。其中,NLP领域的ERNIE3.0Zeus采用自回归网络和自编码网络,能够兼顾自然语言理解和生成功能;CV领域的VIMER-UFO2.0使用超网络结构,推理时仅需激活总参数量的1/30;ERNIE-ViLG2.0引入基于语言和图像的知识增强算法,在文本图像生成任务中的表现已经超越了OpenAI旗下的DALLE-2。文心平台与各行业企业联手打造行业大模型,目前已覆盖能源、金融、航天、制造、传媒、城市、社科、电影等8个领域。目前已有650余家知名企业宣布接入“文心一言”,涵盖企业服务、金融IT、汽车、传媒、教育、家电、金融等10余个行业。 一站式开发平台与开发工具:开发平台方面,文心面向专业知识有限的AI应用开发者提供零门槛平台EasyDL,面向专业开发者提供全功能平台BML。目前这两个平台均仅支持使用百度文心的云端算力,可采用公有云、私有化离线、软硬一体等部署方式。开发工具方面,文心提供ERNIEKit自然语言处理开发工具及PaddleFleetX全流程开发套件。此外,现阶段文心平台还向开发者免费提供大模型API。 产品与社区:百度文心通过构建产品与社区经营,对外展示生成式模型的强大性能,以此吸引爱好者投入创作,进而构筑成熟的AIGC社区,可在实践中探索AI商业化模式。目前除“文心一言”外,文心平台提供产业级搜索系统“文心百中”、艺术创意辅助平台“文心一格”,以及采用众创模式的旸谷社区。 目前百度文心生成式语言大模型在参数规模、技术创新、应用落地方面均在国内同业中处于领先水平。3月16日起,“文心一言”首批用户可通过邀请测试码接入体验,同时百度智能云将面向企业客户开放“文心一言”API调用接口,有望进一步丰富百度AI生态,赋能更多行业伙伴。
2023年2月21日,在国家科技图书文献中心(NSTL)与中国科学院文献情报中心(以下简称文献中心)共同主办的“ChatGPT对科学研究和文献情报工作的影响专题研讨会”上,国家科技图书文献中心、文献中心项目团队汇报发布了《ChatGPT对科学研究和文献情报工作的影响》研究报告。会后,项目组根据研讨会上各专家的观点、意见和建议,进一步修改并完善了报告内容。近日,《ChatGPT对文献情报工作的影响》研究报告(简版)正式发布。 《ChatGPT对文献情报工作的影响》研究报告(简版)由国家科技图书文献中心和文献中心组织撰写,这也是我国文献情报界对ChatGPT现象分析和研究的报告。报告研制任务主要由国家重点研发计划项目“科技文献内容深度挖掘及智能分析关键技术和软件”与国家社会科学基金重大项目“大数据驱动的科技文献语义评价体系研究”的项目组完成。 报告回应了文献情报界对ChatGPT的主要关切,从四个方面探讨了ChatGPT对文献情报工作的影响。一是从ChatGPT的对外表现、实际本质、关键技术、核心技术、主要特点五个方面回答ChatGPT是什么。二是分析了计算机解决问题、学习知识、开发利用知识模式的变化以及给我们带来的启示。三是阐述了ChatGPT作为最新人工智能技术的代表,它对文献情报工作带来的影响。四是提出了文献情报领域需要守正创新,拥抱新技术与新机会的建议。
GPT3 & Beyond:自然语言理解黄金时代的关键概念和开放问题
请听Christopher Potts教授讨论包括GPT-3在内的近期自然语言理解发展的意义和影响。他描述了这些系统的基本构建模块,并描述了我们如何可靠地评估和理解它们。 主题包括: 新的自然语言理解系统的技术能力、限制和应用 GPT-3在不同语言任务上的表现分析 自然语言处理的潜在未来发展
图战斗系列
2019年1月,美陆军部长(SECARMY)要求陆军科学委员会(ASB)研究人工智能(AI)如何改善战场上的战役和战术表现。具体而言,他希望ASB确定陆军在人工智能实施方面的独特挑战,确定陆军的行业最佳实践,并审查对手在战场上对人工智能的潜在使用。
为了进行这项研究,ASB组建了一个研究小组,成员包括建立人工智能系统和指导人员,以及在实验室、学术界、工业界和军方有经验的人员。该团队还得到了负责人工智能实施的陆军人工智能任务组以及陆军研究实验室(ARL)和陆军夜视局高级政府联络员的协助,他们帮助约束该研究并为陆军的人工智能实施提供指导。在收集数据的同时,研究小组还会见了来自政府、工业和学术界各组织的130多名人士。
在工业革命期间,机器开始执行以前需要人类体力劳动的任务。今天,一场认知革命正在发生,机器开始执行以前需要人类认知的任务。例如,我们问智能手机问题,并期望得到合理的答复,我们在网上买东西,并得到类似产品的推荐。
目前还不清楚我们是否了解认知革命的所有影响,但研究小组认为,它将改变战争特征,因为它提高了决策到行动的速度、规模和范围,超过了人类在没有援助的情况下所能完成的大量任务。人工智能是认知革命的核心,在战场上优化使用人工智能将需要陆军采用新的思维方式,包括一个反应灵敏的采购过程。
为了这项研究的目的,研究小组将人工智能定义为计算机系统执行通常需要人类智慧的任务能力。有许多关于人工智能的方法。
美国的对手已经在使用人工智能。俄罗斯和中国定期公布在战场上进行的自动驾驶车辆实验。成功实施人工智能的一个关键是数据标签化。中国和俄罗斯的领导层都宣布人工智能是未来,谁能领导认知革命,谁就能在战场上获胜。除了仅仅使用人工智能,美国的对手希望实现人工智能的优势。
目前的美国防部政策划定了自主和协作,这决定了人工智能如何被用于支持各种作战任务。因此,需要对人工智能采取多种方法,以确保人工智能系统在战场上的最佳应用。无论采用哪种方法、作战使用或政策要求,快速反馈周期将推动对作战任务的评估,并将采用人工智能来告知如何收集和调节数据、如何运行算法以及如何优化人机界面。换句话说,人工智能最终将被用来衡量人工智能在战场上的使用情况。这对军队来说也是颠覆性的。
同时,美国陆军有几种可能的方式在战场上使用人工智能。下一个垂直升降飞机可以与使用综合视觉增强系统(IVAS)的下一代战斗车辆和士兵合作。一旦这些部件被联网,相对于士兵在独立系统中所能做到的,人工智能将提供更高的速度、范围和规模。因此,人工智能将被用于自主机动、辅助目标识别和/或自动目标识别、任务规划等。
人工智能给战场带来的优势伴随着风险和挑战。有效使用有几个潜在的障碍,如缺乏互操作性,数据饥饿,以及被对手利用。这些都是众所周知的。但也有围绕可靠性、信任、道德和可解释性的问题,所有这些都有助于操作者理解人工智能的决策或建议。不是所有的人工智能系统都能做到这一点。
图5 陆军使用人工智能的潜力和挑战
研究小组访问了工业界,以了解商业企业如何利用人工智能,减少风险,并克服固有的挑战。成功应用人工智能的共同主题涉及快速和持续的适应性和改进,可由以下方法促成:
使用常见的人工智能平台
整理数据,特别是通过事实标签
用模拟数据增强真实数据
创建架构和基础设施,支持数据流和竞争所需的高性能计算
开发与技术共同发展的运行概念,例如,特斯拉的软件更新方式是根据人们如何使用车辆来发展和展示新功能的。
知道在哪里应用人工智能来解决价值最高的问题,带来最好的投资回报
获取人工智能技能人才,由于竞争激烈,即使是像亚马逊这样的公司也面临挑战。
竞争也促使行业发展出一套实践,允许快速变化和升级,特别是在软件方面,进入正常生产,同时确保高质量。这种实践--DevOps--结合了开发(Dev)和信息技术运营(Ops),以缩短系统开发的生命周期,并提供持续、高质量的交付(图1)。
企业在实验室中创建、整合和测试人工智能,将其发布给消费者,并部署到现场。当它被使用时,它被监测,并根据该系统的运行和使用情况,制定计划,产生升级。企业重新编码,重新开始循环以提高性能。DevOps循环需要一个底层数据层来迭代AI。与软件升级不同,软件升级可能是按月推送的,而人工智能周期必须是连续的,操作非常迅速,以确保最佳性能。
在收集数据的过程中,研究小组了解到,陆军已经开始组织将人工智能带到战场上。陆军成立了人工智能工作组,并与卡内基梅隆大学(CMU)合作成立了陆军人工智能中心。陆军也已经开始在陆军未来和概念中心、训练和条令司令部(TRADOC)以及其他地方开发人工智能的概念。
也可以说,这些人工智能的工作在很大程度上是不协调的。有许多陆军项目使用人工智能。但陆军成功运作的人工智能不能像在工业界观察到的那样快速发展。往往没有共同的基础设施,所以用于每个系统的计算、网络和数据都是独立的。
与工业界相比,陆军人工智能活动的另一个不足之处是系统分析和建模与仿真(M&S)不足。例如,在x系统中加入人工智能将使任务的有效性提高y量;它将改变杀伤率,或完成任务的时间,或任务成功的概率,等等。就研究小组所能确定的而言,那些能够显示人工智能可能带来什么价值的A-B测试还没有做。
陆军面临的一个潜在挑战是目前美国防部的采购环境,这使得复制工业界的快速开发周期变得极为困难。陆军要购买一个可以像谷歌和其他公司那样每天进行更新的系统是非常困难的。
陆军可以自行解决的另一个挑战是缺乏获得、管理和使用其人工智能能力所需的足够人才。陆军有与增长和保留STEM资格人员有关的人才管理问题,而人工智能从业者在这一领域中所占的比例更小。有一些专家,但陆军并没有很多。
随着陆军继续组织将人工智能带入战场,相当明确的是,最佳应用将出现在哪里(图2)。有几十种情况下,人工智能会增强陆军的作战功能,以包括一些人类参与可能有限的任务。
图2 AI在战场上的潜在应用
这些赋能器中的大多数已经在开发中,它们很少从头开始。战场上的使能因素往往可以建立在商业技术之上。
根据人工智能任务组的报告,目前的陆军人工智能生态系统以CMU的人工智能中心为中心(图3)。它与各利益相关者保持着联系,包括实验室和材料开发商、陆军训练中心和作战社区。通过人工智能任务组,该中心还与美国防部的联合人工智能中心进行协调。
图3 当前陆军AI生态系统
美陆军人工智能生态系统专注于开发和实战原型;从定义下一代系统的人工智能要求,到为传统平台开发人工智能解决方案。这种在战场上的人工智能整合将迫使陆军以新的方式运作。除了解决商业从业者确定的挑战和减轻潜在对手的攻击,陆军必须解决地方性的挑战,包括以下能力:
确定人工智能投资的优先次序,以获得最大的战场影响
构建一个SoS框架,利用独立开发的、异质的、支持人工智能的平台
通过繁忙的操作网络调动数据、模型、算法和反馈
测试不断发展的系统,并验证其对敌方攻击的复原力
图17 SoS企业架构集成
虽然商业从业者可能拥有他们的整个人工智能企业,但军队不会。陆军将从国防工业基地内的不同来源购买技术,它将不得不使它们一起工作。一旦完成这项任务,数据、模型、算法和反馈都必须在一个繁忙的操作网络上移动。陆军将不会有使用工业界所享有的那种基础设施的好处。
陆军还需要采用类似于DevOps周期的方法,以支持持续改进的方式将原型转化为记录项目(POR)。这将需要有能力(对陆军来说是新的)测试不断发展的系统并验证对攻击的适应性。陆军将不得不改变其运作方式,以采用DevOps循环。
根据其数据收集、分析和发现,研究小组在六个类别中提出了建议(图4)。
人工智能将通过提高决策的速度、规模和范围来改变战争的特征,而这是人类所能实现的。如果陆军对采用MDO是认真的,它就需要认真地采用协作性人工智能。
人工智能对陆军和其对手都将是颠覆性的,因为:
美国陆军将需要开发一个人才管道,使其成为人工智能能力的聪明买家和聪明用户。
有说服力的动机:美国的对手已经在做这些事情了。
**为什么 ChatGPT 如此重要?AI C 端产品中的第一个爆款,可能代表着商业 化的拐点。**1)从用户体验上,比起竞品和上一代产品,ChatGPT 的连续对话 能力明显更强,具备了大范围商业化的潜力。2)从应用场景的潜力上,语义 文本类产品想象空间较图片类更大。短期看有望落地的包括更专业的客服机器 人、更垂直更专业化的 AI(如医疗教育领域)、新一代的智能搜索等。3)ChatGPT 的出现或将加快巨头对于 AI 的发展速度。ChatGPT 的成功或将促进各科技巨 头加大对于 AI 的研发投入,如谷歌近日宣布投资 OpenAI 的竞争对手 Anthropic。大厂的竞争有助于技术的进步和商业化的加速。
为什么是 ChatGPT?比起竞品和上一代产品,ChatGPT 在多方面有了明显改 善。1)道德性的增强,敢于质疑提问者提问前提的正确性和正当性。避免出 现偏见、歧视等毒害信息。2)主动承认错误或主动承认无法回答某一问题。3) 可以理解整段对话上下文的语义,而不是孤立的回答其中一个问题。4)对提 问者意图判断能力大幅提升,并非单纯根据相关性进行答案罗列。因此整体上, ChatGPT 有着比其他 AI 机器人更好的用户体验,具备了真正意义上的连续对 话的能力。
** 如何落地?**短期看是降本增效的新生产力工具,长期看可能带来新的内容生 产范式。ChatGPT 的成功证明了生成式模型的进化,实现通用人工智能 AGI 的可能性进一步提高。其重要性体现在 AI 对人类传达信息的载体有了更好 的学习,在此基础上各个媒介之间的互通成为可能。例如从自然语言生成编程 语言,可以产生新的人机交互方式;从自然语言生成图片和视频,可以革新内 容行业的生产范式。短期直接落地的场景可能是在文本端,提高人的效率:搜 索、营销文案、客服、辅助写作;更长期的可能在于提高人机互动的智能, 如在游戏、虚拟人方面的应用。
随着信息技术的发展以及军队信息化水平的不断提高,复杂多变的战场形势对军队的海量数据处理能力提出了巨大挑战。本文介绍了知识图谱在军事领域构建的相关技术框架,总结了知识图谱在军事领域应用的不同方面,并针对知识图谱在军事领域的应用现状,揭示了其改进方向。
知识图谱的构建有两种方式,即自上而下和自下而上的方法。自上而下的方法通常从定义知识图谱的数据模式开始,从最顶层的概念开始构建,逐步向下细化,形成结构良好的分类层次,然后将实体加入到概念中。自下而上的方法将实体归纳组织起来,形成底层的概念,然后逐渐向上抽象,形成顶层的概念。
军事领域是一个典型的特定领域,具有明确的概念层次,然而,部分专业知识存在于领域专家的头脑中,可能无法从数据中归纳和抽象出来。由于军事数据的保密性和军事装备的特殊性,许多文件和信息对知识图谱的建立表现出绝对的阻碍,导致数据结构化程度较低,数据收集困难。因此,该领域的知识图谱在构建之初,更适合采用自上而下的方式。在知识图谱的基本结构(或概念层次)建立后,其类别节点或关系的数量达到一定规模后,又可以采用自下而上的方法来扩展图谱的实例和属性数据。通过以上分析,由于军事装备知识图谱的特殊性,应首先构建本体。
本体构建方法
本体建设的方法主要有三种,人工建设、重用现有本体(半自动建设)和自动建设[15]。手工构建方法主要是通过领域专家来确定知识内容和关系,这样本体的质量和准确性都比较高。军事领域对知识的完整性和准确性要求较高,因此人工构建方法适用于军事知识本体的构建。采用一般本体人工构建的思路,军事本体可以采用自上而下的人工构建,首先构建军事知识的顶层本体,在此基础上开始构建各子领域的知识框架,逐步完成整个军事知识本体的构建[16]。
目前国内外有五种比较有影响的本体手册构建方法[17][18]:骨架法、TOVE法、IDEF5法、Methontology法和七步法。与其他方法相比,七步法相对成熟。它包括七个步骤,即确定专业领域和范围,检查重复使用现有本体的可能性,列出领域中的重要术语,定义类和类的层次结构,定义类的属性,定义属性面,以及创建实例[19]。然而,七步法也有一些局限性;这种方法没有一个完整的生命周期[20],也缺乏一个模型修订过程,以应对开发后期的需求调整或功能增加。
军事领域本体结构
在军事装备领域,文献[13]将军事装备分为八大类,如火炮、舰船、飞行器等,并对装备实体的杀伤力、最大速度等属性进行了定义。这种装备知识体系偏重于军事装备的科学描述,忽视了面向军事作战需求的知识表达。Liu等人[21]设计了一种基于需求的螺旋式反馈方法来构建军事装备知识模型,定义了1个顶层核心概念军事装备,4个相关概念如作战活动,7个通用概念如国家,其中装备分为8大类148小类。该模型包括202个实体属性,6个实体关系,涵盖了5800个武器类实体,18个作战活动,86个国家。从以上分类可以看出,军事领域不同任务的本体建设重点各不相同,但基本上可以分为以下几个方面。
表1 军事领域知识图谱实体和关系的一般分类。
在知识本体的基础上,可以构建知识图谱。军事领域知识图谱的构建和应用是一个系统工程,其构建过程分为六个阶段,可以称为领域知识图谱的全生命周期,其设计的关键技术过程主要包含知识表示、知识存储、知识提取、知识融合、知识演化、知识应用[22]。
信息服务
基于知识图谱,可以提供数据可视化和智能问答等基本信息服务。Zhao等[39]利用Javanese、Tomcat图形显示和Bootstrap技术,以区域分区和关注话题为聚合点,分层设计了话题→事件→实体的知识图谱检索和显示服务,提高了分领域相关热点检索、分析和整理的效率。在构建军事装备知识图谱的基础上, Dou等人[44] 实现了基于模板匹配的知识问答[46] 。
情报侦察与挖掘
基于知识图谱支持快速检索、高效存储、长链推理的特点,知识图谱可以在情报侦察挖掘中完成情报收集、整理等工作[47]。
Palantir公司是第一家在国防领域使用知识图谱技术,为反恐和作战行动提供情报分析服务的公司,在政府和军队的决策和指挥中都发挥了重要作用。美国国防部高级研究计划局(DARPA)[48]于2012年3月启动了XDATA计划,开发用于分析大量半结构化和非结构化数据的计算技术和软件工具,同年启动的文本深度探索和过滤(DEFT)计划。更明确地提出利用深度学习技术发掘大量结构化文本的隐性、实用特征,以及进一步整合处理后的信息的能力,并在此基础上将这些技术用于作战评估、计划和预测,以支持决策。DARPA在2017年发布的 "AIDA "项目研究了将自动获取的知识从多个媒体来源映射到共同的语义表征、已知的本体扩展技术以及其他技术,以改造零散的信息,实现深度知识挖掘。
战场态势感知
基于知识图谱强大的信息整合和知识挖掘能力,在战场态势感知中,知识图谱可以通过提高知识融合算法的性能和提升知识处理工具的运行效率,促进军事决策者更好地理解战场态势感知。
Yi等人[49]提出了一个智能识别推理框架,首先利用知识图谱和图谱数据库技术构建知识图谱数据库,然后构建具有领域知识推理能力的多个智能体,并利用分类器推理技术进行综合识别推理,可以实现智能目标识别的功能。
作战指控
基于知识图谱强大的知识表达能力、知识提取的准确性和快速性,在作战指挥与控制方面,知识图谱可以帮助实现高效指挥和快速决策。
2012年,美国陆军的数据到决策(D2D)项目利用知识图谱等关键技术,从数据中高效提炼知识,获得作战人员和决策者指导作战所需的信息,并通过强化数据融合,将其与相关的背景信息和态势信息整合在一起,提供清晰的威胁、选择和后果[47]。模拟推演是指在执行行动之前或期间,根据行动方案中规定的行动意图、顺序和过程,对行动方案中不同阶段的部署、行动目标或结果进行演练和分析的过程。知识图谱还为模拟演练提供了知识和数据支持,并为海量异构数据提供结构化存储,从而提高模拟演练系统的效率[35]。
网络空间安全
基于知识图谱的数据检索、数据管理、知识推理等功能,在网络空间安全的背景下,知识图谱在增强网络态势感知、提高网络攻防能力、维护国家网络空间安全方面具有重要意义[49]。
美国国家安全局(NSA)的 "棱镜计划 "每天从电信公司提取数百万用户的通话记录,并从微软、谷歌、雅虎、Facebook、苹果等九大网络巨头的中央服务器获取信息,通过信息融合和知识获取技术进行关联分析和推理,生成高质量的情报产品。通过信息融合和知识获取技术进行关联分析和推理,产生高质量的情报产品,对其他国家的网络空间安全构成巨大威胁[50]。美国陆军的 "网络攻击自动化非常规传感环境 "项目旨在开发网络攻击行为的预测方法和检测即将发生的网络现象的有效方法,以帮助网络防御者应对网络攻击,开发和验证能够预测网络攻击的非常规、多学科传感技术,并执行现有的先进入侵检测能力[51]。