非常有用的知识图谱可以帮助组织跟踪医学研究、网络安全威胁情报、GDPR合规性、网络用户参与度等等。它们通过保存实体(对象、事件、情况或抽象概念)的相互关联描述,并对其下层术语进行语义编码来实现这一目标。你如何创建一个知识图谱?以及如何将其从理论转化为实践?通过实际的示例,这本实用书向数据科学家和数据从业者展示了如何构建自己的定制知识图谱。Neo4j的作者Jesus Barrasa、Maya Natarajan和Jim Webber通过图示例阐述了用于构建解决当今许多紧迫问题的知识图谱的常用模式。随着添加更多数据,您将迅速发现这些图谱变得越来越有用。学习构建知识图谱所需的组织原则 探索图数据库作为知识图谱的基础 了解如何将结构化和非结构化数据导入到图中 跟随示例构建集成和搜索知识图谱 了解知识图谱的模式检测能够帮助您完成什么任务 通过示例探索依赖知识图谱 使用自然语言知识图谱和聊天机器人的示例
ChatGPT和人工智能未来发展趋势:
1、多模态学习:ChatGPT模型主要应用于自然语言处理领域,但是未来也可能通过多模态学习的方式,将图像、视频和音频等其他信息与文本信息结合起来进一步提高模型的效果和表现能力; 2、集成学习:未来ChatGPT模型可能会通过集成学习的方式 将多个模型结合起来,以进一步提高模型的效果和鲁棒性。例如.可以将预训练的ChatGPT模型与其他任务特定的模型结合起来形成更加强大的混合模型; 3.训练效率:由于ChatGPT模型的训练时间和资源成本较高,未来可能会通过优化算法、硬件加速、分布式计算等手段,提高模型的训练效率和速度度; 4.可解释性:未来ChatGPT模型的可解释性可能会得到更更多的研究和改进,以便更好地理解模型的决策和结果; 5.隐私保护:由于ChatGPT模型需要访问大量的用户数据,未来将会更加重视数据隐私保护,采用更加严格的隐私协议和技术手段,保护用户的数据隐私; 总之,未来ChatGPT模型和人工智能的发展趋势可能涉及到模型效果的提高、训练效率的提高、模型的可解释性、数据隐私保护等多个方面。
【导读】大模型热潮依然在继续,Dr. Gerhard Paaß 等人合著的《Foundation Models for Natural Language Processing》 一书系统介绍基础模型研究和应用的全面概述,而且是目前对此方面研究最新的综述。
这本开放获取的书籍为读者提供了基础模型研究和应用的全面概述,适合对基本自然语言处理(NLP)概念有所了解的读者。
近年来,人们为训练NLP模型开发了一种革命性的新范式。这些模型首先在大量文本文档上进行预训练,以获取通用的句法知识和语义信息。然后,它们会被细化调整以适应特定任务,往往能以超人的准确率解决这些任务。当模型足够大时,它们可以通过提示来解决新任务,而无需任何的细化调整。此外,它们可以应用于各种不同的媒体和问题领域,从图像和视频处理到机器人控制学习都可以涵盖。因为它们提供了解决人工智能中许多任务的蓝图,所以被称为基础模型。
在简单介绍了基本NLP模型后,本书描述了主要的预训练语言模型BERT,GPT和序列到序列变换器,以及自我关注和上下文敏感嵌入的概念。然后,讨论了改进这些模型的不同方法,如扩大预训练标准,增加输入文本的长度,或包含额外知识。随后,介绍了大约二十个应用领域中表现最佳的模型,例如,问题回答,翻译,故事生成,对话系统,从文本生成图像等。对于每个应用领域,都讨论了当前模型的优点和缺点,并给出了进一步发展的前景。此外,还提供了指向免费可用程序代码的链接。最后一章总结了AI的经济机会,风险缓解和潜在发展。
Chapter 1: 导论 Introduction Chapter 2: 预训练语言模型 Pre-trained Language Models Chapter 3: 优化预训练语言模型 Improving Pre-trained Language Models Chapter 4: 基于基础模型的知识获取 Knowledge Acquired by Foundation Models Chapter 5: 基础模型信息提取Foundation Models for Information Extraction Chapter 6: 基础模型文本生成 Foundation Models for Text Generation Chapter 7: 语音、图像、视频和控制的基础模型 Foundation Models for Speech, Images, Videos, an Control Chapter 8: 摘要 Summary and Outlook
随着大约十年前高效深度学习模型的发展,许多深度神经网络已被用于解决诸如自然语言处理(NLP)和图像处理等模式识别任务。通常,这些模型需要捕获文本或图像的含义,并做出适当的决策。或者,他们可以根据手头的任务生成新的文本或图像。这些模型的优点在于,它们创建了分布在各层的中间特征,不需要人工构建特征。深度神经网络,如卷积神经网络(CNNs)[32]和循环神经网络(RNNs)[65],使用低维密集向量作为一种分布式表示来表达语言的句法和语义特征。
所有这些模型都可以被视为人工智能(AI)系统。AI是一个旨在创建具有自然智能的、行为类似于人和动物的智能机器的广泛研究领域。它涵盖了构建模拟并超越人类全面认知能力的机器这一领域的长期目标。机器学习(ML)是人工智能的一个子领域,它采用统计技术让机器能够从数据中“学习”,而无需给出明确的指示。这个过程也被称为“训练”,其中“学习算法”逐渐提高模型在给定任务上的性能。深度学习是ML的一个领域,其中输入被逐步转换为层,以便可以识别数据中的复杂模式。“深度”这个形容词指的是现代ML模型中的大量层,这些层有助于学习数据的表现形式以实现更好的性能。与计算机视觉相比,用于NLP应用的带注释训练数据的规模相对较小,只包含几千个句子(除了机器翻译)。这主要是由于手动注释的高昂成本。为避免过度拟合,即过度适应模型以适应随机波动,只能训练相对较小的模型,这并没有产生高性能。在过去的5年里,基于Vaswani等人[67]引入的Transformer的新的NLP方法已经被开发出来。他们通过一个叫做嵌入的实数向量来表示每个词的含义。在这些嵌入之间可以计算出各种类型的“关注度”,可以被视为不同词之间的某种“关联度”。在网络的高层,关注度计算被用来生成新的嵌入,这可以捕捉到词义的细微差别。特别的是,他们可以理解由于上下文产生的同一词的不同含义。这些模型的一个关键优势是,它们可以用未标注的文本进行训练,这几乎是无限可用的,而且过度拟合不是问题。目前,这个研究领域正在快速发展新方法,使许多早期的方法变得过时。
这些模型通常经过两步训练:在第一步预训练中,它们在一个包含数十亿词的大型文本语料库上进行训练,而不需要任何注释。一个典型的预训练任务是预测在输入中被掩蔽的文本中的单个词。通过这种方式,模型学习自然语言语法和语义的微妙差别。因为数据足够,模型可以扩展到多个层,具有数百万或数十亿的参数。在第二步细调中,模型在一个小的带注释的训练集上进行训练。通过这种方式,模型可以适应新的特定任务。由于相对于预训练数据,细调数据非常小,且模型具有很高的容量,含有数百万的参数,因此它可以适应细调任务,而不会丢失存储在模型中关于语言结构的信息。有实验证明,这种思想可以应用于大多数NLP任务,从而在语义理解方面取得了前所未有的性能提升。这种迁移学习允许从预训练阶段的知识转移到经过细调的模型。这些模型被称为预训练语言模型(PLM)。
在过去的几年里,这些PLM的参数数量随着更多训练数据的增加而系统性地增大。事实证明,与传统观念相反,这些模型的性能越来越好,而没有受到过拟合的影响。具有数十亿参数的模型能够在给出一些起始文本的提示后,生成语法正确、语义连贯的流畅文本。他们能够回答问题,并对不同类型的提示作出有意义的反应。此外,同一PLM架构可以同时预训练不同类型的序列,例如文本中的标记、图片中的图像块、语音片段、视频帧中的图像块序列、DNA片段等。他们能够同时处理这些媒体类型,并在不同模态之间建立联系。他们可以通过自然语言提示来适应各种任务的执行,即使他们没有明确地在这些任务上进行训练。由于这种灵活性,这些模型是开发全面应用的有希望的候选者。因此,具有数十亿参数的大型PLM通常被称为基础模型[9]。本书旨在为当前的预训练语言模型和基础模型提供最新的概述,重点关注NLP的应用:
• 我们描述了必要的背景知识,模型架构,预训练和细调任务,以及评价指标。 • 我们讨论了每个NLP应用组最相关的模型,这些模型当前具有最佳的精度或性能,即接近最先进的状态(SOTA)。我们的目标并不是描述近年来开发的所有模型的范围,而是解释一些代表性的模型,以便理解它们的内部工作机制。 • 最近,PLM已经被应用于许多语音、图像和视频处理任务,由此产生了基础模型的术语。我们对最相关的模型进行了概述,这些模型通常允许不同媒体的联合处理,例如文本和图像 • 我们提供了可用模型代码和预训练模型参数的链接。 • 我们讨论了模型的优点和局限性,并对可能的未来发展提出了展望。
主编
Gerhard Paaß博士是Fraunhofer智能分析和信息系统研究所(IAIS)的首席科学家。他拥有数学背景,并且是人工智能领域,尤其是自然语言处理领域的公认专家。Paaß博士曾在加利福尼亚的加州大学伯克利分校和布里斯班的科技大学工作过。他曾在包括NeurIPS,CIKM,ECML/PKDD,ICDM和KDD等多个国际会议上担任评审和会议主席,而且他常常是程序委员会的成员。Paaß博士获得了关于概率逻辑的“最佳论文”奖,并且是约70篇为国际会议和期刊撰写的论文的作者。最近,他撰写了书籍“人工智能:未来技术背后的原理是什么?”(德文版)。他目前正在参与创建一个基础模型的计算机中心。除了对基础模型的实验研究外,他还在波恩大学和工业界为深度学习和自然语言理解进行讲座。
Sven Giesselbach是Fraunhofer智能分析和信息系统研究所(IAIS)自然语言理解(NLU)团队的负责人,他在人工智能和自然语言处理方面有专业的研究。他和他的团队在医疗,法律和一般文档理解等领域开发解决方案,这些解决方案在其核心上建立在基础模型之上。Sven Giesselbach也是莱茵-鲁尔机器学习竞争力中心(ML2R)的一部分,他在那里担任研究科学家,并研究知识通知型机器学习,这是一种将知识注入机器学习模型的范式,与语言建模相结合。他发表了10多篇关于自然语言处理和理解的论文,这些论文关注创建应用程序可用的NLU系统和在解决方案设计的各个阶段整合专家知识。他领导了自然语言理解展示室的开发,这是一个展示最新自然语言理解模型的平台。他经常在暑期学校,会议和AI聚会上讲解NLU。
学习如何颠覆性的AI聊天机器人将改变学校、工作和更多领域。 《ChatGPT入门》为你解密这个能回答问题、写作文、生成几乎任何被问到的文本的人工智能工具。这个强大的生成型AI被广泛预测将颠覆教育和商业。在这本书中,你将学习ChatGPT是如何工作的,以及如何操作它以得到满意的结果。你还将探讨使用AI生成内容的各种目的的伦理问题。由一位在人工智能前线工作了十多年的记者撰写,这本书深入探讨了ChatGPT的潜力,让你能做出明智的决定——而无需向ChatGPT寻求帮助。 了解ChatGPT的工作方式以及它如何适应生成型AI的世界 利用ChatGPT的力量来帮助你,并避免让它阻碍你 编写能得到你想要的回应类型的查询 看看ChatGPT API如何与其他工具和平台交互 这本及时的《入门》书籍非常适合任何生活或职业可能受到ChatGPT和其他AI影响的人。ChatGPT只是冰山一角,这本书可以帮助你为未来做好准备。
尽管你可以在YouTube、博客、文章、社交媒体和其他地方找到大量关于ChatGPT的内容,但这本书是首批,如果不是第一本,关于这个主题的全面性文本,特别是针对初学者或介绍级别。并且请不要误解。在少数AI科学家之外,每个人在接触ChatGPT时都是初学者。请安心,知道你正在和全球数百万其他人一起学习。 如果你已经在尝试或使用ChatGPT,你将在这本书中找到多种方法,利用你已经知道的内容,并将新事物融入到你的努力中,以便从ChatGPT中获得更多。请注意,对ChatGPT的讨论包括解释和提及支持ChatGPT的GPT模型,但这些模型也被用作除此聊天机器人之外的其他应用的AI模型。对类似ChatGPT的模型的引用可能意味着它们在技术上与ChatGPT相似,也可能不相似。例如,竞争模型可能有也可能没有大型语言模型(LLMs)作为其基础,正如ChatGPT一样,但它们仍然被称为“类似”,因为它们的用户界面和功能与ChatGPT的非常相似。这样,你可以更容易地比较和理解市场上的各种生成型AI聊天机器人,而不需要深陷技术细节。一些网址可能会跨越两行文本。如果你正在阅读纸质版的这本书,并想访问其中一个网页,只需按照文本中记录的方式准确输入地址,忽略行间断开的部分。如果你正在阅读电子书,那就简单了;只需点击网址即可直接进入网页。
谷歌I/O上发布一系列生成式AI新进展,科技大厂竞争激烈。5月10日,谷歌I/O开发者大会上发布了包括:新一代语言模型PaLM2、升级AI聊天机器人Bard、生成式AI实验版搜索引擎、DuetAIforWorkspace等。 AI艺人迅速出圈,多模态应用充分释放AI潜力,进一步推动商业化落地。1)AI歌手:截至5月14日,“AI孙燕姿”翻唱的《发如雪》已有超过150万点击量。2)AI网红CarynMarjorie通过出售AI版本的Caryn,在过去一周的beta阶段创收7.16万美元,99%的用户是男性。 从应用端看,昆仑万维,汤姆猫,中文在线,万兴科技,美图公司等同时兼具跨模态属性和海外业务的公司有望率先实现应用场景落地。 昆仑万维:2023年02月公司宣布将与奇点智源合作,在今年内发布中国版类ChatGPT代码开源。旗下Opera浏览器计划接入ChatGPT,截至2022H1,Opera全球平均MAU达3.3亿,美洲市场Q2活跃用户规模同比增长22%;2022年,OperaGX的MAU已超过2000万。汤姆猫:汤姆猫家族IP的交互属性与ChatGPT有着较高的契合度。公司团队已尝试应用ChatGPT模型进行AI交互产品开发的初步测试,测试的模型目前通过ChatGPT海外接口接入。中文在线:海量优质数据资产为核心优势;与澜舟科技合力探索AIGC在内容生产方面的技术应用;AI技术已在内容创作、游戏元宇宙等领域落地。海外产品Chapters和MyEscape已在做接入ChatGPT测试,应用在故事创作生成、剧本生成及改编、用户与AI交互聊天等方面。万兴科技:视频创意软件WondershareFilmora接入OpenAI,WondershareFilmora12新增功能包括AI抠图、AI音频拉伸和AI音频降噪。软件拥有超过1亿用户,覆盖超过150个国家及地区。3月31日正式面向出海营销领域全球首发AIGC“真人”短视频出海营销神器“万兴播爆”(英文名:WondershareVirbo),并宣布开启移动端公测。美图公司:AI绘画功能在旗下部分产品中上线,推动产品全球业绩增长。商业化探索包括,1)“AI绘画”免费生成3张绘画,支付2元可解锁五张新效果;2)“百变AI头像”,6.6元50张(5种风格×10张);9.9元100张(10种风格×10张),12.9元200张(20种风格×10张)。 随着技术的更新迭代,以及在应用端的持续探索,有望进一步创造新的消费和需求,有利于文娱内容和互联网行业。重点关注:万兴科技、昆仑万维、汤姆猫、中文在线、思美传媒、美图公司、百度集团-SW、商汤-W、腾讯控股、阅文集团;皖新传媒、南方传媒、焦点科技、风语筑、利欧股份、神州泰岳、联络互动、捷成股份、掌阅科技、立方数科、元隆雅图等。
多智能体强化学习是AI中的热点技术之一,来自爱丁堡大学Stefano V. Albrecht, Filippos Christianos, Lukas Schäfer编著的《多智能体强化学习:基础与现代方法》详述MARL中的模型、解决方案概念、算法思想和技术挑战提供基础介绍。
多智能体强化学习(Multi-agent Reinforcement Learning,MARL)是一个多样且极为活跃的研究领域。自2010年代中期将深度学习引入MARL以来,该领域的活动迅猛增长,所有主要的人工智能和机器学习会议上都会定期发布开发新的MARL算法或以某种方式应用MARL的论文。这种快速增长也可以从已发表的综述论文数量的增加得到证明,附录A中列出了其中许多论文。在这种增长的背景下,人们意识到该领域需要一本教材,以提供对MARL的系统介绍。本书在某种程度上基于并主要遵循Stefano V. Albrecht和Peter Stone于2017年在澳大利亚墨尔本举行的国际人工智能联合会议上所提供的教程《多智能体学习:基础与最新趋势》的结构。本书的撰写目的是为MARL中的模型、解决方案概念、算法思想和技术挑战提供基础介绍,并描述整合深度学习技术以产生强大新算法的现代MARL方法。我们认为,本书涵盖的内容应该为每个MARL研究者所知。此外,本书旨在为研究人员和实践者在使用MARL算法时提供实用指导。为此,本书附带了用Python编程语言编写的代码库,其中包含了本书讨论的多个MARL算法的实现。代码库的主要目的是提供自包含且易于阅读的算法代码,以帮助读者理解。想象一个场景,在这个场景中,一个由自主智能体组成的集体,每个智能体都有能力做出自己的决定,他们必须在一个共享环境中互动,以达成某些目标。这些智能体可能有一个共享的目标,比如一个移动机器人的车队,其任务是在一个大型仓库内收集和运送货物,或者一个负责监控海上石油钻井平台的无人机队伍。智能体也可能有冲突的目标,比如在一个虚拟市场上交易商品的智能体,每个智能体都试图最大化自己的收益。由于我们可能不知道这些智能体应该如何互动以达成他们的目标,所以我们让他们自己去解决。因此,这些智能体开始在他们的环境中尝试行动,并收集关于环境如何随着他们的行动而变化,以及其他智能体如何行为的经验。随着时间的推移,这些智能体开始学习各种概念,如解决任务所需的技能,以及重要的,如何与其他智能体协调他们的行动。他们甚至可能学会发展一种共享的语言,以便智能体之间的通信。最后,这些智能体达到了一定的熟练程度,成为了互动优化以达成他们目标的专家。这个令人兴奋的愿景,简而言之,就是多智能体强化学习(MARL)希望达成的目标。MARL基于强化学习(RL),在这种学习中,智能体通过尝试行动和接收奖励来学习最优决策策略,目标是选择能在时间内最大化累积奖励的行动。而在单一智能体的RL中,重点是为单一智能体学习最优策略,在MARL中,重点是为多个智能体学习最优策略以及在这个学习过程中出现的独特挑战。在这第一章中,我们将开始概述MARL中的一些基础概念和挑战。我们首先介绍多智能体系统的概念,这是由环境、环境中的智能体及其目标定义的。然后我们讨论了MARL如何在这样的系统中运作以学习智能体的最优策略,并通过一些潜在应用的例子来说明。接下来我们讨论了MARL中的一些关键挑战,如非稳定性和均衡选择问题,以及几种描述MARL可以如何使用的不同“议程”。在本章的结尾,我们对这本书的两部分中涵盖的主题进行了概述。多智能体强化学习(MARL)算法为多智能体系统中的一组智能体学习最优策略。与单一智能体的情况一样,这些策略是通过试错过程来学习的,目标是最大化智能体的累积奖励,或者说回报。图1.3显示了MARL训练循环的基本示意图。一组n个智能体选择个体行动,这些行动一起被称为联合行动。联合行动按照环境动态改变了环境的状态,并且智能体由于这种变化收到个体奖励,同时也对新环境状态有个体观察。这个循环持续进行,直到满足终止条件(比如一位智能体赢得了一场象棋比赛)或无限期地进行。这个循环从初始状态到终止状态的完整运行被称为一个情节。通过多个独立情节产生的数据,即每个情节中经历的观察、行动和奖励,被用来持续改进智能体的策略。
这本书为大学生、研究者和从业者提供了关于多智能体强化学习理论和实践的介绍。在这个引言章节之后,本书的剩余部分分为两部分。本书的第一部分提供了关于MARL中使用的基本模型和概念的基础知识。具体来说,第二章对单一智能体RL的理论和表格算法进行了介绍。第三章介绍了基本的游戏模型,以定义多智能体环境中的状态、行动、观察和奖励等概念。然后,第四章介绍了一系列解决概念,这些概念定义了解决这些游戏模型意味着什么;也就是说,智能体如何最优地行动意味着什么。最后,第五章介绍了在游戏中应用MARL来计算解决方案时的一些基础算法思想和挑战。本书的第二部分侧重于当代利用深度学习技术创建新的强大MARL算法的MARL研究。我们首先在第六章和第七章分别对深度学习和深度强化学习进行了介绍。基于前两章,第八章介绍了近年来开发的一些最重要的MARL算法,包括集中化训练与分散化执行、价值分解和参数共享等思想。第九章在实施和使用MARL算法以及如何评估学习到的策略时提供了实用指导。最后,第十章描述了在MARL研究中开发的一些多智能体环境的例子。
这本书的一个目标是为想在实践中使用本书中讨论的MARL算法,以及开发他们自己的算法的读者提供一个起点。因此,这本书配有自己的MARL代码库(可从书籍网站下载),该代码库使用Python编程语言开发,提供了许多现有的MARL算法的实现,这些实现是自包含的,易于阅读。第九章使用代码库中的代码片段来解释早些章节中提出的算法背后的重要概念的实现细节。我们希望所提供的代码能够帮助读者理解MARL算法,并开始在实践中使用它们。
这本迷你书是给想要学习如何使用大型语言模型构建应用的Python开发者的全面指南。作者Olivier Caelen和Marie-Alice Blete阐述了GPT-4和ChatGPT的主要特性和优点,并解释了它们的工作原理。你也会得到一个使用GPT-4和ChatGPT Python库开发应用的逐步指南,包括文本生成,问答,和内容摘要工具。以清晰简洁的语言写就,"开发GPT-4和ChatGPT应用"书中包含了易于跟踪的示例,帮助你理解并将概念应用到你的项目中。Python代码示例可在GitHub仓库中获取,书中还包括一个关键术语的词汇表。准备好在你的应用中利用大型语言模型的力量了吗?那么这本书是必读的。你将学习:ChatGPT和GPT-4的基本原理和优点以及它们的工作方式如何将这些模型集成到基于Python的应用中,进行NLP任务 如何使用Python的GPT-4或ChatGPT API开发应用,进行文本生成,问题回答,内容摘要等任务 高级GPT主题,包括提示工程,针对特定任务的模型微调,插件等等
生成预训练变换器(GPT)在自然语言处理领域代表了一项显著的突破,它正在推动我们向开发能够以接近人类的方式理解和使用语言的机器发展。GPT基于变换器架构,这是一种为自然语言处理任务设计的深度神经网络。由于它们在自然语言处理任务上的卓越表现以及有效的对话能力,GPT在研究者和工业界得到了显著的关注,使它们成为自然语言处理及相关领域中最广泛使用和最有效的模型之一,这促使我们进行了这项调研。这篇综述为GPT提供了详细的概述,包括它的架构、工作过程、训练程序、启用技术以及它对各种应用的影响。在这篇综述中,我们也探讨了GPT的潜在挑战和限制。此外,我们讨论了可能的解决方案和未来的方向。总的来说,这篇文章旨在提供对GPT、启用技术、它们对各种应用的影响、新出现的挑战以及潜在解决方案的全面理解。 1. 引言
语言是人类交流的基石,对于塑造我们与世界的互动起着至关重要的作用。随着自然语言处理(NLP)的出现,我们与机器交互的方式发生了革命性的变化。NLP已经成为通信世界的游戏规则改变者,使人类能够以更自然的方式与机器互动。NLP的发展受到了互联网文本数据指数级增长的推动。多年来,NLP从简单的基于规则的系统发展到复杂的基于深度学习的模型。尽管有了进步,但由于人类语言的复杂性,自然语言理解和生成一直是NLP领域的一个挑战。然而,最近的进步为解决这些挑战开辟了新的途径。NLP的一项突破是GPT [1]的开发。GPT在OpenAI发布ChatGPT后走红,OpenAI是一家专注于开发AI技术的研究公司[2]。GPT是一个深度学习模型,它在大量的文本数据上进行预训练,可以针对特定的任务进行微调,如语言生成、情感分析、语言建模、机器翻译和文本分类。GPT使用的变换器架构是对NLP以往方法的重大进步,如RNN和CNN。它使用自注意力机制,使模型在生成下一个词时考虑整个句子的上下文,这提高了模型理解和生成语言的能力。解码器负责根据输入表示生成输出文本[3]。 GPT能够执行NLP中的广泛任务。其主要优势之一在于自然语言理解(NLU),其中它可以分析和理解文本的含义,包括识别句子中的实体和关系。它也擅长自然语言生成(NLG),这意味着它可以创建文本输出,如创作创新内容或以全面且有信息性的方式回答问题。另外,GPT也是代码生成器,可以编写各种语言(如Python或JavaScript)的编程代码。GPT也可以用于问答,这意味着它可以提供关于事实性主题的概括,或者根据输入文本创作故事。此外,GPT可以总结一段文本,如提供新闻文章或研究论文的简要概述,它也可以用于翻译,使得能够将文本从一种语言翻译为另一种语言。总的来说,GPT能够以高精度和准确度执行广泛的NLP任务,使其成为各种行业(包括金融、医疗保健、市场营销等)中的无价工具。随着NLP技术的不断进步,我们可以预见GPT和其他语言模型将变得更加复杂和强大,使我们能够更自然、更有效地与机器交流。 **A. 动机 **
GPT已经成为NLP领域的一种变革性技术,推动了广泛行业和应用的快速发展和增长。尽管GPT得到了广泛的采用,并有许多潜在的应用,但关于GPT的能力仍有许多需要探索和理解的地方。尽管在与学术和图书馆[4]、教育[5]、GPT模型[6]、银行和企业通信[7]、chatGPT及其版本的进步[8]、以及生成AI[9]相关的文献中有关于GPT的研究,但并没有现有的评论致力于对GPT进行全面的调查。因此,有必要进行一项全面的评论,重点是GPT的架构、启用技术、潜在应用、新出现的挑战、有趣的项目和未来的方向。这些限制促使我们进行了这项审查。因此,这篇审查不仅将帮助这个领域的研究者和实践者更好地理解GPT,而且在进行研究时,还将提供关于其潜在应用和主要限制的宝贵见解。 在这篇关于GPT的综述中,我们使用各种可靠的来源进行了深入的文献审查。我们的搜索主要集中在经过同行评审的期刊,以及来自知名国内和国际会议、研讨会、书籍、座谈会和期刊的高质量文章。为了确保我们的来源的可信度,我们参考了像Google Scholar和arXiv这样知名的档案库,以及来自IEEE、Springer、Elsevier、Taylor & Francis和Wiley等顶级数据库的出版物。为了找到相关的GPT引用和出版物,我们使用了如NLPGPT、GPT架构、DL for GPT、Pretraining GPT、Fine-tuning AI GPT和GPT垂直应用等关键词。然后,我们根据所有检索到的文章的标题进行筛选,排除了任何质量较差的论文。接下来,我们审查了剩下的文章的摘要,以确定它们的贡献。在我们的文献审查的最后一步,我们提取了分析所需的必要数据。通过遵循这些步骤,我们确保了我们的研究基于高质量和可信的来源。
2. GPT
A. GPT演化
GPT模型经历了NLP技术中的多次变化和突破。以下是GPT模型发展中的一些重大转折点:在GPT之前,NLP模型已经在与特定任务相关的大量标注数据上进行了训练。这有一个重大的缺点,因为很难获得用于精确训练模型所需的标注数据量。由于NLP模型被限制在特定的数据集上,所以它们无法完成训练集以外的任务。为了解决这些限制,OpenAI提供了一个名为GPT-1的生成式语言模型,该模型使用未标记的数据创建,然后提供给用户进行微调,以完成后续的任务,如情感分析、分类和问答[18]。这表明该模型试图根据输入产生适当的响应,而且用于训练模型的数据没有标记[19]。图2显示了从1960年创建的Eliza到2022年更为当前的ChatGPT,几个预训练模型的演变时间线。GPT-1是第一个能够阅读文本并回答查询的模型[20]。OpenAI在2018年发布了GPT-1。GPT1是AI发展的一个重要步骤,因为它使计算机能够比以前更自然地理解文本材料。这种生成性语言模型能够学习各种各样的连接,并在连续的文本和长篇大论的语料库上获得大量知识[21]。这发生在在大型BooksCorpus数据集上训练之后。在设计方面,GPT-1使用一个12层解码器架构的变换器,带有自我注意机制进行训练。GPT-1能够在不同任务上执行零射击性能,这是由于其预训练而取得的一项重大成功。这种能力证明,当将生成性语言建模与成功的预训练思想结合起来时,可以用来推广模型。以TL为基础,GPT模型发展成为一种强大的工具,可以在微调最少的情况下执行NLP任务[22]。它为其他模型使用更大的数据集和参数在生成性预训练中取得更大的进步铺平了道路[18]。
为了在2019年后期创建一个更好的语言模型,OpenAI使用更大的数据集和更多的参数创建了GPT-2。GPT-2的模型设计和执行是一些关键的进步[23]。它拥有15亿个参数,是GPT-1(1.17亿个参数)的10倍,它的参数和数据量也是GPT-1的10倍[21]。通过仅使用原始文本作为输入,并利用很少或没有训练样本,它在解决与翻译、总结等相关的各种语言任务方面非常有效。在各种下游任务数据集上对GPT-2进行评估,发现它在识别长距离关系和预测句子方面表现出色,显著提高了准确性[24]。最近的GPT模型迭代版本是GPT-3。这是由OpenAI创建的一个大型语言预测和生成模型,可以生成源文本的长篇段落。GPT-3最终成为OpenAI的突破性AI语言软件。简单来说,它是一种可以自己创建行的软件,这些行非常独特,几乎听起来像是由人类编写的[25]。GPT-3程序目前通过云基础设施API提供有限的访问,需要访问权限来调查其功能。自从它的首次亮相以来,它已经产生了一些有趣的应用。其容量约为1750亿个参数,比GPT-2大100倍,这是一个关键优势。它使用从大型内容存档和互联网收集的5000亿词的语料库"Common Crawl"进行教学[26]。其其他值得注意和意想不到的能力是进行基本的数学运算,编写代码片段,和执行聪明的任务。因此,NLP模型可以通过更快地响应请求和精确地保持最佳实践,同时减少人为错误,来帮助企业[27]。由于其复杂性和大小,许多学者和作家都将其称为最终的黑箱AI方法。由于执行推理的高成本和不便,以及亿参数的大小使其资源密集型,因此很难在工作中实践[24]。GPT-4被命名为GPT-3的继任者。与此同时,OpenAI已经秘密地发布了几个基于GPT-3.5的AI模型,这是GPT-3的更新版本[28]。
GPT-3.5是在文本和代码的混合上进行训练的。它从互联网收集的大量数据中学习了单词、句子和各种组件之间的关系,这些数据包括成千上万的维基百科条目、社交媒体帖子和新闻项目。OpenAI利用GPT-3.5开发了几个定制的系统,以完成特定的工作[26]。它从网上收集了大量数据,包括成千上万的维基百科条目、社交媒体帖子和新闻项目,并利用这些信息学习了句子、单词和单词组成部分之间的关系[29]。 OpenAI的GPT模型的最新版本是GPT-4,这是一个多模态的大型语言模型。它于2023年3月14日推出,并通过ChatGPT Plus向公众提供有限的访问。需要排队等待获得商业API的访问权限[10]。GPT-4在预训练阶段,使用公共数据和“来自第三方供应商的许可数据”,预测下一个词。然后,基于人类和AI的输入,通过强化学习进行调整,以实现人类对齐和政策符合。与GPT-3的上下文窗口只有4096和2049个tokens不同,该团队创建了两个版本的GPT-4,其上下文窗口分别为8192和32768个tokens。
B. GPT模型架构
GPT模型基于用于NLP任务的神经网络,如语言建模,文本分类和文本生成。GPT模型的架构基于变压器模型[30]。Transformer模型使用自注意机制处理可变长度的输入序列,使其非常适合NLP任务。GPT通过用解码器块替代编码器-解码器块简化了架构。GPT模型采用Transformer模型,并使用无监督学习技术在大量文本数据上进行预训练。预训练过程涉及预测序列中给定前面单词的下一个单词,这是一项称为语言建模的任务。这种预训练过程使模型能够学习可以针对特定下游任务进行微调的自然语言表示[31]。
C GPT 模型如何工作
GPT模型通过使用Transformer这种神经网络架构处理自然语言文本的输入序列来工作[38]。GPT模型使用无监督学习技术在大量的文本输入上预训练这种Transformer架构[39]。在预训练过程中,模型获得了根据前面的词预测序列中下一个词的能力。语言建模是一种过程,使模型能够发现训练数据中词与其上下文之间的统计关系。图5展示了GPT操作的各个阶段。第一步包括有监督的微调,第二步涉及对输入产生最优反应,第三步涉及近似策略优化和强化学习。预训练后,模型可以针对特定任务进行微调,如文本分类或文本生成。在微调过程中,模型在特定于手头工作的较小数据集上进行训练,并改变模型的参数以最大化该任务的性能[8]。图3展示了GPT的一般Transformer架构。当用于文本生成时,GPT模型通过预测基于之前生成的词的系列中的下一个词来创建文本。根据其被修改的方式,模型可以生成与输入文本相似的文本,或者符合某种主题或风格的文本。图4展示了GPT模型的Transformer架构和用于微调不同任务的输入变换。
D. GPT版本比较
GPT模型有几个版本,每个版本都有自己的特性和功能。表III列出了各种GPT模型版本的比较。表中展示了以下细节,如GPT模型的发布年份、参数、生成的标记、输入类型、每个模型的特性、每个模型的缺点,以及每个模型的大小。生成型AI(GAI)模型有不同的类型,如单模态、交叉模态和多模态。第一种类型是单模态,依赖于单一类型的输入,如文本或图像。另一方面,交叉模态可以处理多种类型的输入并将它们关联起来。多模态是最复杂的AI类型,因为它可以处理和整合来自多种模态的信息,如语音、文本、图像,甚至是与环境的物理交互。GPT只采用单模态和多模态类型,其中ChatGPT被认为是单模态,而GPT-4是多模态。图6是一个插图,区分了单模态、交叉模态和多模态生成AI模型。 总的来说,GPT模型在NLP方面表现出了出色的性能,通过增强每一次迭代和其前身的能力。然而,每个模型也有自己的限制和缺点,如输出控制的限制、缺乏多样化的数据和伦理问题。在为特定任务选择GPT模型时,研究者和开发者应谨慎考虑这些因素[40]。具体来说,本节描述了GPT的演变、架构,并比较了不同版本和类型的GPT。
III. 使能技术
GPT是多种技术的汇聚。它借助了最新的技术,如大数据、人工智能、云计算、EC、5G及以后的网络,以及人机交互。在这一部分,我们将提供与GPT相关的启用技术的概述。构成GPT模型的主要技术在图7中展示。
IV. GPT模型对各种应用的影响
GPT已经取得了显著的进步,它的影响正在教育、医疗保健、工业、农业、旅游和运输、电子商务、娱乐、生活方式、游戏、市场营销和金融等各个行业中被感知到。这一部分将提供有关GPT模型在上述应用中的影响的宝贵见解,如图8所示。
本节将介绍使用GPT模型技术开发的用于上述部分中提到的不同应用的激动人心的项目。表IV,表V显示了这些项目的不同级别,以及用于比较他们在许多实际应用中的能力的不同参数。
VI. 开放的研究问题和未来方向
本节强调了与实施和采用可持续GPT模型相关的各种开放研究问题。它还为GPT开发领域的研究人员提供了对未来研究方向的深入了解。图9概述了在使用GPT模型时可能出现的许多问题,以及需要考虑的各种未来方法,以便有效地使用GPT模型。
VII.结论
GPT和其他大型语言模型的影响深远而深刻。随着这些技术的不断发展和改进,它们有可能改变我们与技术和彼此互动的方式。从个性化推荐和客户服务到语言翻译和文本生成,可能性是无穷的。然而,就像任何技术一样,必须解决可能出现的道德和社会问题。随着我们越来越依赖这些语言模型,我们必须确保我们正在负责任地使用这些工具,并考虑它们对整个社会的影响。这包括与训练模型所使用的数据偏见、保护隐私和安全、理解人类创造力的含义以及可能对就业和工作流动的影响等相关的挑战。我们需要继续评估和反思GPT和其他语言模型的影响,以确保它们的使用方式对整个社会都有益。通过这样做,我们可以帮助确保这些技术被充分利用,同时最大程度地减少它们可能产生的任何负面影响。
这是关于分布式强化学习的首本全面指南,提供了从概率视角考虑决策的新数学形式。 分布式强化学习是考虑决策的新数学形式。它超越了强化学习和期望值的常见方法,专注于因智能体的选择而获得的总奖励或回报 - 特别是,这种回报从概率视角看表现如何。在这本首本全面的分布式强化学习指南中,Marc G. Bellemare, Will Dabney, 和 Mark Rowland,他们引领了这个领域的发展,介绍了其关键概念并回顾了其许多应用。他们展示了其解释因与环境互动而产生的许多复杂有趣现象的能力。
作者们从经典强化学习中介绍核心思想,以使分布式主题有所背景,并包含了对文本中讨论的主要结果的数学证明。他们引导读者通过一系列的算法和数学发展,从而表征,计算,估计,以及基于随机回报做决策。在金融(风险管理)、计算神经科学、计算精神病学、心理学、宏观经济学和机器人技术等多种学科中的实践者已经在使用分布式强化学习,为其在数学金融、工程和生命科学中的扩展应用铺平了道路。分布式强化学习不仅仅是一种数学方法,它代表了智能体如何进行预测和决策的新视角。
ChatGPT这一现象级产品横空出世,拉开了大语言模型技术蓬勃发展的序幕。但实际上,自2017年大语言模型诞生,OpenAI、微软、谷歌、Facebook、百度、华为等科技巨头在大语言模型领域的探索持续不断,ChatGPT只是将大语言模型技术推进至了爆发阶段,当下大模型产品格局更是呈现出了新形势——国外基础模型积累深厚,国内应用侧优先发力。
2022年年末以来,人工智能大模型成为技术领域乃至全球创新领域最炙手可热的话题。以ChatGPT引领的大模型产品发展日新月异,有预测数据显示,到2030年,AIGC的市场规模或将超过万亿人民币。2023年国内主要厂商也相继推出自研的大语言模型产品,另外国内也推出了大量的大语言模型应用,逐步构建起基于中文语言特色的大语言模型生态。
为此InfoQ研究中心基于桌面研究、专家访谈、科学分析三个研究方法,查找了大量文献及资料,采访了10+位领域内的技术专家,同时围绕语言模型准确性、数据基础、模型和算法的能力、安全和隐私四个大维度,拆分出语义理解、语法结构、知识问答、逻辑推理、代码能力、上下文理解、语境感知、多语言能力、多模态能力、数据基础、模型和算法的能力、安全和隐私12个细分维度。
分别对ChatGPTgpt-3.5-turbo、Claude-instant、Sagegpt-3.5-turbo、天工3.5、文心一言V2.0.1、通义千问V1.0.1、讯飞星火认知大模型、Moss-16B、ChatGLM-6B、vicuna-13B进行了超过3000+道题的评测,根据测评结果发布了《大语言模型综合能力测评报告2023》。
《人工智能安全标准化白皮书(2023版)》发布
2023年5月29日,在全国信息安全标准化技术委员会2023年第一次标准周“人工智能安全与标准研讨会”上,信安标委大数据安全标准特别工作组发布《人工智能安全标准化白皮书(2023版)》。白皮书由中国电子技术标准化研究院等20家单位共同编写,梳理了人工智能技术与应用发展现状,分析了人工智能面临的新的安全风险,结合国内外人工智能安全政策与标准现状,指出了人工智能安全标准需求,提出了下一步开展人工智能安全标准化工作的建议,为规范引导人工智能安全标准化工作提供参考。
https://www.tc260.org.cn/front/postDetail.html?id=20230531105159
人工智能是人类科学技术发展的重要成果,是信息时代向前演进的关键 动力。运用好、发展好、治理好人工智能,让人工智能持续、安全地造福人类社 会,已经成为世界各国的基本共识。党的十八大以来,在习近平新时代中国特色社会主义思想指引下,我国人 工智能保持了安全、有序、快速的发展进程,在政治、军事、医疗、工业、经济等 领域作用日益关键,已逐渐成为国家和社会的技术支柱。当前,人工智能发展再一次迈入关键时期,以生成式人工智能为代表的新 技术、新应用不断打破人们对于人工智能的固有认知,也带来了大量网络意识 形态安全、数据安全、个人信息安全等方面新风险、新挑战,化解安全风险、统 筹发展和安全成为重大难题。贯彻总体国家安全观,全国信息安全标准化技术委员会大数据安全标准 特别工作组坚持发挥标准化工作基础性、规范性作用,开展了一系列人工智能 安全标准化工作,为推动人工智能发展贡献力量。面对人工智能安全新形势,为全面介绍人工智能安全标准化工作进展情 况,分享相关工作经验,在《人工智能安全标准化白皮书(2019版)》等前期研 究成果基础上,特发布本白皮书。
国内大模型研发应用领域热潮持续高涨。据不完全统计,目前国内至少有19家企业及科研院所涉足人工智能大模型训练, 主要分为大型科技公司、科研院校和初创科技团队三类。从大模型的布局体系来看,百度、阿里、华为等大型科技公司从算力层、 平台层、模型层、应用层进行了四位一体的全面布局,科研院校及初创科技公司主要以研发大模型算法及细分领域应用为主;从大模型参数量看,大型科技公司的参数量远大于科研院所,但基本都处于千亿及以上规模;从大模型应用方向看,大部分企业前期以内部应用为主,后续主要向B端企业拓展服务,预计少数企业将在C端市场形成规模。总体来说,业界普遍认为国内大模型与GPT-3的水平相当,与 GPT-4仍有较大差距。
《实际应用中的自然语言处理》是一本关于如何应用数据科学和机器学习构建自然语言处理(NLP)解决方案的实用指南。传统的、学术教授的NLP通常附带一个数据源或数据集以帮助构建解决方案,而本书则位于可能不存在丰富数据集的真实世界中。 本书涵盖了NLP和文本处理背后的基本概念,并讨论了在15个行业领域中的应用。从数据源和提取到转换和建模,从经典的机器学习到深度学习和变压器,讨论并实现了NLP的几种流行应用。 本书为任何希望构建NLP解决方案的人提供了一本实践和全面的指南,从计算机科学学生到参与大规模工业项目的人都可以参考。
本书首先介绍了自然语言处理(NLP)、底层概念和流行工具。然后,本书深入探讨了所有与数据相关的内容 - 数据策划、数据提取和数据存储。这些数据需要被清理并转换为机器可以理解的语言。本书实现了几种数据预处理方法、数据转换方法、距离度量、机器学习、深度学习和变压器。在实践意义上,企业利用最能解决他们用例的技术,包括经典/传统模型和最先进的模型。本书通过实践视角覆盖了所有这些内容。具备了关于数据和模型的知识,你就准备好将它们结合起来构建NLP应用了。但是,这些NLP应用是什么,谁使用它们,用于什么呢?本书深入探讨了在15个行业领域中的NLP应用。然后,我们选择最常用的应用,并以多种不同的方式使用Python和各种开源工具来实现它们。接下来,本书描述了在真实世界中,实际商业环境中的NLP项目。你为什么决定构建一个基于NLP的项目?你如何衡量成功?这个项目如何适应你公司的目标?这个模型如何被其他用户和应用消费?所有这些方面都进行了讨论,并使用Python以及从书中前面部分获得的知识来实现这些NLP项目。https://github.com/jsingh811/NLP-in-the-real-world 包含了本书中使用的所有代码。本书的结构如下所示。
生成式AI和ChatGPT有可能通过提高效率、增强创新力和实现更个性化的体验,来改变行业和社会。如果你是一个希望在这个快速发展的数字时代保持领先地位,并利用它的潜力的人,那么这本书就是为你准备的。这本书全面介绍了生成性AI和ChatGPT,这些是近期引起广泛关注的尖端技术。本书旨在对这些技术、架构和训练方法进行深入理解,包括它们的背景、开发过程和现状。这本书帮助探索这些技术已经实施以实现可测量益处的创新方式,包括提高效率、客户满意度、安全性和收入增长,以及它在不同行业和使用案例中的潜在应用。在接近尾声时,这本书提供了关于这些技术的重大改进和进步的见解。它还帮助你确定有可能在不久的将来增强ChatGPT能力的进一步研究和开发的多个领域。你将学到什么
● 探索不同行业和领域如何使用ChatGPT。 ● 了解内容创作者和营销行业如何从使用ChatGPT中受益。 ● 学习如何从ChatGPT的问题解决能力中受益。 ● 了解ChatGPT如何在各种编码领域中使用。
这本书适合谁这本书适合对AI及其在商业世界中的实际应用感兴趣的个人和团体。商业领导者、企业家、研究人员、学者、数据科学家、机器学习工程师以及在AI领域工作的其他专业人士都可以从本书对最新技术进步的深入了解以及如何利用它们实现业务目标的洞察中找到价值。
Table of Contents
因果推断第一课:伯克利《因果推断》课程讲义,涵盖了潜在结果、随机实验、观察研究、工具变量、因果机制和中介分析等主题。
此外,还附有一些关于概率和统计、线性回归和逻辑回归以及简单随机抽样的附录,旨在以严谨易懂的方式介绍因果推断的基本概念和方法。