机器之心报道机器之心编辑部
昨日,ICLR 2023 获奖论文公布!来自北京大学的张博航、罗胜杰、王立威、贺笛获得杰出论文奖,清华大学孔祥哲、中国人民大学高瓴人工智能学院黄文炳、清华大学刘洋获得杰出论文奖提名。ICLR 全称为国际学习表征会议(International Conference on Learning Representations),今年将举办的是第十一届,将于 5 月 1 日至 5 日在卢旺达首都基加利线下举办。 在机器学习社区中,ICLR 是较为「年轻」的顶级学术会议,它由深度学习巨头、图灵奖获得者 Yoshua Bengio 和 Yann LeCun 牵头举办,2013 年才刚刚举办第一届。不过 ICLR 很快就获得了学术研究者们的广泛认可,被认为是深度学习的顶级会议。在 Google Scholar 的学术会议 / 杂志排名中,ICLR 目前排名第十位,要高于 NeurIPS。
据今年 2 月份公布的接收数据,在今年的接收统计中, ICLR 共接收近 5000 篇投稿,整体接收率为 31.8%,接近于去年的 32.26%。今年还有一个变化是接收论文的 tag 会有两个,一个是论文类型(oral、spotlight、poster),另一个是 presentation 的方式。 位于 top5% 论文内容涉及 Transformer、in-context learning、扩散模型等内容。 在近日公布的获奖论文中,共有 4 篇论文获得杰出论文奖,5 篇论文获得杰出论文奖提名。其中,来自北京大学的张博航、罗胜杰、王立威,、贺笛共同获得一篇杰出论文奖,清华大学孔祥哲、中国人民大学高瓴人工智能学院黄文炳、清华大学刘洋共同获得一篇杰出论文奖提名。
杰出论文奖
论文 1:Universal Few-shot Learning of Dense Prediction Tasks with Visual Token Matching
作者:Donggyun Kim, Jinwoo Kim, Seongwoong Cho, Chong Luo, Seunghoon Hong
机构:KAIST、微软亚研
该论文提出了一种用于密集预测任务的少样本学习 pipeline,密集预测任务包括语义分割、深度估计、边缘检测和关键点检测等。该研究提出了一个简单的统一模型,可以处理所有密集预测任务,并包含多项关键创新。该研究将激发密集预测的进一步发展,所提方法 —— 例如视觉 token 匹配、情景(episodic)元学习 —— 可以用于相关的多任务学习问题。
论文 2:Rethinking the Expressive Power of GNNs via Graph Biconnectivity
作者:张博航, 罗胜杰, 王立威, 贺笛
机构:北京大学
该论文基于双连通性(biconnectivity)提出一种 GNN 表达性度量新指标。具体来说,该研究提出了一种利用节点间距离的新算法,并在合成数据和真实数据中进行了演示。该研究表明:双连通性问题在理论和实践中都有着广泛的潜在应用。
论文 3:DreamFusion: Text-to-3D using 2D Diffusion
作者:Ben Poole, Ajay Jain, Jonathan T. Barron, Ben Mildenhall
机构:谷歌研究院、加州大学伯克利分校
该论文提出了一种基于文本生成 3D 模型的有效方法,而无需 3D 模型作为训练数据。该论文的关键思想是利用本生成图像的扩散模型,并通过将误差信号反向传播到 3D 模型的神经辐射场来生成 3D 模型。该方法是 SOTA 图像生成和 3D 建模的巧妙组合,在实践中效果极好,并将启发各种后续工作,包括基于文本的 3D 视频生成。
论文 4:Emergence of Maps in the Memories of Blind Navigation Agents
作者:Erik Wijmans, Manolis Savva, Irfan Essa, Stefan Lee, Ari S. Morcos, Dhruv Batra
机构:佐治亚理工学院、Meta AI 等
该论文基于认知科学和机器学习的跨学科方法,让仅具备自我运动(egomotion)(不具备其他任何感知)的导航智能体学得有效表征,并实现有效导航。该研究对表征学习具有重要意义。 杰出论文奖提名
除了 4 篇杰出论文,ICLR 2023 还有 5 篇论文获得杰出论文奖提名。
论文 1:Towards Understanding Ensemble, Knowledge Distillation and Self-Distillation in Deep Learning
作者:Zeyuan Allen-Zhu, Yuanzhi Li
机构:Meta、MBZUAI
该论文试图从一个新的理论视角来理解知识蒸馏。作者认为对于自然的多视图结构,没有蒸馏的情况下神经网络只能训练为仅依赖于部分特征,而蒸馏可以缓解这个问题。这篇论文提供了证明这一点的简化示例,有助于人们更好地理解知识蒸馏的有效性。
论文 2:Mastering the Game of No-Press Diplomacy via Human-Regularized Reinforcement Learning and Planning
作者:Anton Bakhtin, David J Wu, Adam Lerer, Jonathan Gray, Athul Paul Jacob, Gabriele Farina, Alexander H Miller, Noam Brown
机构:Meta AI、MIT
该论文的主题是多回合、多阶段、多人游戏的算法开发,提出使用一种类似于自我对弈(self-play)的策略来找到游戏均衡(equilibrium)状态,并在一个受人类玩家欢迎的复杂多人棋盘游戏上测试了该算法。其中,将寻求平衡的策略与行为克隆相结合。
论文 3:On the duality between contrastive and non-contrastive self-supervised learning
作者:Quentin Garrido, Yubei Chen, Adrien Bardes, Laurent Najman, Yann LeCun
机构:Meta AI 等
在自监督学习领域,各种方法似乎没有任何共同点,但在实践中却表现相似。该论文对各种自监督学习方法进行了分析探究,发现了它们的共同点。该论文展开研究了一些流行的自监督学习方法,证明其提出的理论能用于实际方法。这篇论文对自监督学习领域具有重要意义。
论文 4:Conditional Antibody Design as 3D Equivariant Graph Translation
作者:孔祥哲,黄文炳,刘洋
机构:清华大学计算机系,清华大学智能产业研究院,中国人民大学高瓴人工智能学院,北京智源人工智能研究院
抗体设计是药物研发的一个重要问题,具有重要的应用前景。本文提出一种基于等变图神经网络的抗体设计方法 MEAN,在给定抗原、抗体重链和轻链的条件下,实现了抗体 CDRs 的设计和优化。与以往方法不同,MEAN 不但考虑了更全的「上下文信息」,而且能直接生成抗体 CDRs 的 1D 氨基酸序列及其 3D 构象,具有更高效率。在多个数据集的完整实验上,MEAN 显著优于已有方法。论文有望为后续湿实验研究提供一种高效的算法工具。
论文 5:Disentanglement with Biological Constraints: A Theory of Functional Cell Types
作者:James C. R. Whittington, Will Dorrell, Surya Ganguli, Timothy Behrens
机构:斯坦福大学、牛津大学、UCL
该研究受生物学启发,揭示了机器学习和神经科学之间有趣的联系,并从数学上证明机器学习中的约束会导致线性网络解缠结(disentanglement)。该研究还通过实验表明,相同的约束对于非线性情况也是有效的。总的来说,这项研究从数学的角度对单个神经元和大脑结构给出了更深层的理解。 参考链接:https://blog.iclr.cc/2023/03/21/announcing-the-iclr-2023-outstanding-paper-award-recipients/
网络中心战是一种美国国防部所创的新军事指导原则,攻击和破坏对方网络系统的战争行为。网络中心战已经成为现代战争的一种重要形式,它与传统的实体攻击相比,具有隐蔽性、快速性和高效性等优势,因此被广泛应用于各种类型的战争。以求化资讯优势为战争优势。
网络中心战的一些特点:
技术含量高:网络中心战需要运用先进的计算机技术、网络技术和信息安全技术,攻击方需要具备高超的黑客攻击技术和专业知识。
可持续性强:网络中心战不需要消耗大量的物质资源,攻击方可以通过远程攻击手段进行长时间的攻击,从而造成更大的损失。
攻击目标广:网络中心站通常是一个关键节点,攻击方可以通过攻击网络中心站,掌控整个网络系统,从而造成更大的损失。
安全防范难度大:网络中心站的安全防范工作相对较难,因为攻击方可以使用各种方法进行攻击,例如漏洞攻击、密码破解、拒绝服务攻击等。
为了应对网络中心战的挑战,各国政府和军队都在积极研发和应用网络安全技术,加强网络安全防御能力,例如利用人工智能技术进行威胁情报分析,加强网络安全监控和预警,提高网络安全响应速度等。
在过去十年中,世界见证了人工智能的指数式增长,特别是基于深度学习的引擎。这些基于深度学习的人工智能引擎构成了现代互联网的骨干,决定了我们每天与技术和社会的互动方式。深度学习引擎给现代软件和硬件系统的设计、开发和部署带来了许多障碍。这些障碍归功于独特的算法级要求,包括高计算、内存和存储强度,以及鉴于深度学习引擎的规模,应用级要求。本论文研究如何实现高性能、高效率和可持续的大规模深度学习系统。论文首先确定了基于深度学习的个性化推荐引擎是生产数据中心人工智能训练和推理周期的主要消费者;对基础设施的高要求不仅阻碍了效率,而且还征收了高环境成本。为了解决个性化推荐引擎带来的独特的系统设计挑战,本论文设计了跨越软件和硬件堆栈的解决方案,通过共同考虑应用层面的特征、独特的神经网络模型架构、数据中心规模影响和底层硬件,优化推理效率。此外,鉴于人工智能和推荐引擎带来的快速增长的基础设施需求,我们表明,系统必须超越性能、功率和能源效率,将环境足迹作为首要的设计目标,以实现可持续计算。论文的结论是,通过平衡性能、效率和可持续性,为设计未来的系统指明了道路,使新兴的人工智能驱动的应用成为可能。
自《研究报告》首次发布以来,颠覆性技术,特别是区块链、物联网、人工智能和机器学习,包括在海关领域,已经有了很大的提升。然而,仍有机会得到更广泛的实施,这就是为什么世界海关组织、世贸组织和其他利益攸关方正在研究这些技术和其他技术,以确定支持国际贸易和更广泛的经济的主要好处,并确定它们可以协助海关管理部门实现其目标,如确保贸易便利化、安全、安保和公平征税。在过去的三年里,两个组织采取了许多举措,包括网络研讨会、在线会议、政策文件和能力建设工作,目的是支持其成员的这些努力。
2021年会议强调了海关在促进全球贸易方面发挥的关键作用。为了使未来的全球供应链更加高效,智能海关必须最大限度地减少清关时间和成本,同时智能地管理进出境货物和车辆。颠覆性技术需要结合使用。此外,在实施创新解决方案时,需要考虑许多因素,如网络安全、数据协作、标识符等。
区块链促进海关流程的潜力是多方面的,从清关到机构间合作、认证、身份管理、合规管理、税收和清关后审计。通过这项技术,在不同的节点上,所有各方都能以最新、最可信、最安全和不可改变的方式即时获得相同的账本副本,从而避免了按照目前的做法,由每一方维持单独的账本。
考虑到区块链的潜力,世界海关组织和世贸组织在过去几年里一直在探索在海关领域使用这项技术。根据世界海关组织2021年年度综合调查(ACS)收到的结果,区块链和分布式账本技术(DLT)对海关来说仍处于实验阶段,约有三分之一的海关当局回应调查,通过概念证明(22个成员)和试点项目(15个成员)测试,主要使用私人(许可)区块链,而只有两个海关当局报告全面部署这一技术。26个海关当局计划在未来三年内采用这种技术,而另外45个海关当局则表示尚未有这方面的计划。
据Statista估计,到2025年,全球物联网将由超过300亿台设备组成(每人超过4台设备)。海关可以努力加强与某些采用物联网应用的利益相关者(托运人、承运人、货代等)的合作,以期迅速获得与某些风险因素相对应的任何信息。因此,海关管理部门将能够专注于使用分析工具,根据通过物联网技术收集的信息,确定高风险和低风险的货物和供应链。
现在,一切与互联网相连或与互联网互动的事物都可以被地理定位,这是一个重要的新参数,也可能为海关提供新的机会。上述调查的一半受访者表示,他们在海关业务流程中使用了物联网,9%的人计划部署物联网。然而,多达40%的人暂时没有使用该技术的计划。在72个部署物联网的受访者中,大多数表示这与X射线或计算机断层扫描(CT)有关,还有相当多的人使用二维码和条形码阅读器、自动车牌阅读器和照相机,以及电子印章(电子封条)。
在海关和边境管理中使用大数据、数据分析、人工智能(AI)和机器学习(ML)在人员跨境流动和商业方面带来了巨大的机会。由于人员和货物的跨境流动产生了大量的数据,这组技术提供了对这些巨大的、不断增加的数据进行分析的能力。这些技术可以用来摄取这些数据,并比人类更准确地检测和预测模式。视觉搜索和面部识别技术,以及已经在其他部门使用的行为和预测分析技术,也可以在海关和边境管理中进一步调整使用。
根据世界海关组织的ACS,几乎45%的海关当局使用数据分析,或人工智能/ML,或两者都使用。有许多案例研究集中在风险管理和目标定位,改善关税分类和税收,打击包括低估在内的欺诈行为,对授权经济运营商(AEO)进行预先分析,等等。
世界各地的政府和组织正在选择生物识别技术来打击身份欺诈和安全漏洞,保护机密数据,降低成本和改善整体用户体验。生物识别技术是信息技术领域中一个快速增长的领域,预计指纹识别仍将是生物识别技术中最主要的形式。海关管理部门在展示机构间协调的有用方法方面具有独特的地位,而生物识别技术需要这种协调。海关管理部门也有很长的协调和机构间工作的历史,因为他们为伙伴政府机构执行法律和法规。他们经常与移民机构在同一地点办公,可以努力促进这些工作的采用和促进。
海关机构、其他政府伙伴和私人行为者应密切监测这一领域,以确定更多的用途,可能用于以下目的:核实身份和控制海关操作员的准入;识别供应链中的不同行为者,如海关经纪人、货运代理、物流操作员和其他人员;等等。
无人机已经是国际贸易供应链的一个组成部分,推动监管机构对该技术更加适应,从而制定一个法律框架,确定它们的运作条件。研究表明,无人机在贸易环境中的整合可以支持经济增长。然而,成功和安全地整合它们需要市场上的所有参与者做好准备并参与到这一过程中来,以确保供应链能够充分实现其利益。在贸易环境中,货物的实际交付模式正在不断地被重新定义。
一些海关管理部门已经在使用无人机进行监视和监测。一些人正越来越多地使用无人机来监测港口地区和沿海地区。这涉及到监控不仅是为了打击毒品走私,也是为了提供空中援助。一架带有高清摄像头的遥控无人机已经被用于水下监控,可以深入到50米深处,对一艘船进行详细扫描。
海关需要监测、分析和理解无人机使用方面的新发展,以及相关的监管发展,并提出适当的政策回应,同时在必要时对海关程序和要求进行潜在的调整。
在海关方面,增强现实和混合现实可用于在物理世界中投射视觉援助,例如在进行物理检查时。另一个潜在用途是大数据集的可视化。当使用混合现实技术时,数据可以作为数字艺术品投射到物理世界中,可以像真实物体一样进行操作。
政府和世界海关组织已经成功地将虚拟现实解决方案用于海关培训目的,以提高检查员识别违禁物品的效率。虚拟培训方案为检查员提供了在低风险的虚拟环境中磨练他们的技能和对其职责和责任的了解,同时遵循一个进展系统。
根据一些报告,2018年全球约有140万台3D打印机发货,估计2027年将有800万台发货。有预测说,3D打印有可能在未来对海关的工作产生重大影响。
一些人认为,海关应参与监测虚拟供应链,有人提出如何实现这一目标的问题,包括现有的法律文书是否足以涵盖这种责任。总的来说,海关与税务机关和其他相关机构的合作(可能作为协调边界管理的一个新层面)被认为在这一领域很重要。
世界海关组织强调了3D打印对原产地、估价、知识产权和安全,特别是对增值税的影响。甚至有人认为,未来可能需要重新定义 "货物 "一词。正如2021年经合组织贸易政策报告所强调的,在评估3D打印机的整体影响方面仍然存在挑战。作为回应,增材制造(3D打印机)的新标题84.85已作为世界海关组织协调制度(HS 2022)2022年版的一部分创建,并于2022年1月1日在国际上生效,这将使各国更好地监测3D打印机及其对贸易的影响。
有必要利用最新的技术,因为旅客和贸易的增长,包括电子商务,已经大大超过了典型的公共服务的演变,挑战我们的传统业务、计划政策和立法。区块链、生物识别技术和人工智能等技术不仅仅是业务的推动者,它们为我们的客户设定了期望,并改变了我们的工作方式。然而,必须将技术变革的重点放在对一个组织的任务至关重要的方面,否则就会有过度投入的风险。
必须根据所需的服务和本组织的需求来评估实施新兴技术的选项。大型的、多年的IT启用项目的高失败率,导致各组织不再进行大型的IT系统开发,而是选择那些在未来可以轻松迁移到新硬件的技术。所使用的新方法的关键是快速失败,快速恢复的原则。
世界海关组织和世界贸易组织广泛探讨了颠覆性技术的主题,分享经验并讨论了不同的项目和吸取的教训。已经为政策制定者考虑了一些可能的建议。其中包括关于海关和私营部门如何合作,以最佳方式利用颠覆性技术促进和保障贸易的建议。
人们普遍认识到需要紧跟这一领域的发展,并不断寻求了解最新技术能够为海关和边境管理带来的挑战和机遇。海关管理部门和其他利益相关者分享的许多试点项目和概念验证(PoCs)的信息显示了对扩大使用这些技术的兴趣,以及对这些技术将为海关实现其目标和支持跨境贸易带来的好处的信心。本研究报告将继续以最新的见解和试点信息进行更新。
来源:中国信息通信研究院、人工智能关键技术和应用评测工业和信息化部重点实验室
随着“十四五”规划等国家政策的深化落地,人工智能(AI)发展迎来又一轮红利,特别是以ChatGPT为代表的生成AI产品预示着AI商业变现过程将进一步提速,AI工程化热度进一步提升。人工智能研发运营体系(MLOps)作为AI工程化重要组成部分,呈现出方法论逐渐成熟、落地应用持续推进的态势。
2023年3月16日,“AI工程化论坛暨MLOps实践指南发布会”在京举办。会上,中国信息通信研究院(简称”中国信通院“)发布《人工智能研发运营体系(MLOps)实践指南(2023年)》。
指南从组织如何布局和落地MLOps的角度出发,以模型的高质量、可持续交付作为核心逻辑,系统性梳理MLOps概念内涵、发展过程、落地挑战,为组织高效构建MLOps框架体系和关键能力提供方法论和实践案例的参考与借鉴,并研判MLOps未来发展趋势。
指南核心观点
**1. MLOps概念渐晰,为解决AI生产过程管理问题意义明显。**MLOps是通过构建和运行机器学习流水线(Pipeline),统一机器学习(ML)项目研发(Dev)和运营(Ops)过程的一种方法,目的是为了提高AI模型生产质效,推动AI从满足基本需求的“能用”变为满足高效率、高性能的“好用”,有效化解模型全链路生命周期管理存在问题,包括跨团队协作难度大、过程和资产管理欠缺、生产和交付周期长等。
**2. 国内外MLOps发展百花齐放,落地仍面临问题和挑战。**2015年至今,从业界意识到机器学习项目技术债给AI生产上线带来的潜在巨大影响伊始,MLOps前后经历了斟酌发酵、概念明确、落地应用三大阶段,且随着新工具不断涌现,在IT、金融、电信等行业得到了广泛应用和落地。但在这个渐进式发展过程中,MLOps落地面临着诸多挑战,包括组织落地驱动力不足、支撑工具选型难集成难、模型治理和可信道阻且长、环境间的交互难以平衡等。
**3. 围绕流水线的构建,MLOps框架体系逐步完善。**基于机器学习项目全生命周期,以CI/CD/CT/CM为核心,通过构建各条机器学习流水线,包含需求分析与开发、数据工程流水线、模型实验工程流水线、持续集成流水线、模型训练流水线、模型服务流水线、持续监控流水线,MLOps全生命周期闭环框架逐步完善。
**4. 渐进式建设关键能力,MLOps落地效应逐步形成。**通过数据处理、模型训练、构建继承、模型服务、运营监控、模型重训、实验管理和流水线管理等能力的建设,形成MLOps过程管理能力的全面把控。通过特征管理、模型管理和仓库管理等能力的建设,形成制品管理能力的提升。同时以模型安全作为AI生产过程中的关键保障之一,MLOps落地效应日益凸显。
随着国家新型基础设施建设发展战略(2020)、国家“十四五规划和 2035 年远景目标纲要”等系列政策的出台,人工智能(AI)发展迎来新一轮红利,科技革命和产业升级处于进行时。近年来,AI 工程化的研究热度持续提升,其目的是帮助组织在数智化转型过程中,更高效、大规模地利用 AI 创造业务价值。人工智能研发运营体系(MLOps)作为 AI 工程化重要组成部分,其核心思想是解决 AI 生产过程中团队协作难、管理乱、交付周期长等问题,最终实现高质量、高效率、可持续的 AI 生产过程。 MLOps 的发展呈现出逐渐成熟的态势,近几年国内外 MLOps 落地应用正持续快速推进,特别是在 IT、银行、电信等行业取得明显效果。与此同时,MLOps 行业应用成熟度不足,使得组织在制度规范的建立、流程的打通、工具链的建设等诸多环节面临困难。因此本指南旨在成为组织落地 MLOps 并赋能业务的“口袋书”,围绕机器学习全生命周期,为模型的持续构建、持续交付、持续运营等过程提供参考,推进组织的 MLOps 落地进程,提高组织 AI 生产质效。 本指南由中国信通院云计算与大数据研究所、人工智能关键技术和应用评测工业和信息化部重点实验室联合发布。本指南站在组织如何布局和落地 MLOps 的视角,以模型的高质量、可持续交付作为核心逻辑,系统性梳理 MLOps 概念内涵、发展过程、落地挑战等现状,并基于 MLOps 的理论研究和实践案例分析组织如何构建 MLOps 框架体系和关键能力,最后总结和展望其发展趋势。由于 AI 产业的快速变革,MLOps 落地应用持续深入,工具市场不断迭代,我们对 MLOps 的认识还有待继续深化,本指南可能仍存在不足之处,欢迎大家批评指正。
**大型语言模型(LLMs)在包括医学在内的各个领域的自然语言理解和生成方面表现出了卓越的能力。我们对GPT-4(一种最先进的LLM)的医疗能力检查和基准数据集进行了全面评估。GPT-4是一个通用模型,它不是通过训练专门用于医疗问题,**也不是设计来解决临床任务的。我们的分析涵盖了美国医学执照考试(USMLE)的两套官方实践材料,这是一个在美国用于评估临床能力和授予执照的三步考试计划。还在MultiMedQA基准数据集上评估了性能。除了测量模型性能外,还进行了实验,以调查包含文本和图像的试题对模型性能的影响,探索训练过程中对内容的记忆,并研究概率的校准,这在医学等高风险应用中至关重要。结果表明,在没有任何专门提示的情况下,GPT-4比USMLE的及格分数高出20分以上,并优于早期的通用模型(GPT-3.5)以及专门针对医学知识进行微调的模型(Med-PaLM,一种快速调整的Flan-PaLM 540B版本)。此外,GPT-4的校准效果明显优于GPT-3.5,在预测其答案正确的可能性方面有了很大的提高。还通过一个案例研究定性地探索了该模型的行为,该案例研究显示了GPT-4解释医学推理、向学生个性化解释的能力,并围绕医学案例交互式地打造新的反事实场景。讨论了研究结果对GPT-4在医学教育、评估和临床实践中的潜在用途的影响,并适当注意准确性和安全性的挑战。 **大型语言模型(LLMs)在解释和生成跨越广泛领域(如自然语言、计算机代码和蛋白质序列)的序列方面表现出了卓越的能力。**许多强大的模型都基于transformer架构[VSP+17],适应于语言并以自监督的方式进行训练[RNS+18, DCLT18]。随着规模的扩大,各种基准的分数通常都有所提高,包括模型大小、数据集大小和训练计算量的增加[KMH+20, LBL+22]。经验发现与理论分析[BS21]产生了共鸣,这表明从大型神经模型进行推断的鲁棒性需要规模[BS21]。在过去的几年中,在大规模跨学科语料库上训练的LLM已经成为创建以任务为中心的系统的强有力的基石[BHA+21]。针对特定领域细化模型的方法包括使用从目标应用中提取的专门数据集进行微调,以及用于指导模型行为的一般方法,如人工反馈强化学习(RLHF),它可以指导系统更好地理解最终用户的请求[BJN+22]。
**人们对LLMs在没有专门微调的情况下为广泛的专门任务做出有用推断的能力也有很大的兴趣。**使用少量甚至零样本提示的通用LLM的性能突出了它们在协助跨问题类型、专业领域和学科的任务方面的潜力[BMR+20]。最近,研究人员调查了基准,这些基准提供了对LLM如何编码临床知识的见解,并可能被利用来增强医学实践。本文比较了最近发布的(纯文本)GPT-4模型与其GPT家族中的前身在医疗挑战问题上的性能。虽然GPT-4的规模度量细节,包括模型参数的数量和训练数据的大小和范围尚未公开,但据报道,这两个维度都明显大于ChatGPT背后的GPT-3.5模型[Ope23]。探索LLM在医疗问题解决方面的能力是一个长期的医学人工智能研究项目的一部分,可以追溯到Ledley和Lusted的经典工作[LL59]。几十年来,对辅助医生的计算方法的探索一直以对不同表示和推理方法的转变为标志,包括核心概率和决策理论方法(如[GB68, HHN92]),基于规则的产生式系统(如[Sho77, BS84]),语义图(如[PSS81]),从医疗信息数据库(如[WGH16, HHPS15, ELS+20, CLG+15])和深度神经网络模型(如[EKN+17,Shj +17, riz +17, msg +20]。虽然在诊断计算机视觉领域开始了使用深度学习来实现人类在医疗任务上水平表现的一系列努力,但自那以来,它已经发展到包括通过自然语言介导的更一般临床推理的基准。在此背景下部署的模型可以在特定的医学语料库上进行训练,或在大量通用语言和/或视觉信息上进行训练的基础模型,然后通过专门的微调使其适应于医学数据。 **本文的主要贡献是研究了GPT-4在医疗挑战性问题上的能力。为了建立强大的比较基线,本文评估了GPT-4和GPT-3.5,并报告了来自Flan-PaLM 540B的结果。**我们的目标是为GPT-4建立“开箱即用”的性能数据。使用了尽可能简单的提示(零样本和随机选择的5样本提示,并直接推断答案),发现GPT-4获得了同类中最好的性能,而不需要精心设计的提示技术或特定领域的微调。我们首先询问了模型在挑战性问题上的表现,这些问题是为评估医学生和住院医生的能力而开发的。
本探索包括对GPT-4在美国医学执照考试(USMLE)第1-3步中的表现进行综合评估。该考试是美国医疗执照官方认证协议的一部分。我们的结果是基于样本考试和由美国国家医学检验师委员会(NBME)正式发布的自我评估材料。结果表明,零样本GPT-4显著优于早期模型,在USMLE测试的自我评估和样本测试中分别取得了86.65%和86.7%的平均分数,而GPT-3.5的平均分数为53.61%和58.78%。在回顾了USMLE研究的结果后,我们检查了其他几个医疗基准。Zero shot GPT-4在MultiMedQA[SAT+22]上的表现明显优于GPT-3.5和最近引入的Flan-PaLM 540B模型,MultiMedQA是医学机器学习文献中常用的一套基准数据集。除了描述整体表现外,我们的调查还涵盖了医学领域LLM行为的其他几个方面。研究了纯文本GPT-4在以文本为中心的考题和依赖图像的考题中的表现。鉴于关于正确概率的可靠信息在医疗保健和其他高风险应用中至关重要,评估了隐式分配给答案的概率的校准。我们评估了该模型通过其训练数据接触(和记忆)考试内容的证据。通过一个案例研究进一步探索了该模型的定性行为,证明了GPT-4解释医学推理的能力,并交互式地支持学生围绕一个医疗案例的反事实场景。最后,研究了研究结果的影响,包括GPT-4及其继任者帮助医学教育和为医疗专业人员提供帮助的潜力,同时考虑到与准确性、公平性和对医学实践的更广泛影响相关的担忧。特别反思了基于基准的性能评估的局限性,并讨论了在现实世界环境中使用GPT-4等模型所需的预防措施和进展。要全面评估这些系统,还有大量工作要做,而且需要非常谨慎。然而,我们期望在现实世界中有多种使用,例如低风险的应用程序,其中包括专家监督作为世代和工作流程的一部分。从长期来看,我们看到GPT-4及其扩展体在医学方面有巨大的潜力。
了解如何使用Apache Spark构建端到端的可扩展机器学习解决方案。通过这份实用指南,作者Adi Polak向数据和ML从业者介绍了替代当今传统方法的创造性解决方案。您将学习一种更全面的方法,使您超越特定的需求和组织目标——允许数据和ML从业者更好地协作和相互理解。基于Spark的机器学习扩展研究了基于Apache Spark生态系统使用Spark MLlib、MLflow、TensorFlow和PyTorch构建端到端分布式机器学习工作流的几种技术。如果你是一名从事机器学习工作的数据科学家,本书将向你展示何时以及为什么要使用每种技术。你会:
https://www.oreilly.com/library/view/scaling-machine-learning/9781098106812/
现有的开放集动作识别方法主要集中在新奇度检测上,假设视频片段显示单个动作,这在现实世界中是不现实的。本文提出一种基于多标签证据学习(MULE)的开放集动作识别和新奇检测的新方法,通过解决同一场景中单个或多个参与者同时进行动作的更一般的问题,超越了之前的新动作检测方法。Beta证据神经网络基于actorcontext-object关系表示,用Beta密度估计多动作的不确定性。在目标函数中添加了证据去偏约束进行优化,以减少视频表示的静态偏差,这可能会错误地将预测和静态线索关联起来。我们开发了一种基于原始对偶平均方案更新的学习算法来优化所提出的问题。优化算法的理论分析证明了原始解序列的收敛性以及损失函数和去偏约束的界。提出了基于不确定性和信念的新奇度估计机制来检测新动作。在两个真实的视频数据集上的广泛实验表明,所提出的方法在单/多角色、单/多动作设置中取得了很好的性能。
在许多任务中,神经网络和深度学习的预测能力目前都很出色。因此,这项技术被应用于各种各样的应用中,在我们的日常生活中发挥着重要作用。因此,这项技术的潜在改进已经成为一个更加重要的话题。**在本文中,我们致力于改进深度学习模型的两个重要方面;表示预测的不确定性以及对大量计算和资源的内在需求的能力。我们通过介绍和陈述本文要回答的两个主要研究问题来开始这项工作。我们进一步为本文将使用的主要技术提供必要的背景知识。本文描述了神经网络和贝叶斯神经网络,即其参数(又称权重和偏差)是随机的,并由概率分布控制的神经网络,而不是固定的,以及(变分)贝叶斯推理,一种根据观测数据更新参数概率分布的方法。**通过剪枝(pruning)和量化(quantization)简要介绍了神经网络压缩和量化(quantization),前者通过显式设置为零来删除不相关的参数和网络的部分内容,后者以硬件友好的格式(如定点)表示网络的权重和中间表示的数值。
**本文的第一部分描述了提高神经网络不确定性估计能力的三个贡献。前两者围绕着在我们观察数据时,通过更好地逼近其参数的概率分布来提高变分贝叶斯神经网络的不确定性质量。**本文提出一种简单的方法,通过矩阵变量高斯分布在神经网络权重之间引入线性依赖;它们是随机矩阵上的分布,可以很容易地对每层中的输入和输出神经元之间的相关性进行建模,这种能力会导致性能的提高,正如我们实验表明的那样。提出了乘归一化流,这是一个通用框架,引入了网络参数之间的非线性依赖关系。这是通过结合辅助随机变量和参数化双射来实现的,以一种允许每层权重之间灵活的相关性,同时仍然是计算可处理的。实验表明,与之前工作的简单高斯变分近似相比,不确定性质量得到了提高。这部分的最后一个贡献对应于功能神经过程,一个采用不同视角的模型;它不是假设概率分布并对神经网络权值进行(变分)推理,而是采用随机过程的建模框架,从而假设概率分布并对神经网络的函数空间进行推理。这有一个额外的好处,即更容易的推理和更直观的建模任务,因为它允许我们推理数据集中点之间的关系,通过引入一个“参考”点集,而不是不可解释的神经网络参数来实现。实验表明,这种模型提供了更好的不确定性质量,同时保持了可比的预测性能。
**第二部分介绍了三种新的压缩技术,它们可以让我们学习更小、更快的神经网络,从而减少所需的计算量和资源。**第一个贡献对应于贝叶斯压缩,这是一种变分贝叶斯推理过程,通过对网络参数进行精心选择的概率分布,可以通过联合修剪和量化来揭示高性能和计算高效的架构。虽然这种方法可能导致高度压缩的架构,但它缺乏对特定任务或问题进行修剪或量化的细粒度自适应。因此,其他两项贡献旨在分别处理剪枝和量化。第二个贡献对应于一种新的L0范数优化方法,L0范数是神经网络稀疏性的黄金标准。本文提出一种通用技术,通过适当数量的噪声,可以对不可微L0范数进行基于梯度的优化。实验表明,这种方法可以产生准确和高度稀疏的模型,同时它可以通过条件计算和适当的软件进行稀疏训练,这也可以促进更快的训练。最后,为了最后的贡献,我们采用类似的思想并引入松弛量化;基于梯度的优化过程,允许学习神经网络,其中参数和激活位于(自适应)量化网格上。经验表明,这允许在大规模任务中训练准确的神经网络,同时每权重和激活只需4位。最后,对研究问题进行了回答,同时讨论了所提出方法的缺陷和缺点,并指出了有希望的研究方向。
GPT-4 打开通用人工智能之门?
人工智能(AI)研究人员一直在开发和完善大型语言模型(LLM),这些模型在各种领域和任务中表现出非凡的能力,挑战了我们对学习和认知的理解。OpenAI开发的最新模型GPT-4是使用前所未有的计算和数据规模进行训练的。本文报告了对早期版本的GPT-4的调研,当时它仍由OpenAI积极开发。我们认为(这个早期版本)GPT-4是新一代LLM的一部分(例如ChatGPT和谷歌的PaLM),它们比以前的人工智能模型表现出更多的通用智能。讨论了这些模型不断提高的能力和影响。**证明了GPT-4除了对语言的掌握外,还可以解决跨越数学、编码、视觉、医学、法律、心理学等新颖和困难的任务,而不需要任何特别的提示。此外,在所有这些任务中,GPT-4的性能惊人地接近人类水平的性能,并经常大大超过之前的模型,如ChatGPT。**鉴于GPT-4能力的广度和深度,我们相信它可以被合理地视为人工通用智能(AGI)系统的早期(但仍不完整)版本。在对GPT-4的探索中,特别强调了发现其局限性,并讨论了向更深入、更全面的AGI版本前进的挑战,包括可能需要追求一种超越下一个词预测的新范式。最后,反思了最近技术飞跃的社会影响和未来的研究方向。
**1. 引言 **
智力是一个多方面的、难以捉摸的概念,长期以来一直挑战着心理学家、哲学家和计算机科学家。1994年,52名心理学家组成的小组在一篇关于智力科学的社论中签署了一个宽泛的定义,试图抓住它的本质。小组将智力定义为一种非常普遍的心智能力,其中包括推理、计划、解决问题、抽象思考、理解复杂想法、快速学习和从经验中学习的能力。这一定义意味着智力并不局限于特定的领域或任务,而是包含了广泛的认知技能和能力。构建一个显示出1994年共识定义所捕获的那种通用智能的人工系统,是人工智能研究的一个长期而雄心勃勃的目标。在早期的著作中,人工智能(AI)研究现代学科的创始人提出了一系列理解智能的理想目标[MMRS06]。几十年来,人工智能研究人员一直在追求智能的原则,包括可泛化的推理机制(例如,[NSS59], [LBFL93])和包含大型常识语料库的知识库的构建[Len95]。然而,人工智能研究的许多最新成功可以被描述为狭隘地专注于明确定义的任务和挑战,例如下国际象棋或围棋,这些分别在1996年和2016年被人工智能系统掌握。在20世纪90年代末和21世纪初,开发更通用的AI系统的呼声越来越高(例如,[SBD+96]),该领域的学术界试图确定可能用于更通用智能系统(例如,[Leg08, GHT15])的原则。“通用人工智能”(AGI)一词在21世纪初流行开来(见[Goe14]),以强调从“狭义人工智能”(如正在开发的集中的、现实世界的应用程序所示)转向更广泛的智能概念的愿望,唤起了早期人工智能研究的长期愿望和梦想。我们使用AGI来指的是显示上述1994定义中所捕获的广泛智能能力的系统,以及这些能力达到或超过人类水平的额外要求,这可能隐含在共识组的工作中。然而,我们注意到,AGI没有一个被广泛接受的单一定义,我们在结论部分讨论了其他定义。
过去几年人工智能研究中最显著的突破是通过大型语言模型(LLMs)实现的自然语言处理的进步。这些神经网络模型**基于Transformer架构[VSP+17],并在大量Web-文本数据语料库上进行训练,其核心是使用自监督目标来预测部分句子中的下一个单词。**本文报告了由OpenAI开发的一个新的LLM,它是GPT-4的早期和非多模态版本[Ope23],根据1994年的定义,显示出许多智能的特征。尽管纯粹是一个语言模型,但这个早期版本的GPT-4在各种领域和任务上表现出了卓越的能力,包括抽象、理解、视觉、编码、数学、医学、法律、理解人类的动机和情感等。在OpenAI的早期开发中,我们使用纯自然语言查询(提示)与GPT-4进行交互。在图1.1中,我们展示了GPT-4输出的一些初步示例,包括用一首诗的形式证明无穷素数,用TiKZ(一种用于在LATEX中创建图形的语言)画一只独角兽,用Python创建一个复杂的动画,以及解决一个高中水平的数学问题。它很容易完成所有这些任务,并且产生的输出基本上与人类的输出没有区别(甚至比人类的输出更好)。还将GPT-4的性能与之前的LLM进行了比较,其中最著名的是ChatGPT,它是GPT-3 [BMR+20]的微调版本。在图1.2中,我们展示了向ChatGPT请求无限素数诗和TikZ独角兽图的结果。虽然系统在两个任务上的表现都很出色,但与GPT-4的输出无法比较。这些初步观察结果将在本文中在各种任务中重复出现。GPT-4能力的通用性,与跨越广泛领域的众多能力的结合,以及它在广泛的任务范围上达到或超过人类水平的性能,使我们可以轻松地说,GPT-4是迈向AGI的重要一步。
我们声称GPT-4代表了AGI的进步,但这并不意味它所做的事情上是完美的,或者它接近于能够做人类可以做的任何事情(这是AGI的通常定义之一;有关这方面的更多信息,请参阅结论部分),或者它有内在的动机和目标(AGI某些定义中的另一个关键方面)。事实上,即使在1994年智能定义的受限背景下,也不完全清楚GPT-4可以在智能的某些轴上走多远,例如规划(见第8节),而且可以说它完全没有“快速学习并从经验中学习”这一部分,因为模型没有不断更新(尽管它可以在一个会话中学习,例如见第5节)。总的来说,GPT-4仍然有许多局限性和偏差,我们在下面详细讨论,这些也在OpenAI的报告[Ope23]中有所涉及。特别是它仍然遭受的一些证据确凿的缺点LLM如幻觉(MNBM20)的问题(见图1.8)或犯基本的算术错误CKB + 21,然而它也克服一些基本的障碍,如获得许多非语言功能(例如,它解决了大部分的LLM [MIB + 23]中描述失效模式,并取得了很大的进步在常识性的,参见图1.7第一个例子和附录a)。这突出了一个事实,尽管GPT-4在许多任务上都达到或超过了人类的水平,但总体上它的智能模式显然与人类不同。然而,几乎可以肯定的是,GPT-4只是迈向一系列越来越普遍的智能系统的第一步,事实上,在我们的测试过程中,GPT-4本身已经得到了改进,参见图1 - 3,了解在一个月的训练过程中独角兽绘图的演变2。然而,即使作为第一步,GPT-4也挑战了大量广泛接受的关于机器智能的假设,并展示了涌现的行为和能力,这些行为和能力的来源和机制目前还难以精确地识别(再次参阅结论部分以了解有关此的更多讨论)。撰写本文的主要目标是分享我们对GPT-4的能力和限制的探索,以支持我们的评估,即技术飞跃已经实现。我们相信,GPT-4的智能标志着计算机科学及其他领域的真正范式转变。
1.1 GPT-4智能的研究方法
我们如何衡量一个在未知但极其庞大的web-text数据语料库上训练的LLM的智能?机器学习中标准的方法是在一组标准基准数据集上评估系统,确保它们独立于训练数据,并且覆盖一系列任务和领域。这种方法旨在将真正的学习与单纯的记忆分开,并有丰富的理论框架支持[SSBD14, MRT18]。然而,这种方法并不一定适用于研究GPT-4,原因有二。首先,由于我们无法访问其大量训练数据的全部细节,我们必须假设它可能已经看到了每个现有的基准,或至少一些类似的数据。例如,似乎GPT-4知道最近提出的BIG-bench [SRR+22](至少GPT-4知道BIG-bench中的canary GUID)。当然,OpenAI本身可以访问所有的训练细节,因此他们的报告[Ope23]包含许多详细的基准测试结果。然而,超越传统基准的第二个原因可能更重要:GPT4智能的关键方面之一是它的通用性,表面上理解和连接任何主题的能力,以及执行超出狭窄AI系统典型范围的任务的能力。GPT-4一些最令人印象深刻的表现是在不承认单一解决方案的任务上,例如编写图形用户界面(GUI)或帮助人类对一些与工作有关的问题进行头脑风暴。也可以设计此类生成式或交互式任务的基准,但评估的指标成为一个挑战(例如,有关NLP这一活跃研究领域的一些最新进展,请参见[PSZ+21])。我们注意到,[Cho19]也对衡量AI系统的标准方法提出了批评,其中提出了一个新的基准来评估通用智能。由于前面提到的原因,以及该基准本质上是可视化的,因此更适合[Ope23]中描述的GPT-4的多模态版本,我们没有在后一个基准上测试GPT-4。 为克服上述限制,本文提出一种研究GPT-4的不同方法,更接近传统心理学而不是机器学习,利用人类的创造力和好奇心。本文旨在生成新的和困难的任务和问题,令人信服地证明GPT-4远远超出了记忆,并且它对概念、技能和领域有深刻和灵活的理解([CWF+22]中也提出了某种类似的方法)。探讨了GPT-4的反应和行为,以验证其一致性、连贯性和正确性,并揭示其局限性和偏差。我们承认这种方法有些主观和非正式,它可能无法满足科学评估的严格标准。然而,我们相信这是欣赏GPT-4非凡的能力和挑战的有用和必要的第一步,这样的第一步为开发更正式和全面的方法来测试和分析具有更通用智能的AI系统开辟了新的机会。
为了说明我们评估GPT-4智能的方法,让我们考虑图1.1中与GPT-4交互的前两个示例。第一个例子是要求GPT-4以一首诗的形式证明质数的无限。这是一项具有挑战性的任务,需要结合初等数学推理、诗意表达和自然语言生成。第二个例子是让GPT-4在TiKZ中画一只独角兽。这是另一项具有挑战性的任务,需要结合视觉想象力和编码技能。在这两种情况下,GPT-4产生了令人印象深刻的输出,远远优于之前最先进的LLM ChatGPT,至少可以媲美(如果不是优于)人类会做的事情。
然而,令人印象深刻的输出还不足以让我们相信GPT-4已经真正掌握了这些任务。我们需要进一步研究,以排除GPT-4只是简单地记忆或复制一些现有数据的可能性。对于这篇诗,我们可以稍微改变一下问题,让GPT-4用莎士比亚的风格写一个同样定理的证明,见图2.2,或者要求不同的组合,比如写一个关于语言模型的柏拉图式对话,见图1.6。可以看到,GPT-4很容易适应不同的风格并产生令人印象深刻的输出,这表明它对所涉及的概念有灵活和普遍的理解。对于独角兽,我们可以稍微修改一下代码,然后让GPT-4修复或改进它。例如,我们可以删除角,对坐标应用一些随机变换,然后让GPT-4将角重新添加到独角兽中(我们还小心地删除了代码中的文本信息,如注释)。如图1 -4所示,GPT-4可以正确识别头部的位置,绘制一个角,并将其连接到头部,这表明它可以基于自然语言描述理解和操作代码,以及推断和生成视觉特征。这些例子展示了我们如何利用人类的创造力和好奇心来产生新的和困难的问题,并探索GPT-4的反应和行为,以评估其智力。在本文的其余部分,我们围绕用例组织了对GPT-4的研究,涵盖了各种领域和任务,并强调了GPT-4的优点和缺点。我们接下来会介绍这些。
1.2 实验
我们在几个选定的主题上执行上述方法,这些主题大致涵盖了1994年智力定义中给出的不同能力。智力是一种非常普遍的心智能力,包括推理、计划、解决问题、抽象思考、理解复杂想法、快速学习和从经验中学习的能力。
**1. GPT-4的主要优势是它对自然语言无与伦比的掌握。**它不仅可以生成流畅连贯的文本,还可以以各种方式理解和操纵它,例如总结、翻译或回答一系列极其广泛的问题。此外,我们所说的翻译不仅指不同自然语言之间的翻译,还包括语气和风格上的翻译,以及跨领域的翻译,如医学、法律、会计、计算机编程、音乐等,参见图1.6中的柏拉图对话。这些技能清楚地证明了GPT-4可以理解复杂的想法。在第2节中进一步探讨了GPT-4跨模式和学科的组合技能。我们还在第7节中给出了更多关于语言的实验。
**2. 编码和数学是抽象推理和思考能力的象征。**在第3节和第4节中,我们分别探讨了GPT4在这些领域的能力。然而,我们注意到,就像论文的所有其他部分一样,我们只是触及了这些主题的皮毛,整篇论文可以(并且将会)讨论GPT-4在这些领域的性能。此外,我们可以选择其他几个专家领域来展示GPT-4的一般推理能力,如医学或法律。我们对美国医学执照考试第1步、第2步和第3步的选择题部分(大部分分数)进行了初步测试(详见[Ope23]),每一步的准确率都在80%左右。对GPT-4在多州司法考试中的能力进行的类似初步测试显示,准确率在70%以上。我们注意到,最近在最新一代LLM中观察到这些领域出现了人类水平的能力,例如,数学和医学上的谷歌's PaLM参见[LAD+22, SAT+22],法律上的GPT-3.5参见[BIK22]。正如我们之前解释的,我们研究GPT-4的方法不同于这些工作。
**3.在第5节中,我们将测试模型规划和解决问题的能力,**以及在一定程度上通过让它玩各种游戏(或翻桌子,模拟游戏环境)以及与工具交互来快速学习和从经验中学习的能力。特别是,GPT-4可以使用工具(包括它自己)这一事实,对于使用GPT-4构建实际应用程序肯定是非常重要的。
**4. 我们争论的一个重要部分是,GPT-4在许多任务上达到了人类水平的性能。**因此,我们很自然地会问,GPT-4对人类本身的理解程度如何。我们在第6节中展示了关于这个问题的几个实验,包括理解人类以及GPT-4使自己为人类所理解的实验,即解决可解释性问题。我们特别注意到,此类任务需要大量的常识,这是迄今为止LLM的众所周知的痛点[DM15]。在图1.7中,我们给出了GPT-4在常识性问题上比ChatGPT好多少的第一个例子,并在附录a中提供了一些进一步的例子。
5. 在整篇论文中,每当我们发现局限性时,我们都会强调,但我们也将第8节专门用于深入分析缺乏规划,这可能是GPT-4架构的自回归性质的直接后果。
6. 最后,在第9节中,我们讨论了这种早期形式的AGI的预期社会影响,在第10节中,我们分享了该领域的关键挑战、方向和下一步步骤。
许多读者脑海中可能挥之不去的一个问题是,GPT-4是否真正理解所有这些概念,或者它只是在没有任何真正或深入理解的情况下,在即兴发挥方面比之前的模型好得多。我们希望在阅读本文后,这个问题应该几乎翻转过来,人们可能会想,除了即兴发挥之外,真正的理解还有多少。有人能合理地说一个通过了软件工程候选人考试的系统(图1.5)不是真正的智能吗? 也许对理解的唯一真正考验是一个人是否可以产生新的知识,例如证明新的数学定理,这是LLM目前仍然无法实现的壮举。
结论
**本文在广泛的任务和领域中展示了对GPT-4的初步探索,为GPT-4的能力在其中许多方面与人类水平相当的说法提供了支持性证据。**这一结论与OpenAI在[Ope23]中提出的研究结果一致。实验的一个主要目标是对GPT-4的智能进行初步评估,鉴于这一概念缺乏正式定义,这是一项艰巨的任务,特别是对人工系统。希望我们的探索为理解GPT-4的卓越能力和挑战提供了有用和必要的第一步,并为开发更正式和全面的方法来测试和分析具有如此广泛智能的未来AI系统开辟了新机会。上述模型在深度和通用性方面的能力表明,机器学习社区需要通过结构化的数据集和任务超越经典的基准测试,并且对这些新模型的能力和认知能力的评估在本质上已经更接近于评估人类的能力,而不是狭义AI模型的能力。希望我们的研究能够促进对GPT-4和类似系统的进一步研究,无论是在探索新的应用和领域方面,还是在理解其智能基础的机制和原理方面。**本文工作的中心主张是,GPT-4实现了一种形式的通用智能,确实展示了人工通用智能的火花。**这可以通过它的核心心智能力(如推理、创造力和推理),它获得专业知识的主题范围(如文学、医学和编码),以及它能够执行的各种任务(如玩游戏、使用工具、解释自己,……)来证明。要创建一个有资格成为完整AGI的系统,还有很多工作要做。最后,讨论了几个直接的下一步步骤,包括定义AGI本身,构建AGI LLM中缺失的一些组件,以及更好地理解最近LLM所显示的智能的起源。