从Google Gemini到OpenAI Q*：生成式人工智能（AI）研究领域的综述

这段全面的综述探讨了生成式人工智能（AI）不断演变的格局，特别关注了混合专家模型（Mixture of Experts，MoE）、多模态学习以及朝向人工通用智能（AGI）的推测性进展的转型影响。它严格审视了生成式人工智能（AI）的当前状态和未来轨迹，探索了像谷歌的Gemini和期待中的OpenAI Q*项目这样的创新是如何重塑研究优先事项和在各个领域的应用，包括对生成式AI研究分类法的影响分析。它评估了这些技术的计算挑战、可扩展性和现实世界的影响，同时强调了它们在推动像医疗健康、金融和教育等领域显著进展的潜力。它还讨论了由AI主题和AI生成的预印本的扩散所带来的新兴学术挑战，检查了它们对同行评审过程和学术交流的影响。研究强调了在AI发展中融入伦理和以人为本的方法的重要性，确保与社会规范和福祉的一致，并概述了一个未来AI研究的战略，该战略聚焦于MoE、多模态和AGI在生成式AI中的平衡和审慎使用。

人工智能（AI）的历史背景可以追溯到艾伦·图灵的“模仿游戏”[1]、早期的计算理论[2]、[3]，以及第一批神经网络和机器学习的发展[4]、[5]、[6]，这为今天的高级模型奠定了基础。这种演变，被像深度学习和强化学习的兴起这样的关键时刻突出地表现出来，对塑造当代AI的趋势至关重要，包括复杂的混合专家模型（MoE）和多模态AI系统，展示了该领域的动态和不断演进的特性。这些进展证明了AI技术的动态和不断发展的本质。人工智能（AI）的演化在大型语言模型（LLMs）的出现，特别是由OpenAI开发的ChatGPT，以及最近Google的Gemini[7]、[8]的揭幕，见证了一个关键的转折点。这项技术不仅彻底改变了行业和学术界，还重新点燃了关于AI意识及其对人类潜在威胁的关键讨论[9]、[10]、[11]。这样的先进AI系统的发展，包括像Anthropic的Claude和现在的Gemini这样的重要竞争者，它们展示了对比GPT-3和Google自己的LaMDA的几项进步，重塑了研究格局。Gemini具有通过双向对话学习的能力，以及其“尖峰与板块”注意力方法，使其能够在多轮对话中专注于上下文的相关部分，代表了在开发更适合多领域对话应用的模型方面的重大飞跃。这些在LLMs中的创新，包括Gemini所采用的混合专家方法，标志着向能够处理多样输入并促进多模态方法的模型的转变。在这种背景下，OpenAI被称为Q*（Q-星）的项目的猜测已经浮出水面，据称结合了LLMs的强大能力和像Q学习和A*（A-星算法）这样的复杂算法，进一步促进了动态的研究环境。

**A. 人工智能研究热度的变化 **

随着大型语言模型（LLMs）领域的不断发展，由Gemini和Q*等创新所体现，大量研究浮现出来，旨在描绘未来研究的道路，这些研究从识别新兴趋势到强调快速进展的领域各不相同。已建立方法和早期采纳的二分法很明显，LLM研究中的“热门话题”正日益转向多模态能力和由对话驱动的学习，正如Gemini所展示的那样。预印本的传播加速了知识共享，但也带来了降低学术审查的风险。Retraction Watch指出的固有偏见问题，以及关于剽窃和伪造的担忧，构成了重大障碍[12]。因此，学术界站在一个十字路口，需要统一努力，以根据该领域快速发展的背景来完善研究方向，这种变化似乎可以通过随时间变化的不同研究关键词的流行程度来部分追踪。像GPT这样的生成式模型的发布和ChatGPT的广泛商业成功具有影响力。如图1所示，某些关键词的兴衰似乎与重要的行业里程碑有关，例如2017年“变换器”模型的发布[13]、2018年GPT模型的发布[14]，以及2022年12月商业化的ChatGPT-3.5。例如，与神经网络应用的突破相一致的是对“深度学习”的搜索高峰，而随着像GPT和LLaMA这样的模型重新定义了语言理解和生成的可能性，“自然语言处理”的兴趣激增。尽管有些波动，对AI研究中的“伦理/道德”持续关注反映了对AI道德维度的持续和根深蒂固的关切，强调道德考虑不仅仅是一种反应措施，而是AI讨论中不可分割和持久的对话[15]。

从学术角度来看，假设这些趋势是否意味着一种因果关系，即技术进步驱动研究重点，或者蓬勃发展的研究本身推动了技术发展，这是相当有趣的。本文还探讨了AI进步的深远社会和经济影响。我们检查了AI技术如何重塑各个行业，改变就业格局，并影响社会经济结构。这一分析突出了AI在现代世界中所提出的机遇和挑战，强调了其在推动创新和经济增长方面的作用，同时也考虑了伦理影响和对社会的潜在破坏性。未来的研究可能会提供更明确的见解，但创新与学术好奇心之间的同步互动仍然是AI进步的标志。

与此同时，如图2所示，在arXiv上发布的计算机科学>人工智能（cs.AI）类别下的预印本数量的指数增长，似乎标志着AI社区内研究传播的范式转变。尽管快速分发研究成果使知识交流迅速，但它也引发了对信息验证的担忧。预印本的激增可能导致未经验证或有偏见的信息的传播，因为这些研究没有经过同行评审出版物典型的严格审查和可能的撤回[16]、[17]。这一趋势强调了学术界需要谨慎考虑和批判，特别是考虑到这些未经审核的研究可能被引用和它们的发现被传播的潜力。

**B. 研究目标 **

本次综述的动力是Gemini的正式揭幕和围绕Q项目的推测性讨论，这促使对生成式人工智能（AI）研究的主流趋势进行及时审视。本文具体贡献于理解混合专家模型（MoE）、多模态和人工通用智能（AGI）如何影响生成式AI模型，为这三个关键领域提供详细的分析和未来方向。本研究旨在批判性地评估现有研究主题中过时或无关紧要的可能性，同时深入探讨在快速变化的LLM格局中新兴的前景。这种探询让人想起了以加密为中心或基于文件熵计学的勒索软件检测方法的过时本质，这些方法已被勒索软件集团向利用多种攻击向量的数据盗窃策略的转变所取代，使得现代关于加密勒索软件的研究处于落后者的地位[18]、[19]。预期AI的进步不仅会在语言分析和知识合成方面提高能力，还将在混合专家模型（MoE）[20]、[21]、[22]、[23]、[24]、[25]、多模态[26]、[27]、[28]、[29]、[30]和人工通用智能（AGI）[31]、[32]、[10]、[11]等领域开创先河，并已经宣告了传统的、以统计为驱动的自然语言处理技术在许多领域的过时[8]。然而，AI与人类伦理和价值观保持一致的永恒要求仍然是一个基本原则[33]、[34]、[35]，而推测性的Q-Star计划提供了一个前所未有的机会，来引发关于这些进步如何重塑LLM研究地形的讨论。在这种环境中，NVIDIA的高级研究科学家兼AI代理负责人吉姆·范博士（Dr. Jim Fan）对Q的见解，尤其是关于学习和搜索算法的融合，为这种努力的潜在技术构建和能力提供了宝贵的视角。我们的研究方法涉及使用“大型语言模型”和“生成式AI”等关键词进行结构化文献搜索。我们在IEEE Xplore、Scopus、ACM Digital Library、ScienceDirect、Web of Science和ProQuest Central等几个学术数据库中使用过滤器，以识别2017年（“变换器”模型发布）到2023年（本文撰写时间）期间发表的相关文章。本文旨在剖析Gemini和Q的技术影响，探讨它们（以及类似技术的不可避免出现）如何改变研究轨迹并在AI领域开辟新视野。在此过程中，我们确定了三个新兴的研究领域——MoE、多模态和AGI——它们将深刻地重塑生成式AI研究格局。本次调查采用综述式方法，系统地绘制了一幅综合并分析生成式AI当前和新兴趋势的研究路线图。

本研究的主要贡献如下：

对生成式AI不断演变的格局进行了详细考察，强调了像Gemini和Q这样的技术的进步和创新及其在AI领域的广泛影响。
分析了先进生成式AI系统对学术研究的转型效应，探讨了这些发展如何改变研究方法、设立新趋势，并可能导致传统方法的过时。
全面评估了生成式AI在学术界整合中引起的伦理、社会和技术挑战，强调了将这些技术与伦理规范保持一致的重要性，确保数据隐私，并制定全面的治理框架。

本文的其余部分安排如下：第二部分探讨了生成式AI的历史发展。第三部分提出了当前生成式AI研究的分类。第四部分探讨了混合专家模型（MoE）的架构、其创新特性及其对基于变换器的语言模型的影响。第五部分讨论了Q*项目的推测能力。第六部分讨论了AGI的预期能力。第七部分考察了最近进展对生成式AI研究分类法的影响。第八部分确定了生成式AI的新兴研究优先事项。第十部分讨论了AI中预印本快速增长的学术挑战。本文在第十一部分结束，总结了这些发展对生成式AI的总体影响。当前生成式AI研究分类法生成式人工智能（AI）领域正在迅速发展，这需要一个全面的分类法，涵盖该领域内研究的广度和深度。如表I所详述，这个分类法将生成式AI的主要研究和创新领域进行了分类，并作为理解该领域当前状态的基础框架，指导我们穿越不断发展的模型架构、先进训练方法、多样的应用领域、伦理含义和新兴技术前沿的复杂性。

生成式AI模型架构经历了显著的发展，其中四个关键领域尤为突出：

Transformer模型：Transformer模型在AI领域，尤其是在自然语言处理（NLP）中，因其更高的效率和可扩展性而引起了革命性的变化[139]、[140]、[141]。它们采用先进的注意力机制来实现增强的上下文处理，使得对细微理解和交互成为可能[142]、[143]、[144]。这些模型也在计算机视觉领域取得了显著进展，例如开发了EfficientViT [145]、[146]和YOLOv8 [147]、[148]、[149]这样的视觉Transformer。这些创新象征了Transformer模型在如对象检测等领域的扩展能力，不仅提高了性能，还增强了计算效率。

循环神经网络（RNNs）：RNNs在序列建模领域表现卓越，特别适用于处理涉及语言和时间数据的任务，因为它们的架构专门设计用于处理数据序列，如文本，使它们能有效捕捉输入的上下文和顺序[150]、[151]、[152]、[153]、[154]。这种处理序列信息的能力使它们在需要深入理解数据时间动态的应用中不可或缺，例如自然语言任务和时间序列分析[155]、[156]。RNNs在维持序列上连续性方面的能力是AI更广泛领域的关键资产，特别是在上下文和历史数据发挥关键作用的场景中[157]。

混合专家模型（MoE）：MoE模型通过在多个专业化专家模块上部署模型并行处理，显著提高效率，使这些模型能够利用基于Transformer的模块进行动态令牌路由，并扩展到数万亿参数，从而降低内存占用和计算成本[94]、[98]。MoE模型因其能够在不同的专家之间分配计算负载而脱颖而出，每个专家专注于数据的不同方面，这使得更有效地处理大规模参数，导致更高效和专业化地处理复杂任务[94]、[21]。

多模态模型：多模态模型整合了如文本、视觉和音频等多种感官输入，对于全面理解复杂数据集至关重要，尤其是在诸如医学成像[113]、[112]、[115]等领域具有变革性作用。这些模型通过使用多视图管道和交叉注意力模块，实现准确和数据高效的分析[158]、[159]。这种多样感官输入的整合，使得数据解释更为细腻和详尽，增强了模型准确分析和理解各种信息类型的能力[160]。不同数据类型的组合，同时处理，使这些模型能够提供全面视图，特别适用于需要深入和多方面理解复杂情景的应用[113]、[161]、[162]、[160]。

生成式AI研究中的新兴趋势正在塑造技术和人类互动的未来，并表明了一个向更集成、交互和智能化的AI系统的动态转变，推动AI领域可能性的边界向前发展。这一领域的关键发展包括： * 多模态学习：AI中的多模态学习是一个快速发展的子领域，专注于结合语言理解、计算机视觉和音频处理，以实现更丰富、多感官的上下文意识[114]、[268]。最近的发展，如Gemini模型，通过在各种多模态任务中展示最先进的性能，包括自然图像、音频和视频理解以及数学推理，树立了新的基准[112]。Gemini的固有多模态设计体现了不同信息类型之间的无缝整合和操作[112]。尽管取得了进步，多模态学习领域仍面临着持续的挑战，例如改进架构以更有效地处理多样化的数据类型[269]、[270]，开发能够准确代表多方面信息的综合数据集[269]、[271]，以及建立评估这些复杂系统性能的基准[272]、[273]。 * 交互式和协作式AI：这个子领域旨在增强AI模型与人类在复杂任务中有效协作的能力[274]、[35]。这一趋势聚焦于开发可以与人类共同工作的AI系统，从而在各种应用中提高用户体验和效率，包括生产力和医疗保健[275]、[276]、[277]。这个子领域的核心方面涉及在可解释性[278]、理解人类意图和行为（心理理论）[279]、[280]，以及AI系统与人类之间的可扩展协调方面推进AI，这种协作方法对于创造更直观和交互式的AI系统至关重要，能够在多样化的情境中协助和增强人类能力[281]、[35]。 * AGI开发：AGI代表了打造模仿人类认知的全面和多方面特性的AI系统的远见目标，是一个专注于开发具有整体理解和复杂推理能力的AI的子领域，这些能力与人类认知能力的深度和广度密切相关[282]、[283]、[32]。AGI不仅仅是复制人类智能，还涉及打造能够自主执行多种任务、展示与人类相似的适应性和学习能力的系统[282]、[283]。AGI的追求是一个长期愿景，不断推动AI研究和发展的边界。 * AGI限制：AGI安全和限制承认与高度先进的AI系统相关的潜在风险，专注于确保这些先进系统不仅在技术上精湛，而且在伦理上与人类价值观和社会规范保持一致[15]、[32]、[11]。随着我们向发展超级智能系统的方向前进，建立严格的安全协议和控制机制变得至关重要[11]。关注的核心领域包括缓解表征偏见、解决分布变化，以及在AI模型中纠正虚假相关性[11]、[284]。目标是通过将AI发展与负责任和伦理标准保持一致，防止意外的社会后果。

**Q*的推测能力 **

在蓬勃发展的AI领域中，备受期待的Q项目被视为潜在突破的灯塔，预示着可能重新定义AI能力格局的进步（见图5）。

A. 增强的通用智能

Q在通用智能领域的发展代表了从专业化到整体化AI的范式转变，表明了模型认知能力类似于人类智能的扩展。这种高级形式的通用智能涉及整合多种神经网络架构和机器学习技术，使AI能够无缝地处理和综合多方面的信息。通用适配器方法，模仿像T0这样的模型，可能赋予Q快速吸收来自各个领域知识的能力。这种方法允许Q*学习适应性模块插件，增强其处理新数据类型的能力，同时保留现有技能，从而形成一个将狭窄专业化结合成为全面、适应性和多功能推理系统的AI模型。

B. 高级自学与探索

在高级人工智能（AI）开发领域，Q* 预计将代表自学习和探索能力的显著进化。有人猜测它将使用复杂的策略神经网络（NNs），类似于AlphaGo中的那些，但对于处理语言和推理任务的复杂性进行了实质性的增强。预计这些网络将采用高级的强化学习技术，如近端策略优化（PPO），这稳定了策略更新并提高了样本效率，这是自主学习中的一个关键因素。将这些NNs与尖端搜索算法结合，可能包括思维树或思维图的新型迭代版本，被预测为使Q能够自主导航和吸收复杂信息。这种方法可能会利用图神经网络来增强元学习能力，使Q能够迅速适应新任务和环境，同时保留先前获得的知识。

C. 卓越的人类水平理解

有人猜测，Q实现卓越的人类水平理解的愿望可能依赖于多个神经网络的高级集成，其中包括价值神经网络（VNN），与AlphaGo等系统中的评估组件相似。这个网络将不仅仅限于评估语言和推理过程中的准确性和相关性，还会深入探讨人类沟通的微妙之处。该模型的深度理解能力可以通过先进的自然语言处理算法和技术来增强，比如在DeBERTa等变换器架构中找到的那些。这些算法将使Q能够解释不仅仅是文本，还包括意图、情感和潜在含义等微妙的社交情感方面。通过结合情感分析和自然语言推理，Q*可以浏览各种社交情感洞察，包括共情、讽刺和态度。

D. 高级常识推理

有人预测，Q在高级常识推理方面的发展将整合复杂的逻辑和决策算法，可能结合了符号AI和概率推理的元素。这种整合旨在赋予Q对日常逻辑的直观理解，以及与人类常识类似的理解，从而弥合人工智能和自然智能之间的重要差距。Q推理能力的增强可能涉及到图结构化的世界知识，包括物理和社交引擎，类似于CogSKR模型中的引擎。这种以物理现实为基础的方法预计能够捕捉并解释当代人工智能系统经常缺乏的日常逻辑。通过利用大规模知识库和语义网络，Q可以有效地应对复杂的社交和实际场景，使其推理和决策更贴近人类的经验和期望。

E. 广泛的现实世界知识整合

有人猜测，Q整合广泛的现实世界知识的方法可能涉及使用先进的形式验证系统，这将为验证其逻辑和事实推理提供坚实的基础。当与复杂的神经网络架构和动态学习算法相结合时，这种方法将使Q能够深入参与现实世界的复杂性，超越传统人工智能的限制。此外，Q*可能会使用数学定理证明技术进行验证，确保其推理和输出不仅准确，而且在伦理上有基础。在这个过程中加入伦理分类器进一步增强了其能力，以提供可靠和负责任的对现实世界情景的理解和互动。

结论

这份综述调查着手探索了生成式AI研究中的变革性趋势，特别关注了像Q*这样的推测性进展以及向人工通用智能（AGI）的进步步伐。我们的分析突出了一个关键的范式转变，由混合专家模型（MoE）、多模态学习和对AGI的追求等创新所驱动。这些进步预示了一个未来，AI系统在推理、上下文理解和创造性问题解决方面的能力可能显著提升。这项研究反映了AI具有促进或阻碍全球公平和正义的双重潜力。AI利益的公平分配和其在决策过程中的作用提出了关于公平和包容性的重要问题。深思熟虑地将AI整合到社会结构中以增强正义和减少差异是至关重要的。尽管有这些进步，仍然存在一些未解决的问题和研究空白。这些包括确保先进AI系统与人类价值观和社会规范的伦理一致性，这一挑战因它们日益增长的自主性而变得更为复杂。在多样化环境中AGI系统的安全性和健壮性也仍是一个重大研究空白。应对这些挑战需要多学科方法，融合伦理、社会和哲学视角。

我们的调研强调了AI未来跨学科研究的关键领域，强调伦理、社会和技术视角的整合。这种方法将促进协作研究，弥合技术进步与社会需求之间的差距，确保AI发展与人类价值观和全球福祉保持一致。在重塑生成式AI方面，MoE、多模态和AGI的作用被认为是重要的，因为它们的进步可以提高模型性能和多功能性，并为像伦理AI一致性和AGI等领域的未来研究铺平道路。在我们继续前进时，AI进步与人类创造力之间的平衡不仅是一个目标，而且是一个必要性，确保AI的作用是一个补充力量，增强我们创新和解决复杂挑战的能力。我们的责任是引导这些进步，丰富人类体验，使技术进步与伦理标准和社会福祉保持一致。

成为VIP会员查看完整内容

相关内容

Gemini

关注 11

2023年12 月 6 日，谷歌 CEO 桑达尔・皮查伊官宣 Gemini 1.0 版正式上线。这次发布的 Gemini 大模型是原生多模态大模型，是谷歌大模型新时代的第一步，它包括三种量级：能力最强的 Gemini Ultra，适用于多任务的 Gemini Pro 以及适用于特定任务和端侧的 Gemini Nano。

《可解释人工智能（XAI）: 数据挖掘视角》最新综述

专知会员服务

54+阅读 · 2024年1月11日

《基于大模型的智能体决策：利用大型语言模型指令仿真现实人类活动》CMU2023最新29页报告

专知会员服务

129+阅读 · 2023年12月15日

多智能体学习中合作的综述

专知会员服务

75+阅读 · 2023年12月12日

DARPA能力感知机器学习（CAML）项目《利用概率和抽象的能力感知自主学习(ALPACA)》2023最新30页技术报告

专知会员服务

68+阅读 · 2023年6月28日