LLM开发的一个关键里程碑是InstructGPT[5],一个框架,允许基于人工反馈强化学习(RLHF)对预训练语言模型进行指令微调[6,5]。该框架使LLM能够适应广泛的NLP任务,通过利用人工反馈使其高度通用和灵活。RLHF使模型能够与人类的偏好和价值观保持一致,这与仅通过无监督预训练训练文本语料库的大型语言模型相比有了显著提高。ChatGPT是InstructGPT的继承者。自2022年12月发布以来,ChatGPT已经具备了这些先进的开发,在推理和广义文本生成等各种下游NLP任务中取得了令人印象深刻的性能。这些前所未有的NLP能力促进了教育、医疗、人机交互、医学和科学研究等不同领域的应用。ChatGPT得到了广泛的关注和兴趣,越来越多的应用和研究利用了其巨大的潜力。多模态GPT-4模型的公开发布进一步扩展了大型语言模型的视野,并促进了涉及文本以外的各种数据的令人兴奋的发展。
2 ChatGPT的相关工作
在物理学领域,Lehnert等人[10]通过研究ChatGPT如何处理弦论中的沼泽地猜想等晦涩的物理话题,探索了ChatGPT的能力和局限性。实验对话从弦理论领域更广泛、更一般的问题开始,然后缩小到具体的沼泽地猜想,并检查ChatGPT对这些猜想的理解。研究发现,ChatGPT可以不同地定义和解释各种风格的概念,但并不能有效地将各种概念真正联系起来。它会在必要时自信地提供虚假的信息和捏造的陈述,表明ChatGPT不能真正创造新的知识或建立新的连接。然而,在识别类比和描述视觉表征的抽象概念方面,ChatGPT可以巧妙地使用语言。Kortemeyer et al.[11]通过问答测试评估了ChatGPT回答基于微积分的物理问题的能力。测试包括在线作业、点击器问题、编程练习,以及涵盖经典力学、热力学、电学和磁学以及现代物理的考试。虽然ChatGPT能够通过这门课程,但它也展示了许多初学者普遍存在的误解和错误。West et al.[12]在大学物理第一学期使用力概念量表(Force Concept Inventory, FCI)来评估ChatGPT在回答与运动学和牛顿力学相关的物理概念问题时的准确性。FCI涵盖了运动学、抛射运动、自由落体、圆周运动和牛顿定律等主题。该研究包括了415名在学期末参加FCI的学生的数据,平均分数为56%,而ChatGPT的分数大约在50%到65%之间。作者论证了ChatGPT在物理学习上的表现可以达到甚至超过一个学期大学物理的平均水平。
在医学领域ChatGPT的问答功能也可以应用于医疗领域,如回答患者提出的医疗问题或协助医疗专业人员诊断疾病。11月等人[13]评估了使用ChatGPT进行医患沟通的可行性。实验从EHR中提取了10个具有代表性的医患互动,将患者的问题放置在ChatGPT中,并要求ChatGPT使用与医生的回答大致相同的字数进行回应。每个患者的问题由医生或ChatGPT回答,并告知患者5个问题由医生回答,5个问题由ChatGPT生成,并要求患者正确识别回答的来源。实验结果显示,正确识别ChatGPT回应的概率为65.5%,而正确识别医生回应的概率为65.1%。此外,实验发现,患者对ChatGPT功能可信性的反应为弱阳性(李克特平均得分:3.4),信任随着问题中健康相关任务复杂性的增加而降低。ChatGPT对患者问题的回答与医生的回答仅略有不同,但人们似乎信任ChatGPT回答低风险的健康问题,而对于复杂的医疗问题,人们仍然倾向于信任医生的回答和建议。Tu等[14]探索了ChatGPT在神经性疼痛诊断中的因果发现能力。因果关系发现旨在纯粹基于观察到的数据[15]揭示潜在的未知因果关系。实验结果发现,ChatGPT在理解新方面存在一定的局限性超越现有文本训练数据语料库的知识和概念,即它只理解描述情况常用的语言,而不理解底层知识。此外,它的性能一致性和稳定性不高,因为实验观察到,在多次询问下,它会对同一问题提供不同的答案。然而,尽管ChatGPT有很多局限性,我们相信它在改善因果关系研究方面有很大的机会。
Guo et al.[16]尝试将ChatGPT应用于通信领域,具体来说是将ChatGPT用于有序重要性语义通信,其中ChatGPT扮演了智能咨询助手的角色,可以代替人类识别消息中单词的语义重要性,可以直接嵌入到当前的通信系统中。对于一条要传输的消息,发送者首先利用ChatGPT输出每个单词的语义重要性排序。然后,发送者基于重要度顺序执行不等错误保护传输策略,使消息中重要单词的传输更加可靠。实验结果表明,在嵌入ChatGPT的通信系统中测量到的重要单词的错误率和语义损失远低于现有的通信方案,说明ChatGPT可以很好地保护重要单词,使语义通信更加可靠。
Wang et al.[17]研究了ChatGPT在为系统文献搜索生成高质量布尔查询方面的有效性。他们设计了广泛的提示,并在100多个系统综述主题上调查了这些任务。最终,与目前最先进的查询生成方法相比,ChatGPT生成的查询取得了更高的准确率,但代价是召回率降低。对于有时间限制的快速评论,以较高的准确率换取较低的召回率通常是可以接受的。此外,ChatGPT可以通过引导提示生成高搜索精度的布尔查询。然而,需要注意的是,当两个查询使用相同的提示符时,ChatGPT会生成不同的查询,这表明了它在一致性和稳定性上的局限性。总的来说,这项研究证明了ChatGPT在为系统文献搜索生成有效的布尔查询方面的潜力。
2.1.2 文本分类
文本分类的目的是将文本数据分配给预定义的类别。这项任务对许多应用至关重要,包括情感分析、垃圾邮件检测和主题建模。虽然传统的机器学习算法已被广泛用于文本分类,但自然语言处理的最新进展导致了更先进技术的发展。ChatGPT在这一领域显示了巨大的潜力。文献中的多项研究表明,它能够准确地对文本进行分类,处理各种分类任务的灵活性,以及可定制的潜力,使其成为文本分类的一个有价值的工具。
Kuzman et al.[18]采用ChatGPT进行自动体裁识别,目标是利用ChatGPT的零样本分类能力来简化文本分类任务。他们使用两种提示语言(EN和SL),与基于多语言模型xln - roberta的X-GENRE分类器在英语数据集EN-GINCO和斯洛文尼亚数据集GINCO上进行了比较。 结果显示,当使用EN作为提示语言时,ChatGPT实现了Micro F1、Macro F1,准确率得分分别为0.74、0.66、0.72。 但在GINCO数据集上,ChatGPT对EN和SL两种提示语言的流派识别性能都不同程度地低于x流派分类器。
Amin et al.[19]通过使用ChatGPT执行性格预测、情感分析和自杀意念检测任务,评估了ChatGPT在情感计算中的文本分类能力。 他们在First Impressions、Sentiment140和Suicide and Depression这三个数据集上对ChatGPT进行了相应的提示,并将其分类性能与RoBERTa-base、Word2Vec和BoW这三个基线模型进行了比较。 结果显示,ChatGPT在第一印象数据集上对五种人格分类的准确率和UAR均不同程度低于基线方法。 在Sentiment140数据集上,ChatGPT的准确率和UAR分别为85.5和85.5,均优于三种基线方法。 在自杀和抑郁数据集上,ChatGPT的准确率和UAR分别为92.7和91.2,低于表现最好的基线方法RoBERTa。
Zhang et al.[20]采用ChatGPT进行立场检测,包括支持和反对。 他们使用ChatGPT对SemEval-2016和P-Stance数据集中推文的政治立场进行分类。 SemEval-2016包含4870条英文推文,他们选择了最常见的FM、LA和HC政治标签的推文进行立场分类。 P-Stance数据集有21,574条英文推文,他们对针对特朗普、拜登和伯尼的推文进行立场分类。 最终结果显示,在SemEval- 2016数据集上,ChatGPT在FM、LA和HC政治标签上的F1-m得分分别达到了68.4、58.2和79.5,F1-avg得分分别达到了72.6、59.3和78.0。 在P-Stance数据集上,ChatGPT在川普、拜登和伯尼政治人物上的F1-m得分分别达到了82.8、82.3和79.4,F1-avg得分分别达到了83.2、82.0和79.4。
Huang等[21]利用ChatGPT检测推文中的隐式仇恨言论。 他们选取了包含隐式仇恨言论的LatentHatred数据集的12.5%(795条推文),并要求ChatGPT将其分为三类:隐式仇恨言论、非仇恨言论和不确定言论。 结果显示,ChatGPT正确识别了636条(80%)推文。 被分类为非仇恨言论和不确定言论的推文数量分别为146条(18.4%)和13条(1.6%)。 Amazon Mechanical Turk (Mturk)工人对推文在非仇恨言论和不确定类别中的重分类结果与ChatGPT的分类一致。
总的来说,ChatGPT在文本分类任务中具有巨大的潜力,因为它可以有效地解决体裁识别、情感分析、立场检测等问题。然而,ChatGPT在文本分类领域仍然面临挑战。首先,由于它严重依赖训练数据的分布,因此很难在包含罕见或未出现词汇的分类任务中表现良好。此外,训练和使用ChatGPT所需的大量计算资源限制了它在某些应用中的使用。
2.1.3 文本生成
我们生活在一个信息爆炸的时代,文本是传递信息的有效方式。信息的多样性导致了文本类别的多样性。当研究者使用ChatGPT的文本生成功能进行研究时,不可避免地会选择生成不同类型的文本。在阅读论文的过程中,我们发现研究者生成的文本字数从小到大,所以我们想根据文本字数的大小来总结现有的研究。我们将生成的文本分为三个层次:短语、句子和段落。
下面的文章使用ChatGPT来生成短语。Zhang et al.[22]证明了在训练过程中加入语义增强的语义HAR模型在动作识别方面的表现优于其他模型。语义增强需要共享标记,这在一些数据集上是缺乏的。因此,作者利用ChatGPT为最初没有共享标记的数据集提供了一种自动标记生成方法。[23]描述了一种新的将自然语言命令转换为Bash命令的工作流程。作者使用ChatGPT根据用户输入生成候选Bash命令列表,然后使用启发式和机器学习技术相结合的方法对候选命令进行排序并选择最可能的候选命令。在真实的命令数据集上对该工作流进行了评估,与其他最新的方法相比,取得了较高的准确性。Chen et al.[24]使用Bart模型和ChatGPT来完成幽默标题的总结任务,并比较了两种模型的性能。研究发现,Bart模型在大型数据集上的表现更好,但ChatGPT在小范围(48)中与我们最好的微调模型竞争,尽管稍弱。
下面的文章使用ChatGPT来生成句子。Chen等人[25]构建了一个包含场景、时间线、角色属性和角色关系的对话数据集(HPD),以便使用ChatGPT作为会话代理来生成对话。但是ChatGPT在测试集上的性能较差,存在改进的空间。在[26]研究中,chatGPT通过提供三份虚构的放射学报告给chatGPT进行简化,展示了其简化复杂文本的能力。大多数放射科医生认为简化后的报告准确完整,对患者没有潜在的伤害。然而,一些错误、遗漏的关键医疗信息和文本段落被发现,这可能导致有害的结论,如果医生不理解。Xia等人提出了一种基于会话的自动程序修复方法(Session-based Automatic program repair, APR)。在APR中,通过将之前生成的补丁与验证反馈相结合,迭代地构建模型的输入。使用QuixBugs数据集验证了该方法的有效性。实验表明,在两个修复数据集上,使用人工反馈强化学习(RLHF)微调的ChatGPT优于无监督训练的Codex。在[28]研究中,ChatGPT与谷歌Translate2、DeepL Translate3和腾讯TranSmart4这三个商业翻译产品进行了对比。在Flores101测试集上进行评估,使用WMT19生物医学翻译任务测试翻译鲁棒性,以BLEU得分为主要指标。研究发现,ChatGPT在高资源的欧洲语言上与商业翻译产品相比具有竞争力,但在低资源或遥远的语言上则落后。作者探索了一种名为pivot prompts的有趣策略,它可以显著提高翻译性能。虽然ChatGPT在生物医学摘要或Reddit评论上的表现不如商业系统,但它可能是一个很好的语音翻译器。Prieto et al.[29]评估了ChatGPT在开发基于自然语言提示的自动化施工进度计划中的使用。该实验需要在现有空间中建立新的分区,并提供将要分区的房间的细节。结果表明,ChatGPT能够生成符合给定范围要求的一致性调度。然而,仍然有几个主要的缺陷会限制这个工具在实际项目中的使用。Michail等人[30]提出了一种通过ChatGPT生成带有亲密度评分标签的推文数据集来提高HeFit微调XLM T模型对推文亲密度预测精度的方法。具体操作是将带有亲密度评分标签的推文输入ChatGPT,然后输出相似推文。
下面的文章使用ChatGPT来生成段落。Wang et al.[31]对比了ChatGPT和其他模型在各种跨语言文本数据集上的摘要性能,发现ChatGPT可能在r1、r2、R L和B S. Yang等指标上表现较差。[32]总结了ChatGPT在基于问答的文本摘要中的性能,发现与微调模型相比,ChatGPT在所有性能指标上都略差。然而,这篇文章认为,如果数据集是黄金注释,ChatGPT的性能可能在这些指标上超过微调模型。Belouadi等人。[33]比较了ByGPT5和ChatGPT在一系列已标记和未标记的英语和德语诗歌数据集上训练后生成约束风格诗歌的能力,并使用三个指标对其进行评估:韵律、ScoreAlliteration和ScoreMeter分数。结论是ByGPT5的性能优于ChatGPT。Blanco-Gonzalez等人在[34]评测了chatGPT写评论文章的能力,事实上,这篇文章本身就是ChatGPT写的。人类作者基于chatGPT的草稿重写了手稿。专家发现,它可以快速生成和优化文本,以及帮助用户完成多项任务。然而,在产生新内容方面,它并不理想。最后,可以说,如果没有强烈的人为干预,chatGPT并不是编写可靠科学文本的有用工具。它缺乏准确和充分地传达复杂的科学概念和信息所需的知识和专业知识。Khalil等人对ChatGPT生成内容的原创性进行了探讨。为了评估ChatGPT生成的50篇不同主题的论文的原创性,使用了两种流行的剽窃检测工具Turnitin和iThenticate。实验结果表明,ChatGPT在生成抄袭检测软件难以捕捉的复杂文本输出方面具有巨大的潜力。现有的抄袭检测软件需要更新其抄袭检测引擎。Basic等人([36])对使用和不使用ChatGPT-3作为写作辅助工具的学生的写作表现进行了比较。实验分为两组,每组9名参与者。对照组采用传统方法撰写文章,实验组则以ChatGPT作为辅助。两位老师对试卷进行了评估。研究表明ChatGPT的辅助并不一定能提高学生的作文质量。Noever et al.[37]讨论了使用人工智能(AI),特别是像GPT(包括GPT-3)这样的语言模型,来创建更有说服力的聊天机器人的潜力,这些聊天机器人可以欺骗人类,使其认为他们正在与另一个人进行交互。这篇文章描述了一系列实验,在这些实验中,他们使用GPT-3生成了模仿人类对话的聊天机器人响应,并在人类参与者身上进行了测试。结果显示,一些参与者无法区分聊天机器人和真实的人类,这突出了这些人工智能聊天机器人被用于欺骗目的的潜力。
2.1.4 代码生成
代码生成是指从高层描述或规范自动生成计算机代码的过程。ChatGPT先进的自然语言处理能力使它能够执行代码生成任务。通过分析代码生成的需求,ChatGPT可以生成准确执行预期功能的代码片段。这不仅节省了从头开始编写代码的时间和精力,而且还降低了手工编码过程中可能发生错误的风险。此外,ChatGPT学习和适应新的编程语言和框架的能力使其能够完成更复杂的编程任务。
2.1.5 推理
推理是指从已知的事实或信息中通过逻辑推理得出新的结论或信息的过程。它通常基于一系列前提或假设,并涉及应用逻辑规则或推理方法来得出结论。推理是人类思维中的一种重要能力,常用于解决问题、决策、分析和评价信息等。推理在科学、哲学、法律等领域也起着关键作用。有两种类型的推理:归纳推理,它涉及从已知的事实或经验中得出一般规则或结论;演绎推理,它涉及从已知的前提或假设中得出特定的结论。无论是归纳还是演绎,推理过程都需要遵循严格的逻辑规则,以保证推理的正确性和可靠性。
2.1.6 数据或信息的提取、转换、增强、处理
2.1.7 Human-ChatGPT协作
人与机器之间的协作是人与机器一起工作以实现共同目标的过程。在这种协作中,人类提供领域专业知识、创造力和决策能力,而机器提供自动化、可扩展性和计算能力。ChatGPT是一种先进的自然语言处理模型,可以理解并生成类人语言,从而降低通信成本。它处理和生成自然语言的能力使其成为人类协作的理想伙伴。ChatGPT可以提供相关建议,根据人类输入完成任务,提高人类的生产力和创造力。它可以从人类反馈中学习并适应新的任务和领域,进一步提高其在人机协作中的性能。ChatGPT理解自然语言并产生适当响应的能力使它成为各种协作应用程序的有价值的工具,正如我们收集的一些文献中的研究所证明的那样。
2.1.8 ChatGPT集成
集成是指组合不同的系统或软件组件以实现共同的目标。ChatGPT可以作为整体的一部分集成,也可以作为集成工具实现不同系统之间的无缝通信。它的自然语言处理能力使非技术用户更容易与系统交互,减少了对专业知识或训练的需求。我们收集的文献中的一些研究已经证明了这一点。
2.2 人工智能伦理
自ChatGPT问世以来,这种强大的自然语言处理模型在给人们带来极大便利的同时,也引发了更多的危机意识思考。一些研究者已经开始假设和研究ChatGPT的潜在负面影响。这项前瞻性研究为标准化建设提供了很好的建议,以解决未来的人工智能滥用问题。
3 讨论
3.1 限制
尽管ChatGPT和GPT-4具有非凡的能力,但它仍然面临一定的局限性。其中一些限制包括:
过时的知识
目前的模型是在历史数据上训练的(截至2021年),因此缺乏对时事的实时理解。这是当今信息爆炸时代的一个关键问题,因为先验知识库的可靠性逐渐降低,可能产生不准确的响应,特别是在法学和技术等快速发展的领域。此外,这些模型无法进行事实核查,而训练数据是由各种来源的内容组成的,其中一些可能是不可靠的,这可能导致看似可信但却荒谬的回应。
缺失理解
虽然这些模型可以解释大多数查询和上下文情况,但在处理模糊或上下文复杂的查询时,它们偶尔会遇到理解偏差。此外,在某些专业领域,独特缩写的丰富加剧了模型的理解挑战,导致错误和空洞的回答。
能源消耗
在整个训练和推理阶段,这些大规模模型需要大量的计算资源和电力,导致能源消耗上升和大量的碳排放。因此,这限制了它们的部署和实际应用。
恶意使用
尽管OpenAI实施了一系列限制以减轻模型毒性,但用户通过精心设计的提示规避这些限制的实例已经出现,诱导模型产生不健康的内容,甚至将其用于非法商业目的。
偏见和歧视
由于预训练数据的影响,模型在政治、意识形态和其他领域表现出偏见。llm在公共领域的应用,如教育和宣传,应该以极其谨慎的态度对待。
隐私和数据安全
随着用户规模的扩大,保护用户隐私和数据安全变得越来越重要。事实上,ChatGPT在4月初就因为隐私问题在意大利被禁了。考虑到模型在交互过程中广泛收集个人信息和偏好,这一点尤其重要,因为未来的多模态模型,如GPT-4,可能会频繁要求用户上传私人照片。
3.2 未来的方向
在即将到来的研究中,基于ChatGPT和GPT-4的模型的开发可能专注于解决这些限制,以增强其实际应用。
首先,研究人员应该在过滤预训练数据的同时继续致力于精炼模型训练方法,以最大限度地减少模型知识库中存在的误导性信息,从而获得准确的响应。同时,强调节约计算资源的训练方法至关重要,从而降低成本并拓宽潜在的应用场景。
此外,上下文感知和消歧技术的进步预计将有助于增强对复杂查询的理解通过模型,提高AI生成内容的准确性、相关性和上下文感知。集成实时数据流还可以使这些模型与当前事件和趋势保持同步,使它们能够提供实时的信息,如实时交通、天气和股票更新。
此外,开发者应该与不同领域的专家进行跨学科合作,包括决策、法学和社会学,目的是为LLM的开发、部署和使用制定标准和伦理框架,从而减轻潜在的有害后果。在公众意识和教育方面,特别是在K-12教育和新闻等行业,在大规模公共部署和应用之前,应实施强制性的意识培训,以提高公众对LLM能力和局限性的认识,同时促进负责任和知情的利用。
最后,ChatGPT和GPT-4的影响不应该仅限于NLP领域。它们在计算机视觉、受大脑启发的AI和机器人等领域也显示出了良好的前景。这些模型表现出可与人类水平的智能相媲美的学习和理解能力,将其定位为人工通用智能(AGI)发展中的关键组成部分[101]。它们促进人类和机器人之间无缝交互的能力为执行更复杂的任务铺平了道路。这些模型的零样本上下文学习的显著能力使其能够快速适应新任务,而不需要进行微调的标记数据,这在医学信息学[102]和机器人[103]等领域是一个关键挑战,在这些领域标记数据的可用性通常有限或不存在。
4 结论
这篇综述论文对ChatGPT和GPT-4进行了全面的综述,强调了它们的潜在应用和在自然语言处理领域的重大贡献。这项研究的发现表明,人们对这些模型的兴趣正在迅速增长,它们在广泛的领域都显示出了相当大的应用潜力。ChatGPT和GPT-4成功的一个关键因素是它们能够进行大规模的预训练,从浩瀚的互联网中捕获知识,使模型能够从大量的数据中学习。融合了来自人类反馈的强化学习(RLHF),进一步增强了模型的适应性和性能,使其在处理自然语言方面非常高效。这项研究还发现了几个与ChatGPT和GPT-4的开发和使用相关的潜在伦理问题。例如,人们担心产生有偏见或有害的内容,侵犯隐私,以及可能滥用该技术。解决这些担忧,并确保ChatGPT和GPT-4以负责任和合乎道德的方式开发和使用至关重要。此外,这项研究的结果表明,ChatGPT和GPT-4具有巨大的潜力
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复或发消息“C194” 就可以获取《194篇文献调研ChatGPT最新研究进展!最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著》专知下载链接