迈向可信的人工智能：伦理和稳健的大型语言模型综述

摘要——大型语言模型（LLMs）的快速进展有潜力革新各个领域，但其迅猛发展在监督、伦理开发和建立用户信任方面带来了显著挑战。本综述全面调研了LLMs中的关键信任问题，重点关注意外伤害、缺乏透明性、易受攻击、人类价值观对齐和环境影响等问题。我们强调了可能破坏用户信任的诸多障碍，包括社会偏见、决策过程中的不透明性、潜在的滥用以及技术快速演变带来的挑战。随着LLMs在金融、医疗、教育和政策等敏感领域的普及，解决这些信任差距至关重要。 为了解决这些问题，我们建议采用综合方法，包括伦理监督、行业问责、监管和公众参与。我们主张重塑AI开发规范、对齐激励措施，并在整个机器学习过程中整合伦理考量，这需要技术、伦理、法律和政策等不同领域专业人士的密切合作。我们的综述通过提供一个评估LLMs信任的强大框架和对复杂信任动态的深入分析，为该领域作出了贡献。我们提供了上下文化的指南和标准，旨在负责任地开发和部署这些强大的AI系统。 本综述识别了在开发可信AI过程中面临的关键限制和挑战。通过应对这些问题，我们的目标是创建一个透明、负责的AI生态系统，在带来社会利益的同时将风险降至最低。我们的研究成果为研究人员、政策制定者和行业领导者提供了宝贵的指导，帮助他们在各类应用中建立对LLMs的信任，并确保其负责任地使用造福社会。 关键词——AI治理、算法偏见、可解释的AI、大型语言模型、可信的AI。

人工智能（AI）的发展显著受到了作出基础性贡献的关键人物的影响。AI的创始人约翰·麦卡锡提出了“人工智能”一词，并倡导使用数学逻辑来表示知识，开创了知识表示领域。他还开发了LISP，这是一种对AI进展至关重要的编程语言[1]。麻省理工学院计算机科学与人工智能实验室的联合创始人马文·明斯基通过理论AI研究推动了对机器智能和推理的理解[2]。由麦卡锡、明斯基、内森尼尔·罗切斯特和克劳德·香农提出的1956年达特茅斯会议是AI历史上的一个关键时刻，将该领域从理论概念转向实际应用[3]。这一时期见证了启发式搜索技术和早期机器学习模型的进步，展示了AI向实际应用的转变。

1970年代后期，AI进展放缓，被称为“第一次AI寒冬”。这是由于未能达到预期和计算能力有限导致资金和兴趣的减少。1980年代见证了向实际AI应用的转变，如专家系统和自然语言处理，为大型语言模型（LLMs）奠定了基础，推进了AI对语言理解和生成的能力。尽管在AI寒冬期间面临挑战，早期的专家系统在AI商业化方面起到了关键作用[4]。

最近的AI进展归因于广泛的数据集和日益增加的计算能力，特别是GPU的使用。这些因素在推动深度学习技术的发展中起到了关键作用，显著影响了计算机视觉和语音识别[5]，[6]。另一个重要的里程碑是语言模型的创建，这些模型能够处理和生成类人文本，从而扩展了AI的能力。深度神经网络（DNNs）和LLMs的有效性导致了AI在医疗、金融、交通和零售等各个行业的广泛采用，提高了效率和数据处理能力[8]-[10]。神经网络（NNs）用于分析大量数据集并识别模式，而LLMs则用于为自动化客户服务的聊天机器人提供动力[11]-[14]。这些技术革新了不同领域的技术互动，凸显了深度学习和语言模型对AI进展的重大影响[9]。 DNN架构，包括LLMs，导致了“黑箱”问题，使得理解其工作原理及其结果变得困难[15]。虽然像决策树这样的简单AI模型是透明的，但LLMs缺乏透明性，这在用于决策时引发了伦理问题。挑战在于使这些系统更透明和可理解，同时考虑到潜在的偏见和错误。解决这些问题的努力包括开发使算法过程更透明的方法，但这在AI伦理和治理中仍然是一个重大挑战[16]。要更好地理解这一点，请参见图1，它展示了AI的演变和信任挑战。

时间轴展示了AI在医疗、金融、交通、零售和电子商务领域的日益扩大影响。LLMs在利用先进的语言生成技术变革内容创建方面处于领先地位。时间轴强调了AI中的信任和监督挑战以及建立信任策略的重要性[17]，[18]。它揭示了AI进展与政策和治理发展之间的差距。

LLMs的最新进展改善了其语言生成能力，但其复杂性阻碍了我们对其决策过程的理解。黄和王在2023年的调查[19]强调了解释性对LLMs的重要性，特别是在需要透明度和信任的关键行业。主要发现包括：a）用于基于神经网络的NLP模型的事后解释工具如InSeq工具包；b）模型校准和不确定性估计技术；c）用于扩展和推理的指令微调LLMs研究，问题回答中的元推理；d）LLMs的数学推理能力，语义解析鲁棒性研究，减少LLM使用危害的举措，Aug-imodels等框架[19]用于高效和可解释的模型，评估代码训练的LLMs，以及e）改进LLM推理性能的Chain-of-Thought枢纽措施。他们的研究强调了解释性对LLMs的伦理和实际重要性。在LLMs被集成到多种应用中时，提供可理解和可解释的响应是重要的。增强模型设计和交互、提高鲁棒性和效率、指导训练技术都是理解LLM操作的好处。他们的调查是揭开LLM复杂性的一个重要贡献，为在医疗、金融和法律领域透明和伦理部署LLM奠定了基础。它为未来研究奠定了基础，以弥合原始LLM输出与人类可理解解释之间的差距。持续开发LLM解释性对推进AI技术的可信性和可及性至关重要。

A. 构建大型语言模型的信任

黄和王的调查工作[19]及更广泛的解决“黑箱”问题的努力指明了清晰的前进方向。然而，我们需要一种综合方法，考虑伦理、技术和政策，以构建AI系统的信任，尤其是像LLMs这样复杂的模型。 1）LLMs的伦理问题：LLMs在医疗、金融、政策制定和法律系统等领域的日益使用引发了关于隐私、偏见、公平和问责的伦理问题，原因是它们具有先进的自然语言能力。 LLMs可能会因为训练文本数据中包含敏感信息而损害隐私。这可能导致隐私泄露，例如暴露医疗保健中的机密患者数据或在数据分析中泄露敏感的客户记录。为减少这些风险，有必要避免将个人可识别信息纳入模型，并评估其隐私影响。确保LLM系统中的透明性和用户对其数据的控制至关重要。明确的数据隐私指南和法规对于与用户建立信任至关重要[20]-[30]。 偏见是LLMs的另一个伦理问题。它指的是LLMs在训练数据中反映和延续的偏见，这可能导致偏见输出或决策，损害边缘化群体。性别、种族或文化偏见可能影响LLM模型，导致不公平或刻板印象的输出和歧视性决策。例如，一个以人力资源为重点的LLM助手可能会对某些群体不利。为解决这一问题，公司应建立多元化的审查委员会，并定期使用偏见检测工具审核LLM输出[31]-[33]。 LLMs的另一个伦理问题是公平性，指的是公正待遇。LLM系统必须避免偏见并确保公平，通过公正对待每个人来实现。不公平的LLM模型可能会加剧不平等并造成伤害。例如，在公共政策中使用LLMs评估贷款或抵押申请可能会加剧经济不平等。实现LLMs的公平性需要防止数据和算法中的偏见，使用对抗性去偏技术，并使用明确定义的指标持续评估公平性[34]-[37]。 问责在LLM系统中至关重要[38]-[40]。由于其复杂的推理过程，LLMs在医疗、司法和就业等影响人们生活的领域中尤其难以追究责任。用户和利益相关者应知道谁对开发、部署和维护负责。他们应有错误、偏见或伤害的申诉机制。组织应建立明确的责任制和透明的治理，包括AI伦理委员会、模型性能的详细记录和跟踪，以及关于LLM系统开发和部署的全面报告。 训练和运行如GPT-3之类的LLMs需要大量的计算资源，导致高能耗和碳排放[41]。例如，GPT-3的训练消耗了大约1287 MWh的电力，产生了502公吨的CO2排放，相当于112辆燃油车一年的排放。推理过程可能比训练消耗更多的能量，估计约60%的AI能量用于推理，40%用于训练[42]。一次ChatGPT请求的能耗可能是一次谷歌搜索的100倍。尽管LLMs目前对整个ICT行业的排放贡献不到0.5%，对全球总排放的贡献不到0.01%，但其影响正在迅速增加[43],[44]。为了促进AI的可持续性，行业应优先透明测量能耗和排放，利用可再生能源数据中心，开发更高效的AI硬件和算法，启用排放跟踪功能，并考虑转向较小的专用模型而非大型通用LLMs。尽管LLMs目前对全球排放的贡献很小，但其日益广泛的使用需要积极努力减轻其环境影响，确保AI发展惠及世界而不加剧气候变化。AI社区、政府和科技公司之间的合作对于实现更可持续的AI未来至关重要[45],[46]。

2）信任基础上的LLMs技术进步：LLM系统需要解决技术挑战以建立信任，例如解释性。解释性指的是理解和解释LLM系统的决策过程。透明性通过使用户理解系统的推理并识别潜在的偏见或错误来建立信任。可解释的LLM系统可以帮助识别伦理问题并提供决策见解[20],[47],[48]。可解释AI（XAI）技术对于理解LLMs及建立其复杂系统的信任至关重要。注意力机制提供了对模型预测的见解[49]，但其解释可能存在争议[50]。更可靠的方法如综合梯度[51]和代理模型[52]提供了特征相关性的量化指标，增强了我们对模型决策的理解。最新进展应用电路分析[53]来分解复杂的黑箱LLMs为可解释的元素，提供了模型操作的详细见解。使用提示技术生成的模型解释允许全面的因果叙述[54]。然而，重要的是严格评估这些解释的准确性和有用性[55]。使用各种XAI方法对于LLM的负责任使用至关重要。清晰的解释通过描述模型的能力、局限性和风险来帮助建立终端用户的信任[56]。它们对于调试[57]、识别偏见[58]和促进伦理使用至关重要。随着LLMs的进步，开发可解释的LLMs至关重要。这在技术上具有挑战性，但在伦理和研究上必不可少。定制的XAI技术需要在各个层次提供解释，反映模型的逻辑以增强用户信心、确保安全并指导AI的伦理使用。

另一个技术挑战是数据偏见。数据偏见指的是LLM训练数据中的不公平偏向或歧视。它可能导致有偏见的结果并延续社会不平等。解决数据偏见需要采取措施，如数据审计、预处理以减轻偏见以及多样化训练数据集以实现代表性和包容性。明确定义的指标可以帮助评估LLM系统的公平性、准确性、可靠性和透明性，提供其伦理表现的量化指标[20],[37],[47],[48]。

最新研究探索了通过解决幻觉和缺乏可解释性等问题来提高LLMs可信度的技术[59]。他们提出了一种称为图上的推理（RoG）的方法，通过知识图谱与LLMs协同进行真实和可解释的推理。在其检索-推理优化方法中，RoG使用知识图谱检索推理路径，以便LLMs生成答案。RoG中的推理模块使LLMs能够识别重要的推理路径并提供可解释的解释，增强了AI系统的可信度。通过专注于知识图谱中的推理过程并提供透明的解释，像RoG这样的方法展示了建立LLMs信任的有希望的方向[59]。

具有可靠日志记录的可解释系统增强了透明性、审计和问责制[60]。文档和日志记录提供了对决策过程的见解，支持错误解决，并确保遵守伦理和法规标准，从而建立用户信任。这些机制使技术和非技术利益相关者能够理解AI系统的内部运作，并确定影响其输出的因素。

3）用户信任的心理因素：用户对LLMs的信任在很大程度上取决于心理因素，而不仅仅是技术的可靠性[61]-[65]。用户必须对LLM系统的可靠性、准确性和可信度有信心。通过有效的沟通和透明性可以实现这一点。组织应清楚地传达LLM系统的能力和局限性，提供有关系统工作原理和决策方式的信息。此外，组织应对其数据收集和使用实践保持透明，让用户了解他们的数据如何被使用和保护。

4）信任基础上的LLMs政策与治理：有效的治理对于管理部署LLM系统相关的伦理、技术和问责问题至关重要[36],[40],[47],[61],[66]-[69]。应建立结构和流程，以确保LLM系统的伦理和负责任开发、部署和监控。涉及关键利益相关者，如AI伦理委员会、监管机构和行业专家，可以提供指导和监督。为了确保公平和无偏见的决策，必须包括用户反馈和多样化的观点。为了建立对LLMs的信任，我们必须解决解释性和数据偏见等技术问题，同时建立强有力的治理框架。

5）社会经济影响：必须评估LLMs的社会经济影响，以了解其对劳动力和社会的影响。LLMs可能会取代人类工人，导致失业和社会动荡。需要投资于技能发展，以帮助工人适应变化。再培训计划和其他培训可以使工人能够与LLMs协同工作或从事新角色。应实施优先考虑工作保障和社会支持的政策，以减轻影响。探索LLMs的潜在社会福利，如增加信息获取，可以促进更包容的社会。在设计和实施LLMs时，伦理考量和负责任的部署至关重要。应建立促进透明、问责和公平的政策和法规。对LLMs影响的仔细考虑、技能发展的投资和负责任的部署对于对社会产生积极影响至关重要[70]-[72]。

B. 本综述的主要贡献

本综述对AI系统的信任进行了全面分析，重点关注LLMs。通过审查伦理、技术和社会因素，我们为负责任的AI开发讨论作出了贡献。我们的综述提供了应对构建AI系统信任挑战的见解和建议，特别是LLMs。主要贡献如下所述。

• 综合评估框架：本综述提供了一个用于分析高级AI系统，特别是LLMs中的算法偏见和漏洞的分类法。该框架由八个视角组成，涵盖透明性、鲁棒性、人类价值对齐和环境影响等方面。此方法使得能够对LLMs的信任进行彻底评估，解决其开发和部署中的问题。通过整合多种视角，该框架提供了LLM可信度的全貌，对负责任的AI作出了重要贡献。 •** 综合信任动态分析**：本综述审查了影响用户对AI系统信任的因素，包括心理、伦理、技术和政策方面。通过分析AI能力、法规和社会接受度的交叉点，识别了实现可信AI的障碍。此研究揭示了信任动态，为从事负责任的AI开发和实施的研究人员、政策制定者和行业专业人士提供了指导。 • 针对LLMs的上下文化指南和标准：本综述审查了现代AI系统，特别是不透明模型如LLMs的伦理指南和政策标准的应用。伦理指南在确保AI使用的责任方面发挥重要作用。然而，LLMs由于其类人文本生成和缺乏透明性，面临独特的挑战，这使得理解和解释其行为变得困难。本综述探讨了在实际LLM部署中实施伦理原则的实际意义，考虑了技术限制、社会影响和潜在风险。它识别了局限性并提供了解释和操作化LLM开发和部署伦理指南的见解。目标是通过突出差距并倡导完善LLM特定指南来促进AI治理，促进AI使用的透明性、公平性和问责制。

C. 本综述的局限性

本综述对AI信任进行了全面审查，特别关注LLMs。然而，重要的是要承认我们研究的局限性。我们的分析基于现有的AI伦理和信任领域的文献和研究，包括专门针对LLMs的相关工作。因此，本综述可能无法完全捕捉这些快速发展的领域中最新的想法或进展。

我们的分析范围限于学术出版物和行业报告，这限制了所考虑的观点范围。对于LLMs，这尤为相关，因为本综述可能未包括未出版的研究或不太知名的观点，这些观点可能提供宝贵的见解。此外，鉴于AI技术发展和LLMs伦理考虑不断演变的速度，本综述中提出的一些讨论和结论可能会随着时间的推移而变得不再相关。尽管我们的综述旨在涵盖AI，包括LLMs，越来越多部署在高风险领域中的情况，但它并未详尽地解决所有与LLMs相关的信任方面或行业特定挑战。本综述中提出的解释和分析基于撰写时可获得的最佳数据和研究。读者在评估这些发现和建议时应考虑这些局限性。

需要强调的是，本综述的目标是对AI和LLMs的信任进行全面审查，同时保持对分析范围的透明度。我们旨在通过探索现有的指南和框架、讨论构建LLMs信任的方法和挑战以及提出未来研究方向，为AI信任和伦理的持续对话作出贡献。我们鼓励在可能探索较少或快速发展的领域进行进一步研究和对话，因为这些讨论对于AI系统负责任的开发和部署至关重要。在本综述中，我们创建了一个叙述，捕捉了AI信任的当前状态及其领域中的潜在发展。然而，AI伦理和信任的领域是复杂和多面的，我们的综述可能未涵盖每一个细微差别或观点。尽管如此，我们希望这项工作能为研究人员、政策制定者和从业人员在应对与AI和LLMs信任相关的挑战和机遇时，提供有价值的资源。