【博士论文】大语言模型的测试与评价：准确性、无害性和公平性，223页pdf

大型语言模型（LLMs），如ChatGPT，凭借其出色的对话能力和智能性，在过去几年中迅速渗透到人们的工作和日常生活中。ChatGPT已经成为人类历史上用户增长最快的软件，并成为下一代人工智能应用的重要基础模型。然而，LLMs的生成内容并非完全可靠，它们经常产生包含事实错误、偏见和有害性的内容。鉴于其庞大的用户群体和广泛的应用场景，这些不可靠的回应可能带来许多严重的负面影响。本文介绍了我在博士研究期间对语言模型可靠性领域的探索性工作，从自动化软件测试和自然语言处理的角度研究LLMs的准确性、无害性和公平性。首先，为了衡量LLMs的准确性，我们提出了两个新的测试框架：FactChecker和LogicAsker，分别用于评估事实知识和逻辑推理的准确性。FactChecker通过从大规模知识库中检索事实三元组来构建知识图谱，进而生成各种类型的问题及预期答案，作为测试用例。LogicAsker是一个最小功能测试框架，它通过收集逻辑学中的所有基本原理和定律来构建原子技能集，并将标准的逻辑表达式转换为自然语言生成推理问题作为测试用例。我们的测试框架可以自动且全面地生成测试用例，并有效揭示最先进的LLMs（如ChatGPT和LLaMa）的缺陷。此外，我们证明了生成的测试用例可以提高LLMs的事实准确性和逻辑推理能力。其次，针对LLMs的无害性，我们介绍了两项针对LLMs的红队测试工作。首先，我们发现LLMs的文本内容审查机制在面对用户故意扰乱时不够健全，难以通过审查。为此，我们引入了MTTM，一个用于文本内容审查软件的变异测试框架，其变异关系是有害句子在经过语义保持的扰动后仍应被识别为有害。实验结果表明，MTTM可以发现商业内容审查软件中的漏洞，并提高其可靠性。其次，我们发现现有的安全基准和对齐工作通常仅限于一种语言，如英语。为此，我们建立了第一个多语言安全基准XSafety，涵盖了10种语言中14个常见的安全问题，跨越了多个语系，并发现所有LLMs在处理非英语查询时产生的不安全响应显著多于英语查询。此外，我们提出了一种简单有效的提示方法，通过增强跨语言的安全对齐来提高LLMs的多语言安全性。第三，为了评估LLMs的公平性，我们提出了两个评估框架：BiasAsker和XCulturalBench，分别用于衡量LLMs的社会偏见和文化偏见。首先，我们介绍了BiasAsker，这是一个用于识别和衡量对话式AI系统中社会偏见的自动化框架。BiasAsker可以生成不同类型的问题，从5,021个带有偏见的属性角度评估对841个群体的偏见态度。我们在10个商业系统和模型上的实验表明了BiasAsker的有效性。接着，我们确定了LLMs中的文化偏见问题，主要由于模型训练和对齐时使用了英语数据，并引入了XCulturalBench，这是一个多语言文化基准，包含具体的文化对象（如节日和歌曲）和抽象的文化对象（如价值观和观念）。实验证据表明，代表性的GPT模型存在严重的文化偏见问题。我们还表明，在模型开发和部署中使用两种直接方法可以显著缓解LLMs中的文化偏见问题。

成为VIP会员查看完整内容

相关内容

大语言模型

关注 62

大语言模型是基于海量文本数据训练的深度学习模型。它不仅能够生成自然语言文本，还能够深入理解文本含义，处理各种自然语言任务，如文本摘要、问答、翻译等。2023年，大语言模型及其在人工智能领域的应用已成为全球科技研究的热点，其在规模上的增长尤为引人注目，参数量已从最初的十几亿跃升到如今的一万亿。参数量的提升使得模型能够更加精细地捕捉人类语言微妙之处，更加深入地理解人类语言的复杂性。在过去的一年里，大语言模型在吸纳新知识、分解复杂任务以及图文对齐等多方面都有显著提升。随着技术的不断成熟，它将不断拓展其应用范围，为人类提供更加智能化和个性化的服务，进一步改善人们的生活和生产方式。

【UIUC博士论文】迈向可信的大型语言模型，312页pdf

专知会员服务

41+阅读 · 2024年6月8日

【博士论文】理解大型语言模型：使用探针分类器和自合理化实现严格和有针对性的可解释性，109页pdf

专知会员服务

40+阅读 · 2024年4月14日

【斯坦福博士论文】在语言模型融合多模态知识，225页pdf

专知会员服务

50+阅读 · 2024年4月10日

【博士论文】从噪声数据中深度学习的信息特征和示例的优先排序，94页pdf

专知会员服务

32+阅读 · 2024年3月11日