大型语言模型(LLMs),如ChatGPT,凭借其出色的对话能力和智能性,在过去几年中迅速渗透到人们的工作和日常生活中。ChatGPT已经成为人类历史上用户增长最快的软件,并成为下一代人工智能应用的重要基础模型。然而,LLMs的生成内容并非完全可靠,它们经常产生包含事实错误、偏见和有害性的内容。鉴于其庞大的用户群体和广泛的应用场景,这些不可靠的回应可能带来许多严重的负面影响。本文介绍了我在博士研究期间对语言模型可靠性领域的探索性工作,从自动化软件测试和自然语言处理的角度研究LLMs的准确性、无害性和公平性。首先,为了衡量LLMs的准确性,我们提出了两个新的测试框架:FactChecker和LogicAsker,分别用于评估事实知识和逻辑推理的准确性。FactChecker通过从大规模知识库中检索事实三元组来构建知识图谱,进而生成各种类型的问题及预期答案,作为测试用例。LogicAsker是一个最小功能测试框架,它通过收集逻辑学中的所有基本原理和定律来构建原子技能集,并将标准的逻辑表达式转换为自然语言生成推理问题作为测试用例。我们的测试框架可以自动且全面地生成测试用例,并有效揭示最先进的LLMs(如ChatGPT和LLaMa)的缺陷。此外,我们证明了生成的测试用例可以提高LLMs的事实准确性和逻辑推理能力。其次,针对LLMs的无害性,我们介绍了两项针对LLMs的红队测试工作。首先,我们发现LLMs的文本内容审查机制在面对用户故意扰乱时不够健全,难以通过审查。为此,我们引入了MTTM,一个用于文本内容审查软件的变异测试框架,其变异关系是有害句子在经过语义保持的扰动后仍应被识别为有害。实验结果表明,MTTM可以发现商业内容审查软件中的漏洞,并提高其可靠性。其次,我们发现现有的安全基准和对齐工作通常仅限于一种语言,如英语。为此,我们建立了第一个多语言安全基准XSafety,涵盖了10种语言中14个常见的安全问题,跨越了多个语系,并发现所有LLMs在处理非英语查询时产生的不安全响应显著多于英语查询。此外,我们提出了一种简单有效的提示方法,通过增强跨语言的安全对齐来提高LLMs的多语言安全性。第三,为了评估LLMs的公平性,我们提出了两个评估框架:BiasAsker和XCulturalBench,分别用于衡量LLMs的社会偏见和文化偏见。首先,我们介绍了BiasAsker,这是一个用于识别和衡量对话式AI系统中社会偏见的自动化框架。BiasAsker可以生成不同类型的问题,从5,021个带有偏见的属性角度评估对841个群体的偏见态度。我们在10个商业系统和模型上的实验表明了BiasAsker的有效性。接着,我们确定了LLMs中的文化偏见问题,主要由于模型训练和对齐时使用了英语数据,并引入了XCulturalBench,这是一个多语言文化基准,包含具体的文化对象(如节日和歌曲)和抽象的文化对象(如价值观和观念)。实验证据表明,代表性的GPT模型存在严重的文化偏见问题。我们还表明,在模型开发和部署中使用两种直接方法可以显著缓解LLMs中的文化偏见问题。

成为VIP会员查看完整内容
35

相关内容

大语言模型是基于海量文本数据训练的深度学习模型。它不仅能够生成自然语言文本,还能够深入理解文本含义,处理各种自然语言任务,如文本摘要、问答、翻译等。2023年,大语言模型及其在人工智能领域的应用已成为全球科技研究的热点,其在规模上的增长尤为引人注目,参数量已从最初的十几亿跃升到如今的一万亿。参数量的提升使得模型能够更加精细地捕捉人类语言微妙之处,更加深入地理解人类语言的复杂性。在过去的一年里,大语言模型在吸纳新知识、分解复杂任务以及图文对齐等多方面都有显著提升。随着技术的不断成熟,它将不断拓展其应用范围,为人类提供更加智能化和个性化的服务,进一步改善人们的生活和生产方式。
【UIUC博士论文】迈向可信的大型语言模型,312页pdf
专知会员服务
39+阅读 · 2024年6月8日
【斯坦福博士论文】在语言模型融合多模态知识,225页pdf
【博士论文】基于知识的自然语言理解与生成,230页pdf
专知会员服务
41+阅读 · 2024年4月1日
【MIT博士论文】数据高效强化学习,176页pdf
最新《图嵌入组合优化》综述论文,40页pdf
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Arxiv
162+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
423+阅读 · 2023年3月31日
Arxiv
152+阅读 · 2023年3月24日
Arxiv
21+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员