在人工智能的新时代,大型语言模型(LLM)在广泛的自然语言处理(NLP)任务中取得了前所未有的成功,显著提升了对人类语言的理解和生成能力。然而,随着这一显著进展,人们对其安全性和可靠性的担忧也在增加。潜在的错误行为、对抗性攻击的脆弱性、伦理问题以及敏感数据的隐私泄漏,都是面临的重大挑战。本文深入探讨了LLM的可信性,涵盖了鲁棒性、隐私、伦理和全面评估等方面。首先,以可信机器学习和NLP的基础原则为起点,我们进入应用领域,通过我们新颖的目标对抗性攻击框架和多样的扰动函数,识别并剖析现有LLM的脆弱性。针对这些脆弱性,我们设计了InfoBERT学习框架,从信息论的角度提高鲁棒性。接着,本文延伸到LLM的隐私领域,我们提出的方法DataLens利用生成模型和梯度稀疏性提供严格的差分隐私保证。我们还探讨了联邦学习,提出了一种在设备上训练模型时确保数据隐私的新范式,利用现有的公共LLM。针对伦理维度,我们重点研究了LLM的去毒化,确保其输出符合社会可接受的规范。为了严格评估LLM的可信性,我们引入了Adversarial GLUE基准,在具有挑战性的对抗条件下揭示模型的脆弱性。此外,我们还关注了检索增强语言模型,深入研究了可扩展的预训练检索增强模型Retro,并将其性能与标准模型进行比较。这项研究揭示了未来基础模型的有前途方向。深入到可信性评估领域,我们通过细粒度的可信性评估引入了DecodingTrust,特别关注最先进的LLM,包括GPT-4和GPT-3.5。通过这一深入探讨,我们发现了潜在的错误行为,包括生成偏见输出的易感性、潜在的数据隐私泄漏以及GPT-4等最先进LLM面临的复杂挑战。总之,本文对现有LLM中的脆弱性提供了若干关键见解,并为符合人类价值观的下一代LLM铺平了道路。本文的主要目的是推动可信大型语言模型领域的发展,促进可靠和无偏LLM的演进和发展。

https://www.ideals.illinois.edu/items/129170

成为VIP会员查看完整内容
30

相关内容

大模型是基于海量多源数据打造的预训练模型,是对原有算法模型的技术升级和产品迭代,用户可通过开源或开放API/工具等形式进行模型零样本/小样本数据学习,以实现更优的识别、理解、决策、生成效果和更低成本的开发部署方案。
【MIT博士论文】保证性生成模型,155页pdf
专知会员服务
29+阅读 · 2023年8月8日
【CMU博士论文】可解释机器学习方法与应用,127页pdf
专知会员服务
73+阅读 · 2023年6月6日
【MIT博士论文】数据高效强化学习,176页pdf
最新《图嵌入组合优化》综述论文,40页pdf
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
22+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Arxiv
144+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
353+阅读 · 2023年3月31日
Arxiv
59+阅读 · 2023年3月26日
Arxiv
125+阅读 · 2023年3月24日
Arxiv
18+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
22+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员