【UIUC博士论文】迈向可信的大型语言模型，312页pdf - 专知VIP

会员服务 ·

22

大模型 · 博士论文 · 大型语言模型 · 可信赖大模型 ·

2024 年 6 月 8 日

【UIUC博士论文】迈向可信的大型语言模型，312页pdf

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

在人工智能的新时代，大型语言模型（LLM）在广泛的自然语言处理（NLP）任务中取得了前所未有的成功，显著提升了对人类语言的理解和生成能力。然而，随着这一显著进展，人们对其安全性和可靠性的担忧也在增加。潜在的错误行为、对抗性攻击的脆弱性、伦理问题以及敏感数据的隐私泄漏，都是面临的重大挑战。本文深入探讨了LLM的可信性，涵盖了鲁棒性、隐私、伦理和全面评估等方面。首先，以可信机器学习和NLP的基础原则为起点，我们进入应用领域，通过我们新颖的目标对抗性攻击框架和多样的扰动函数，识别并剖析现有LLM的脆弱性。针对这些脆弱性，我们设计了InfoBERT学习框架，从信息论的角度提高鲁棒性。接着，本文延伸到LLM的隐私领域，我们提出的方法DataLens利用生成模型和梯度稀疏性提供严格的差分隐私保证。我们还探讨了联邦学习，提出了一种在设备上训练模型时确保数据隐私的新范式，利用现有的公共LLM。针对伦理维度，我们重点研究了LLM的去毒化，确保其输出符合社会可接受的规范。为了严格评估LLM的可信性，我们引入了Adversarial GLUE基准，在具有挑战性的对抗条件下揭示模型的脆弱性。此外，我们还关注了检索增强语言模型，深入研究了可扩展的预训练检索增强模型Retro，并将其性能与标准模型进行比较。这项研究揭示了未来基础模型的有前途方向。深入到可信性评估领域，我们通过细粒度的可信性评估引入了DecodingTrust，特别关注最先进的LLM，包括GPT-4和GPT-3.5。通过这一深入探讨，我们发现了潜在的错误行为，包括生成偏见输出的易感性、潜在的数据隐私泄漏以及GPT-4等最先进LLM面临的复杂挑战。总之，本文对现有LLM中的脆弱性提供了若干关键见解，并为符合人类价值观的下一代LLM铺平了道路。本文的主要目的是推动可信大型语言模型领域的发展，促进可靠和无偏LLM的演进和发展。

https://www.ideals.illinois.edu/items/129170

成为VIP会员查看完整内容

40

相关内容

大模型

大模型是基于海量多源数据打造的预训练模型，是对原有算法模型的技术升级和产品迭代，用户可通过开源或开放API/工具等形式进行模型零样本/小样本数据学习，以实现更优的识别、理解、决策、生成效果和更低成本的开发部署方案。

【CMU博士论文】使用结构化推理增强语言模型，320页pdf

【CMU博士论文】使用结构化推理增强语言模型，320页pdf

专知会员服务

34+阅读 · 2024年6月29日

【斯坦福博士论文】在语言模型融合多模态知识，225页pdf

【斯坦福博士论文】在语言模型融合多模态知识，225页pdf

专知会员服务

49+阅读 · 2024年4月10日

【MIT博士论文】在真实世界环境中的强化学习系统的鲁棒性，292页pdf

【MIT博士论文】在真实世界环境中的强化学习系统的鲁棒性，292页pdf

专知会员服务

41+阅读 · 2024年3月3日

【牛津大学博士论文】自然语言处理的鲁棒性研究，194页pdf

【牛津大学博士论文】自然语言处理的鲁棒性研究，194页pdf

专知会员服务

26+阅读 · 2024年2月26日

【NTU博士论文】复杂序列决策中的多智能体强化学习，176页pdf

【NTU博士论文】复杂序列决策中的多智能体强化学习，176页pdf

专知会员服务

71+阅读 · 2024年1月13日

【NTU博士论文】开放世界中机器学习的自然鲁棒性，175页pdf

【NTU博士论文】开放世界中机器学习的自然鲁棒性，175页pdf

专知会员服务

33+阅读 · 2023年12月24日

【滑铁卢博士论文】自然语言处理中transformer的高效推理:研究与展望，125页pdf

【滑铁卢博士论文】自然语言处理中transformer的高效推理:研究与展望，125页pdf

专知会员服务

38+阅读 · 2023年9月8日

【MIT博士论文】保证性生成模型，155页pdf

【MIT博士论文】保证性生成模型，155页pdf

专知会员服务

31+阅读 · 2023年8月8日

【CMU博士论文】可解释机器学习方法与应用，127页pdf

【CMU博士论文】可解释机器学习方法与应用，127页pdf

专知会员服务

77+阅读 · 2023年6月6日

【华盛顿大学博士论文】课程学习：从人类策略到学习动力学，304页pdf

【华盛顿大学博士论文】课程学习：从人类策略到学习动力学，304页pdf

专知会员服务

65+阅读 · 2023年5月10日

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

专知

38+阅读 · 2023年4月13日

【2023新书】AI4Science，人工智能促进科学发现，134页pdf

【2023新书】AI4Science，人工智能促进科学发现，134页pdf

专知

58+阅读 · 2023年4月5日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

29+阅读 · 2022年9月19日

【MIT博士论文】深度学习几何表示，138页pdf

【MIT博士论文】深度学习几何表示，138页pdf

专知

17+阅读 · 2022年9月4日

【2022新书】决策支持系统的机器学习和概率图模型，330页pdf

【2022新书】决策支持系统的机器学习和概率图模型，330页pdf

专知

29+阅读 · 2022年7月18日

【2022新书】深度学习基础：设计下一代机器智能算法，390页pdf

【2022新书】深度学习基础：设计下一代机器智能算法，390页pdf

专知

33+阅读 · 2022年7月15日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

18+阅读 · 2022年7月11日

【博士论文】多任务学习视觉场景理解，140页pdf

【博士论文】多任务学习视觉场景理解，140页pdf

专知

28+阅读 · 2022年4月5日

最新《知识驱动的文本生成》综述论文，44页pdf

最新《知识驱动的文本生成》综述论文，44页pdf

专知

25+阅读 · 2020年10月14日

最新《图嵌入组合优化》综述论文，40页pdf

最新《图嵌入组合优化》综述论文，40页pdf

专知

39+阅读 · 2020年8月31日

间接优化的高效Monte Carlo声传播研究

国家自然科学基金

0+阅读 · 2017年12月31日

语义Web知识库补全关键技术研究

国家自然科学基金

14+阅读 · 2017年12月31日

面向服务的复杂产品设计建模与协同决策方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

可恢复的数字语音取证水印技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于云计算平台的下一代测序数据错误修正算法研究与实现

国家自然科学基金

2+阅读 · 2015年12月31日

SDN数据平面中大规模流表的高性能查找方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

大规模模糊RDF数据管理关键技术研究

国家自然科学基金

8+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

28+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

动态环境下决策单元效率评价方法与应用研究

国家自然科学基金

3+阅读 · 2014年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

216+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

477+阅读 · 2023年3月31日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

61+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

173+阅读 · 2023年3月24日

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

Arxiv

84+阅读 · 2023年3月21日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

Interpretable machine learning: definitions, methods, and applications

Interpretable machine learning: definitions, methods, and applications

Arxiv

19+阅读 · 2019年1月14日

VIP会员

相关主题

大型语言模型

可信赖大模型

相关VIP内容

【CMU博士论文】使用结构化推理增强语言模型，320页pdf

【CMU博士论文】使用结构化推理增强语言模型，320页pdf

专知会员服务

34+阅读 · 2024年6月29日

【斯坦福博士论文】在语言模型融合多模态知识，225页pdf

【斯坦福博士论文】在语言模型融合多模态知识，225页pdf

专知会员服务

49+阅读 · 2024年4月10日

【MIT博士论文】在真实世界环境中的强化学习系统的鲁棒性，292页pdf

【MIT博士论文】在真实世界环境中的强化学习系统的鲁棒性，292页pdf

专知会员服务

41+阅读 · 2024年3月3日

【牛津大学博士论文】自然语言处理的鲁棒性研究，194页pdf

【牛津大学博士论文】自然语言处理的鲁棒性研究，194页pdf

专知会员服务

26+阅读 · 2024年2月26日

【NTU博士论文】复杂序列决策中的多智能体强化学习，176页pdf

【NTU博士论文】复杂序列决策中的多智能体强化学习，176页pdf

专知会员服务

71+阅读 · 2024年1月13日

【NTU博士论文】开放世界中机器学习的自然鲁棒性，175页pdf

【NTU博士论文】开放世界中机器学习的自然鲁棒性，175页pdf

专知会员服务

33+阅读 · 2023年12月24日

【滑铁卢博士论文】自然语言处理中transformer的高效推理:研究与展望，125页pdf

【滑铁卢博士论文】自然语言处理中transformer的高效推理:研究与展望，125页pdf

专知会员服务

38+阅读 · 2023年9月8日

【MIT博士论文】保证性生成模型，155页pdf

【MIT博士论文】保证性生成模型，155页pdf

专知会员服务

31+阅读 · 2023年8月8日

【CMU博士论文】可解释机器学习方法与应用，127页pdf

【CMU博士论文】可解释机器学习方法与应用，127页pdf

专知会员服务

77+阅读 · 2023年6月6日

【华盛顿大学博士论文】课程学习：从人类策略到学习动力学，304页pdf

【华盛顿大学博士论文】课程学习：从人类策略到学习动力学，304页pdf

专知会员服务

65+阅读 · 2023年5月10日

热门VIP内容

开通专知VIP会员享更多权益服务

面向具身智能的多模态数据存储与检索：综述

《算法战争研究计划全景评估》35页

【CMU博士论文】水下三维视觉感知与生成

智能体战争：自主人工智能军备竞赛全景透视

相关资讯

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

专知

38+阅读 · 2023年4月13日

【2023新书】AI4Science，人工智能促进科学发现，134页pdf

【2023新书】AI4Science，人工智能促进科学发现，134页pdf

专知

58+阅读 · 2023年4月5日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

29+阅读 · 2022年9月19日

【MIT博士论文】深度学习几何表示，138页pdf

【MIT博士论文】深度学习几何表示，138页pdf

专知

17+阅读 · 2022年9月4日

【2022新书】决策支持系统的机器学习和概率图模型，330页pdf

【2022新书】决策支持系统的机器学习和概率图模型，330页pdf

专知

29+阅读 · 2022年7月18日

【2022新书】深度学习基础：设计下一代机器智能算法，390页pdf

【2022新书】深度学习基础：设计下一代机器智能算法，390页pdf

专知

33+阅读 · 2022年7月15日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

18+阅读 · 2022年7月11日

【博士论文】多任务学习视觉场景理解，140页pdf

【博士论文】多任务学习视觉场景理解，140页pdf

专知

28+阅读 · 2022年4月5日

最新《知识驱动的文本生成》综述论文，44页pdf

最新《知识驱动的文本生成》综述论文，44页pdf

专知

25+阅读 · 2020年10月14日

最新《图嵌入组合优化》综述论文，40页pdf

最新《图嵌入组合优化》综述论文，40页pdf

专知

39+阅读 · 2020年8月31日

相关基金

间接优化的高效Monte Carlo声传播研究

国家自然科学基金

0+阅读 · 2017年12月31日

语义Web知识库补全关键技术研究

国家自然科学基金

14+阅读 · 2017年12月31日

面向服务的复杂产品设计建模与协同决策方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

可恢复的数字语音取证水印技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于云计算平台的下一代测序数据错误修正算法研究与实现

国家自然科学基金

2+阅读 · 2015年12月31日

SDN数据平面中大规模流表的高性能查找方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

大规模模糊RDF数据管理关键技术研究

国家自然科学基金

8+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

28+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

动态环境下决策单元效率评价方法与应用研究

国家自然科学基金

3+阅读 · 2014年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

216+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

477+阅读 · 2023年3月31日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

61+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

173+阅读 · 2023年3月24日

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

Arxiv

84+阅读 · 2023年3月21日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

Interpretable machine learning: definitions, methods, and applications

Interpretable machine learning: definitions, methods, and applications

Arxiv

19+阅读 · 2019年1月14日

微信扫码咨询专知VIP会员