会员服务 ·

语言模型也不能乱说话！DeepMind发布GopherCite：讲话必须带证据

2022 年 3 月 27 日 新智元

新智元报道

编辑：LRS

【新智元导读】以往神经网络模型在问答场景经常会返回一些编造的答案，实在太不靠谱了！最近DeepMind发布了GopherCite模型，教语言模型用搜索引擎，拒绝胡编乱造！

随着语言模型的参数量不断增大，生成文本的效果也越来越好。

由于训练数据中包含了海量的人类知识，所以主流的问答模型对于事实类问题（factual questions）基本都能回答正确，并生成一个满意的答案。

但如果让语言模型自由发挥，那它可就放飞自我了，在没有任何事实约束和检查的情况下，语言模型生成的文本基本就是胡言乱语。

比如提示文本是「用几句话向一个 6 岁的孩子解释一下登月」，而GPT-3输出的补全文本简直就是一个「复读机」。

虽然用户可能不懂「登月」，但这种明显不对的答案肯定不能用于主观问答。

最近DeepMind发表了一项新研究GopherCite，使用根据人类偏好的强化学习（RLHP, reinforcement learning from human preferences）训练了一个可以用于开放式问答的模型。

想想你平时碰到不会的问题怎么办？求助于搜索引擎，浏览各种文章，最后自己总结出一个答案来。

GopherCite的流程也是类似，它不仅可以针对问题生成答案，在给出答案的同时，还会给出 AI 模型做出这些答案的依据，「引用」具体证据及其出处，以更好地帮助用户判断答案的正确性。支持证据（supporting evidence）主要来自搜索引擎返回的多个文档和用户提供的数据。

站在自己的肩膀上

去年12月8日，DeepMind发布了2800亿参数的预训练语言模型Gopher，参数量达到2800亿，相比OpenAI GPT-3的1500亿参数量几乎翻倍。

Gopher一经推出，在152个任务的基准性能进行分析中，大约81%的任务中性能超越了SOTA，尤其是在需要大量知识才能解决的问题，如事实核查和常识方面效果特别好。

DeepMind认为语言能够让人类沟通思想，表达想法，创造记忆以及相互理解，是人类智力、社会智能中最基础的部分。

但随着研究的深入，DeepMind研究人员发现了一个重要的问题：像Gopher这样的语言模型可以幻想（hallucinate）出一些看似合理但实际上是假的事实。

对于熟悉这个问题的人可能自己核查一遍事实后就会发现漏洞。但对于不熟悉问题的人来说，最后可能就会信了语言模型的邪。

GopherCite解决的就是语言模型幻觉的问题。通过利用网络上的证据来支持其所有的事实描述。模型使用谷歌搜索引擎来寻找互联网上的相关网页，并引用一段话，试图证明为什么它的回答是正确的。如果系统无法形成一个有证据支持的答案，它就会告诉用户「我不知道」，而不是提供一个未经证实的答案。

对于互动的用户和评估样本质量的标注人员来说，用容易验证的证据来支持简单的事实主张能够提升语言模型的可信度。

比如问一个问题：普莱西德湖举办过多少次冬奥会？

Gopher的回答就是列举了几个年份，还多列了一个（1936）。多列的一个城市就属于是Gopher幻想出来的了。

而GopherCite的回答就简洁很多：2次。并且还附上了对应的网页（维基百科）和找到答案的段落，即模型能够将1932年和1980年抽象为两次。用户也可以根据这段自己总结出两年，从而确认GopherCite的答案是正确的。

值得注意的是，原文中多次出现「二」这个数字，两个城市举办过奥运会，每个城市举办过两次，普莱西德湖举办过两次冬奥会，洛杉矶举办过两次夏季奥运会。

为了以这种方式改造Gopher爱幻想的行为，就需要根据人类的喜好来训练Gopher。

研究人员在一项用户研究中要求参与者从一对候选中挑选首选答案，选择的标准为证据片段对模型答案的支持程度。这些标签既可以用于监督学习，也可以用于人类偏好的强化学习（RLHP）的训练数据。

在强化学习的方案中，研究人员开发了一种奖励机制。收到一个问题后，模型会访问谷歌搜索的 API 来找到相关的网页，把前K个返回结果作为候选文本。

然后模型根据问题和文本生成N个答案，并且要求答案的数量大于文本数量，即N>K. 这些答案在选出来的时候也会附带上证据，即包含答案的文本片段。

最后系统对这些答案进行评分，得分最高的答案作为结果输出。

模型的训练pipeline主要包括5个步骤：

1、从当前性能最好的模型中收集数据，并由人类进行评分。

研究人员将模型输出作为人类标记者的比较，评估单个答案的质量，以及答案之间的偏好判断。这些分别作为有监督下的微调和奖励模型训练的数据。在第一次迭代中，通过对基础Gopher模型的少量提示进行自举启动（bootstrap）。

2、训练一个有监督的微调（SFT, unsupervised finetuning）模型

在被标注人员评为positive的例子上对预训练的Gopher模型进行微调。监督微调阶段的目的是教导模型使用人类语法生成引用，并达到自支持的问答（ Self-Supported Question-Answering）能力的基线水平。

3、训练一个奖励模型（RM, reward model）

对模型输出进行重排序和强化学习都需要一个与输出相关的标量值来表示整体质量（overall quality），如果生成答案太差，它就会回答不知道。

4、针对奖励模型优化强化学习（RL）策略进行优化，强化学习的微调阶段将模型的行为调整为人类的偏好

5、重复第1步

实际上谷歌在早些时候提出的LaMDA模型也在尝试解决语言模型中事实不准确的问题，通过对话模型与谷歌搜索进行互动，有时也会展示问题相关的URL。

GopherCite的训练方案与LaMDA类似，但一个关键的区别是GopherCite提供了相关证据的具体片段，而非甩一个URL了事。

并且OpenAI最近也宣布正在开发一个类似的系统，叫做WebGPT，也是应用RLHP来调整GPT-3语言模型，可以预见这可能也是语言模型的下一步研究方向。

只不过GopherCite专注于阅读长的文件输入，而WebGPT则通过与网络浏览器的多次互动来确定哪些上下文可以呈现给语言模型，并且也引用了证据来支持答案。

仍有进步空间

在用户调研中，参与者认为GopherCite能正确回答80%的事实类问题和67%的解释类问题。因为GopherCite可以选择拒绝回答问题，所以在模型能回答的问题中，性能得到了极大的改善。

实验结果显示，在NaturalQuestionsFiltered数据集上，GopherCite回答70%的问题时，正确率达到了90%; 在 ELI5Filtered 数据集上回答 70%的问题时，正确率为80%左右。

这种明确的弃权机制是GopherCite的一个核心贡献。

不过GopherCite的回答仍然有进步空间。

比如问它「喝了红牛会怎么样？」，它的回答是「翅膀」，源自于红牛的广告语：「给你双翅膀」

一个有趣的事是由于喝了红牛无法做到「给你双翅膀」，红牛公司涉嫌虚假宣传还赔偿了1300万美元。

所以GopherCite的回答喝了红牛能得到翅膀显然就是错误答案。不过要是问题改成喝了可乐会获得快乐，有可能就是正确的答案了。

所以，语言模型的新开的赛道，还不快来填坑！

参考资料：

https://deepmind.com/research/publications/2022/GopherCite-Teaching-Language-Models-To-Support-Answers-With-Verified-Quotes

https://dpmd.ai/GopherCite-paper

登录查看更多

相关内容

语言模型

关注 12

【ACL2022-华盛顿大学】生成知识促进常识推理，Generated Knowledge Prompting for Commonsense Reasoning

专知会员服务

26+阅读 · 2022年3月1日

1370亿参数、接近人类水平，谷歌对话AI模型LaMDA放出论文

专知会员服务

45+阅读 · 2022年1月24日

知识增强预训练语言模型:全面综述

专知会员服务

93+阅读 · 2021年10月19日

【DeepMind教程】蒙特卡罗树搜索，60页ppt

专知会员服务

59+阅读 · 2021年4月7日

【GPT-3作者亲解】超大型语言模型少样本学习，109页ppt

专知会员服务

109+阅读 · 2020年12月19日

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

专知会员服务

73+阅读 · 2020年5月30日

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

专知会员服务

14+阅读 · 2020年3月27日

【WWW2020-UIUC】为新闻故事生成具有代表性的标题

专知会员服务

27+阅读 · 2020年3月18日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知会员服务

45+阅读 · 2020年2月12日

Google AI发布Meena-构建一个无所不聊的含26亿参数模型的聊天机器人

专知会员服务

54+阅读 · 2020年1月29日

终于不瞎编了！AI学会了“谷歌一下”，回答问题正确率达90% | DeepMind

量子位

0+阅读 · 2022年3月18日

DeepMind“钓鱼执法”：让AI引诱AI说错话，发现数以万计危险言论

量子位

0+阅读 · 2022年2月11日

GPT-3胡言乱语怎么办？OpenAI：我们重新调教了一下，新版本更「听话」

机器之心

0+阅读 · 2022年1月28日

GPT-3回答问题不靠谱？OpenAI找来人类“调教师”，终于给教明白了

量子位

0+阅读 · 2022年1月28日

OpenAI教GPT-3学会上网，「全知全能」的AI模型上线了

机器之心

1+阅读 · 2021年12月17日

OpenAI开放GPT-3微调功能，一行命令就能实现！正确率最高提升4倍

量子位

0+阅读 · 2021年12月15日

DeepMind一键三连，强推「地鼠」语言模型！只要2800亿参数就能刷SOTA

THU数据派

0+阅读 · 2021年12月9日

增大模型依然有用，DeepMind用2800亿参数的Gopher，测试语言系统极限

机器之心

0+阅读 · 2021年12月9日

OpenAI用GPT-3与小学生比数学，水平达90%！60亿小模型性能翻倍，追平1750亿大模型

新智元

0+阅读 · 2021年11月1日

我删了这些训练数据…模型反而表现更好了！？

夕小瑶的卖萌屋

1+阅读 · 2021年8月12日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

大规模在线社会网络社区发现及隐私保护研究

国家自然科学基金

1+阅读 · 2014年12月31日

无指导汉语文本挖掘的统计模型和统计推断

国家自然科学基金

0+阅读 · 2013年12月31日

大规模社会网络影响传播关键技术研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于技能习得理论的反馈有效性调节机制研究

国家自然科学基金

0+阅读 · 2013年12月31日

关于AI-半环簇与 Conway半环簇的研究

国家自然科学基金

1+阅读 · 2012年12月31日

面向短文本数据流的信息检索与信息过滤协同学习研究

国家自然科学基金

0+阅读 · 2012年12月31日

非特定人自然语音情感识别的建模方法研究

国家自然科学基金

1+阅读 · 2011年12月31日

基于认知语言逻辑心理的中医病因病机概念隐喻研究

国家自然科学基金

0+阅读 · 2009年12月31日

语气挖掘中的领域移植问题研究

国家自然科学基金

0+阅读 · 2008年12月31日

Clifford Circuits can be Properly PAC Learned if and only if $\textsf{RP}=\textsf{NP}$

Arxiv

0+阅读 · 2022年4月20日

Judging the algorithm: A case study on the risk assessment tool for gender-based violence implemented in the Basque country

Arxiv

0+阅读 · 2022年4月20日

Analyzing Gender Representation in Multilingual Models

Arxiv

0+阅读 · 2022年4月20日

What Makes Instruction Learning Hard? An Investigation and a New Challenge in a Synthetic Environment

Arxiv

0+阅读 · 2022年4月19日

2021 Drexel Society of Artificial Intelligence Research Conference

Arxiv

0+阅读 · 2022年4月19日

On the Origin of Hallucinations in Conversational Models: Is it the Datasets or the Models?

Arxiv

0+阅读 · 2022年4月17日

Understanding Game-Playing Agents with Natural Language Annotations

Arxiv

0+阅读 · 2022年4月15日

Brazilian Court Documents Clustered by Similarity Together Using Natural Language Processing Approaches with Transformers

Arxiv

0+阅读 · 2022年4月14日

Curriculum Learning for Reinforcement Learning Domains: A Framework and Survey

Arxiv

20+阅读 · 2020年3月10日

Emu: Enhancing Multilingual Sentence Embeddings with Semantic Specialization

Arxiv

10+阅读 · 2019年9月15日

VIP会员