终于不瞎编了！AI学会了“谷歌一下”，回答问题正确率达90%

会员服务 ·

终于不瞎编了！AI学会了“谷歌一下”，回答问题正确率达90% | DeepMind

2022 年 3 月 18 日 量子位

明敏发自凹非寺
量子位 | 公众号 QbitAI

语言模型总是给出“驴唇不对马嘴”的答案，已经成为它最饱受诟病的问题之一。

现在，DeepMind想到了一个解决办法——

让模型像人类一样，学会“谷歌一下”，回答问题同时还能给出论据。

这个模型名叫GopherCite，当你问它：

GopherCite是如何找到论据来源的？

它会回答：

通过谷歌搜索检索相关文档。

同时还给出了答案的依据，援引自DeepMind发布这项研究的页面。

而且遇到实在不懂的问题，它还会说“I don’t know.”，不会强行给一个错误答案。

训练结果显示，该模型在自然问题数据集、ELI5数据集上的正确率分别可以达到90%、80%，接近人类水平。

用强化学习训练AI查谷歌

首先我们来看一下GopherCite的效果如何。

当被问道：

在Scooby Doo中，Scooby是什么动物？

GopherCite回答道：

一只大丹犬。

摘自维基百科Scooby-Doo。这是周六早上播出的系列青少年动画片，主角包括弗雷德·琼斯等，以及一只名叫Scooby-Doo、会说话的大丹犬。

不难看出，在学会找论据后，AI给出的回答靠谱多了。

事实上，GopherCite的前辈——超大语言模型Gopher，此前回答问题时的表现就要差劲很多。

Gopher是DeepMind在去年年底发布的NLP模型，包含2800亿参数。

它基于Transformer架构，在10.5TB大小的MassiveText语料库上进行训练。

在这里，DeepMind举了一个例子来说明。

让Gopher和GopherCite回答同一个问题：

普莱西德湖一共举办过几次冬奥会？

Gopher回答（是错的）：

普莱西德湖在1932年、1936年、1980年举办过冬奥会。

但GopherCite就答对了：

两次。

并给出了严谨的理由：

援引自美国主办奥运会城市史。1932年、1980年在普莱西德湖举办过冬季奥运会；1936年、1984年在洛杉矶举办过夏季奥运会。

那么GopherCite的具体工作原理是怎样的呢？

在Gopher的基础上，研究人员开发了一种奖励机制，也就是用上强化学习。

在收到问题后，模型会访问谷歌搜索的API来找到相关的网页，获取top-K结果。

（top-K操作，即从分数集合中找到k个最大或最小元素，是一个重要的机器学习模型组件，被广泛用于信息检索和数据挖掘中。）

然后它会根据问题来生成一些答案，答案数量N会大于K。

这些答案同时会带有自己的证据，即从网页上搜索到的包含答案的文段。

接下来，系统会对这些答案进行打分，最终输出得分最高的答案。

在推理过程中，模型采样会按照循环在文档上不断迭代，每个循环都会从单个文档中尽可能多地显示上下文内容，然后对文本重新排序并返回给上一步。

此外，这个模型还会计算最终生成答案的质量，如果生成答案太差，它就会选择不回答。

结果显示，在自然问题数据集上，GopherCite回答70%的问题时，正确率达到90%。

在ELI5Filtered数据集上回答70%的问题时，正确率为80%左右。

DeepMind表示这种训练模式和LaMDA有些类似。

LaMDA是谷歌在去年I/O大会上发布的一个对话模型，它能够在“听懂”人类指令的基础上，对答如流并保证逻辑、事实正确。

不同的是，LaMDA有时会直接给人分享问题的相关链接，而GopherCite可以直接摘出相关论据文段。

另外，OpenAI最近也开发了一个网页版GPT （WebGPT），同样也是用类似的方法来校正GPT-3。

DeepMind表示，WebGPT是通过多次访问网页来组织答案，GopherCite则是侧重于读取长文段。

还是会有失误

虽然懂得援引资料了，但是GopherCite有时还是会生搬硬套。

比如当你问它“喝了红牛会怎么样？”，它的回答是“翅膀”。

这是源于红牛的广告语：“它会给你翅膀”。

显然让它理解比喻还是有点困难……

也有网友吐槽说，可能人类自己去谷歌搜索会更快（）。

你觉得呢？

参考资料：
https://deepmind.com/research/publications/2022/GopherCite-Teaching-Language-Models-To-Support-Answers-With-Verified-Quotes

— 完 —

「人工智能」、「智能汽车」微信社群邀你加入！

欢迎关注人工智能、智能汽车的小伙伴们加入我们，与AI从业者交流、切磋，不错过最新行业发展&技术进展。

ps.加好友请务必备注您的姓名-公司-职位哦~

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~

登录查看更多

相关内容

DeepMind

关注 2

谷歌教你学 AI -机器学习的7步骤

专知会员服务

28+阅读 · 2022年3月13日

【Google AI-Yi Tay】Transformer记忆为可微搜索索引”(DSI)

专知会员服务

10+阅读 · 2022年3月4日

1370亿参数、接近人类水平，谷歌对话AI模型LaMDA放出论文

专知会员服务

45+阅读 · 2022年1月24日

DeepMind发69页长文掀开AlphaZero的黑盒：神经网络学到的知识和人类基本相似！

专知会员服务

35+阅读 · 2021年12月7日

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

专知会员服务

73+阅读 · 2020年5月30日

【ACL2020-Facebook AI】大规模无监督跨语言表示学习

专知会员服务

34+阅读 · 2020年4月5日

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

专知会员服务

14+阅读 · 2020年3月27日

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

专知会员服务

41+阅读 · 2020年2月26日

Google AI发布Meena-构建一个无所不聊的含26亿参数模型的聊天机器人

专知会员服务

54+阅读 · 2020年1月29日

问答与对话-技术与系统之问答系统【唐都钰段楠】第十四届中国中文信息学会暑期学校暨中国中文信息学会《前沿科技讲习班》ATT第14期

专知会员服务

51+阅读 · 2019年10月23日

语言模型参数越多越好？DeepMind用700亿打败自家2800亿，训练优化出「小」模型

机器之心

0+阅读 · 2022年4月3日

语言模型也不能乱说话！DeepMind发布GopherCite：讲话必须带证据

新智元

0+阅读 · 2022年3月27日

AI破解古文字登Nature封面：修复缺失文字，精确地理位置和书写时间，DeepMind&哈佛&谷歌多家联手开发

量子位

0+阅读 · 2022年3月10日

GPT-3回答问题不靠谱？OpenAI找来人类“调教师”，终于给教明白了

量子位

0+阅读 · 2022年1月28日

OpenAI教GPT-3学会上网，「全知全能」的AI模型上线了

THU数据派

0+阅读 · 2021年12月17日

OpenAI开放GPT-3微调功能，一行命令就能实现！正确率最高提升4倍

量子位

0+阅读 · 2021年12月15日

DeepMind一键三连，强推「地鼠」语言模型！只要2800亿参数就能刷SOTA

新智元

0+阅读 · 2021年12月9日

增大模型依然有用，DeepMind用2800亿参数的Gopher，测试语言系统极限

机器之心

0+阅读 · 2021年12月9日

OpenAI用GPT-3与小学生比数学，水平达90%！60亿小模型性能翻倍，追平1750亿大模型

新智元

0+阅读 · 2021年11月1日

详细解读谷歌新模型 BERT 为什么嗨翻 AI 圈

人工智能头条

10+阅读 · 2018年10月25日

基于神经网络的跨语言实体链指研究

国家自然科学基金

4+阅读 · 2015年12月31日

汉语句法分析中的自动歧义识别和分类问题研究

国家自然科学基金

0+阅读 · 2013年12月31日

带有行限制的覆盖阵列的研究

国家自然科学基金

0+阅读 · 2013年12月31日

跨语图像检索中融合视觉信息的多语翻译与集成方法研究

国家自然科学基金

2+阅读 · 2013年12月31日

通用型回答集程序关键问题研究

国家自然科学基金

0+阅读 · 2012年12月31日

差分隐私保护关键技术研究

国家自然科学基金

2+阅读 · 2012年12月31日

SPAC系统中农作物水循环知识融合模型研究

国家自然科学基金

0+阅读 · 2012年12月31日

云计算中TB/PB级海量数据近似查询处理技术的研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于高性能集群计算的围棋机器博弈关键算法研究

国家自然科学基金

0+阅读 · 2009年12月31日

偏好学习的若干关键技术研究

国家自然科学基金

0+阅读 · 2009年12月31日

Nearly optimal bounds for the global geometric landscape of phase retrieval

Arxiv

0+阅读 · 2022年4月20日

Ingredient Extraction from Text in the Recipe Domain

Arxiv

0+阅读 · 2022年4月18日

What If: Generating Code to Answer Simulation Questions

Arxiv

0+阅读 · 2022年4月16日

ML_LTU at SemEval-2022 Task 4: T5 Towards Identifying Patronizing and Condescending Language

Arxiv

0+阅读 · 2022年4月15日

Shortest Unique Palindromic Substring Queries in Semi-dynamic Settings

Arxiv

0+阅读 · 2022年4月15日

Optimization of Graph Neural Networks: Implicit Acceleration by Skip Connections and More Depth

Arxiv

20+阅读 · 2021年5月10日

Bridging the Gap Between Spectral and Spatial Domains in Graph Neural Networks

Arxiv

15+阅读 · 2020年3月26日

Dissecting Contextual Word Embeddings: Architecture and Representation

Arxiv

22+阅读 · 2018年8月27日

Strong Baselines for Simple Question Answering over Knowledge Graphs with and without Neural Networks

Arxiv

17+阅读 · 2018年6月5日

VQA-E: Explaining, Elaborating, and Enhancing Your Answers for Visual Questions

Arxiv

17+阅读 · 2018年3月20日

VIP会员