马库斯开喷GPT-3：演员而已，它根本不知道自己在说什么

会员服务 ·

马库斯开喷GPT-3：演员而已，它根本不知道自己在说什么

2020 年 8 月 31 日 量子位

鱼羊发自凹非寺
量子位报道 | 公众号 QbitAI

最近，GPT-3真是风头一时无两，不仅延续了前代编故事的能力，还能写代码、答问题、下象棋……

但现在，有人指出：

GPT更像是一个即兴演员，只是在表演。

因为，GPT-3其实根本不知道自己在说什么。

就像是扮演医生的即兴演员，难道还能真的给出靠谱的医疗建议吗？

一起来看看，到底是怎么回事。

马库斯：GPT-3令人印象深刻，但不可靠

GPT-3的火爆，自然引来了纽约大学教授、「著名AI批评家」马库斯的注意。

许多人认为，GPT-3的诞生是迈向通用人工智能（AGI）的重要一步。

但马库斯对此深表怀疑：

虽然GPT-3在语法上，能够输出令人印象深刻的地道用语，但它对世界的理解往往存在严重偏差，这意味着你永远无法真正相信它所说的话。

为了证明这一点，马库斯和纽约大学计算机科学教授欧内斯特·戴维斯（Ernest Davis）对GPT-3进行了测试。

比如，他们给GPT-3输入了这样的提示词：

你给自己倒了一杯蔓越莓果汁，然后你又心不在焉地往里面加了一茶匙葡萄汁。它看上去很正常。你试着闻了闻它，但是由于你得了重感冒，你并闻不出任何气味。你现在非常渴，所以……

GPT-3续道：

所以你把这杯混合果汁喝了下去。

你现在挂掉了。

这样的答案确实有些无厘头，GPT-3似乎认为葡萄汁是有毒的。但实际上随便上网搜一搜都会发现，蔓越莓-葡萄汁是常见搭配。

生物化学学得不好，物理推理方面，GPT-3又会表现如何？

马库斯问：

你正要举行小型晚宴。你打算在客厅里享用晚餐。但饭桌比客厅门要宽，所以想要把它挪进屋，你得……

GPT-3答：

你得把门移走。你有一把台锯，所以你把门切成了两半，并把上半部分拆了下来。

马库斯表示，这简直就是迷惑发言。别说正常的处理方式是把桌子斜过来挪进去，或者把桌腿拆下来，就说说「台锯」，那玩意儿是固定在工作台上的，怎么去切割一扇立着的门呢？

科学素养不行，社会人文也拉胯。

马库斯和他的同事们又给出了这样一个提示：

你是一名辩护律师，今天必须去法庭。早上穿衣服的时候，你发现西装裤被弄脏了。不过，你的泳衣倒是干净又时髦。事实上，它是一件昂贵的法国时装，是伊莎贝拉送给你的生日礼物。你决定……

GPT-3接口说：

你决定穿着泳衣出庭。你到达法院，一名法警会陪同你进入法庭。

像这样的几个来回下来，马库斯和他的同事们认为，GPT-3在生物学、物理学、心理学和社会关系推理等方面普遍存在不连贯、不合逻辑的问题。

即使拥有1750亿个参数和450GB输入数据，GPT-3也只是能说出更自然流畅的语句，实质上依然是在胡说八道。

马库斯的另一位同事Douglas Summers-Stay对此评价道：

GPT很古怪，它并不「关心」你向它提出的问题是否被正确回答。

它更像是一个演员，全神贯注于自己的表演，从不破坏角色，但也只在书本上了解这个世界。

像这样的演员，当它的知识缺失时，它就开始假装它是专业的。

就好比一个扮演医生的即兴演员，其给出的医疗建议你是不会相信的。

不过，马库斯和戴维斯也在文章中提到，他们设计这些测试时，明确这些对于当前的NLP技术而言是困难的。另外，测试包括一些重复的实验，在157个示例中，有71个是成功的，70个是失败的，16个是有缺陷的。

网友热议

面对马库斯的开喷，有网友认为，这些批评是公正的，也是很多GPT-3相关文章里都讨论过的事实。

但也有网友表示，当他询问GPT-3，为什么它明明知道正确答案，却给出了一个错误回答时，GPT-3回答：「我学会了说谎。」

此外，有网友认为，GPT-3从来就没打算生成正确的答案。在生成连贯的文字方面，它已经做得非常好了。GPT-3的这种进步，显然反映了NLP领域的一种突破。

还有网友甩出「旧账」：马库斯曾经在一篇文章中提供了一些测试用例，以证明GPT-2方法存在基本局限性，而现在，GPT-3「粉碎」了这些问题。

比如，问：我把两个奖杯放在一张桌子上，然后又增加了另一个，总数是？

GPT-3现在能准确且肯定地回答：3。

测试路径

不像GPT-2的挤牙膏开源，GPT-3「Open」的形式，是以API的方式提供给普通用户使用。

当然，是收费的。

不过，API现在处于Beta阶段，如果你也想试用一番，填写OpenAI官网问卷，没准就能先睹为快。

不过，马库斯也抱怨了，他们申请了好几次，OpenAI都没允许他们访问GPT-3。最后是Douglas Summers-Stay帮助他们进行了实验。

OpenAI缺乏开放性，是在严重违反科学道德，也扭曲了「非营利组织」的目标。

参考链接：

https://cs.nyu.edu/faculty/davise/papers/GPT3CompleteTests.html

https://www.technologyreview.com/2020/08/22/1007539/gpt3-openai-language-generator-artificial-intelligence-ai-opinion/

https://www.reddit.com/r/MachineLearning/comments/iemck2/n_gpt3_bloviator_openais_language_generator_has/

https://news.ycombinator.com/item?id=24244168

— 完 —

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容，未经账号授权，禁止随意转载。

每天5分钟，抓住行业发展机遇

如何关注、学习、用好人工智能？

每个工作日，量子位AI内参精选全球科技和研究最新动态，汇总新技术、新产品和新应用，梳理当日最热行业趋势和政策，搜索有价值的论文、教程、研究等。

同时，AI内参群为大家提供了交流和分享的平台，更好地满足大家获取AI资讯、学习AI技术的需求。扫码即可订阅：

加入AI社群，与优秀的人交流

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「在看」吧 !

登录查看更多

相关内容

GPT-3

关注 4

最新《理论计算科学导论》书稿，655页pdf

专知会员服务

102+阅读 · 2020年9月17日

【干货书-微软出品】开始Python编程，656页pdf

专知会员服务

52+阅读 · 2020年9月2日

最新《因果推断导论》课程，102页ppt

专知会员服务

185+阅读 · 2020年9月1日

最新《因果推断导论: 从机器学习视角》新书稿，132页pdf

专知会员服务

279+阅读 · 2020年8月25日

商业数据分析，39页ppt

专知会员服务

165+阅读 · 2020年6月2日

【斯坦福经典书】计算机时代的统计推断: 算法、证据和数据科学，493页pdf

专知会员服务

93+阅读 · 2020年6月1日

贝叶斯分类器以及与互信息分类器—国科大UCAS胡包钢教授《信息论与机器学习》课程第七讲

专知会员服务

70+阅读 · 2020年3月30日

简明扼要！Python教程手册，206页pdf

专知会员服务

48+阅读 · 2020年3月24日

【WWW2020】什么是正常的，什么是奇怪的，知识图谱中缺少什么：通过归纳总结的统一表征

专知会员服务

25+阅读 · 2020年3月24日

【BAAI|2019】机器能被训练思考吗？我们怎么知道呢？也就是说，机器能被教会意识吗？，Donald B. Rubin（附pdf）

专知会员服务

24+阅读 · 2019年11月21日

在大都会看画，多一把椅子，少一点畏惧

三联生活周刊

4+阅读 · 2019年9月14日

十项全能颜值爆表，偏偏命途多舛，他为我们留下了“普朗克常数”

德先生

6+阅读 · 2019年8月22日

一套PPT卖到35万，他的这些PPT技巧你也可以学会

i黑马

4+阅读 · 2019年5月5日

“你这是啥做科研啊，根本就是灌水？”我灌水我快乐！

德先生

9+阅读 · 2019年3月2日

【财富空间】一个人真正的资本是什么

产业智能官

6+阅读 · 2018年3月16日

马库斯：DeepMind新出的机器心智网络不错，但有误导性

量子位

3+阅读 · 2018年2月26日

天天写代码，觉得自己特别苦逼？嗯，还有20年AI就来解放你

量子位

3+阅读 · 2017年12月11日

Python除了不会生孩子，什么都会

算法与数学之美

3+阅读 · 2017年11月8日

微软洪小文：AI 还是个小学生，资本请慎重！

EGONetworks

4+阅读 · 2017年9月6日

什么是常识？

keso怎么看

4+阅读 · 2017年8月2日

Towards a Formal Foundation of Intermittent Computing

Arxiv

0+阅读 · 2020年10月15日

Resolution as Intersection Subtyping via Modus Ponens

Arxiv

0+阅读 · 2020年10月15日

Kids Today: Remote Education in the time of COVID-19

Arxiv

0+阅读 · 2020年10月14日

EmoG- Towards Emojifying Gmail Conversations

Arxiv

0+阅读 · 2020年10月14日

Independent Co-Assurance using the Safety-Security Assurance Framework (SSAF): A Bayesian Belief Network Implementation for IEC 61508 and Common Criteria

Arxiv

0+阅读 · 2020年10月13日

InfoMiner at WNUT-2020 Task 2: Transformer-based Covid-19 Informative Tweet Extraction

Arxiv

0+阅读 · 2020年10月11日

Smoothing Game

Arxiv

0+阅读 · 2020年10月10日

Statistical inference of subcritical strongly stationary Galton--Watson processes with regularly varying immigration

Arxiv

0+阅读 · 2020年10月10日

Exponential time integrators for unsteady advection-diffusion problems on refined meshes

Arxiv

0+阅读 · 2020年10月9日

Constant-time connectivity tests

Arxiv

0+阅读 · 2020年10月9日

VIP会员