除了缺少点创意,GPT-3写出了及格的大学毕业论文,只需20分钟

2021 年 3 月 2 日 机器之心
机器之心报道
编辑:陈萍、杜伟
GPT-3 写的论文及格了吗?教育资源网站 EduRef 对此进行了一项测试,效果还行,及格水平。


2020 年 5 月,OpenAI 推出了具有 1750 亿参数的史上最大 AI 模型 GPT-3,该模型不仅可以更好地答题、翻译、写文章,还带有一些数学计算的能力。自推出以来,该模型就开始在不同的领域大显身手,如基于问题的搜索引擎、与历史人物对话、基于文本描述生成代码以及绘图和图像补全等等。

但 GPT-3 的应用之路远未结束…

近日,教育资源网站 EduRef 进行了一项测试,他们 找了一组教授创建了一个写作提示,然后让应届毕业生和本科生以及 GPT-3 同时根据该提示写作,最后教授组对匿名提交的作文打分,并对作者进行追踪调查 。那么,究竟结果如何呢?GPT-3 的分数能够超过人类作者吗?未必!

GPT-3 通过了大部分课程的写作测试

常言道:「评级为 C 就可以毕业(C’s get degrees)」。AI 远远达不到完美,GPT-3 的写作水平大概相当于自由写作者(freelance writer)。

结果显示,在 COVID-19 疫苗效力的研究方法论文写作上,人类作者可以得到 B 或者 D,而 GPT-3 往往只能得到 C。在美国历史类的测试中,人类作者可以在美国例外主义论文中得到 B 或者 C+,而 GPT-3 只能得到 B-。最后,在法学课上的政策函写作中,GPT-3 得到了 B-,而 3 个学生中只有 1 个能够得到高分。

下图为人类作者与 GPT-3 在不同学科写作中的得分情况:


由此可见,GPT-3 的写作技能主要体现在技术类文档中。在创意写作课程中的地点记叙文(place narrative)写作中,GPT-3 仅得到了 F,没有通过测试。作为对比,自由写作者得到了 A、B + 和 D+。尽管在创意写作教授的眼中,GPT-3 失败了,但自然语言生成(NLG)软件依然可以用于编写各类内容,包括一部几乎获奖的小说《The Day a Computer Writes a Novel》。先前的成功也预示着以后的失败,GPT-3 或许只需要一些调整即可以成为一名合格的创意作家。总的来说, AI 几乎通过了所有的课程写作测试

GPT-3 20 分钟完成论文

虽然每个教授打分都不一样,但该评分小组包括两名博士和一名医学硕士。他们总共有超过 55 年的高中和各种大学水平的教学经验。写作者包括应届毕业生和本科生,其中一些人在他们的研究领域写了提示。平均来说,他们需要 3 天时间完成任务。


对于绝大多数学生来说,3 天内完成大学论文似乎是很难的事情,主要原因在于时间太短,但是 GPT-3 在 20 分钟内就完成了这个任务 。GPT-3 利用深度学习产生类似人类的文本,每项任务花费 3 到 20 分钟完成,并且用最长的时间来编写创造性的写作叙述。为了避免人为干扰,GPT-3 只对输出长度和重复文本进行了轻微的编辑,其生成的内容、真实信息和语法都没有受到影响。

GPT-3 生成的美国历史类作文示例如下:


GPT-3 可生成类似人类写作的内容

即使没有人为干扰,GPT-3 的任务也或多或少地收到了与人类作者相同的反馈。49.2% 的评论涉及语法和句法,26.2% 的评论涉及重点和细节,语气与行文结构等也被提及,但分别只有 12.3% 和 10.8%。这与人类作家收到的评论比例几乎相同,近 50% 的评论与语法和句法有关,25.4% 的评论与焦点和细节有关。超过 13% 的评论是关于人类专业知识,而 10.4% 的评论是关于整体风格等。

人类作者与 GPT-3 的写作结果收到的评论反馈情况:


尽管收到了同样风格的评论, GPT-3 生成的内容与人类作者并不那么相似 。以排名靠前的两个单词组合为例,GPT-3 和人类作者只分享了排名靠前的组合:「of the」。「People who」、「it is」和「those who」常被 GPT-3 使用,而人类作者经常使用的是「to the」、「in the」和「on the」。总体来说,这些单词是在英语中经常使用的,组合上的差异显示出 AI 和人类在写作结构上的一些差异。

人类作者与 GPT-3 在写作用词上的差异分析:


考虑到 GPT-3 超高的论文得分,搭配统计数据的差异表明,人类作者比 AI 产生的独特内容明显更多。

尽管 GPT-3 具有出色的产出,但其生成的论文在短期内还无法独立获得大学学位。当与人类作者竞争时,GPT-3 获得了一些及格分数,但在创意写作方面有所欠缺。尽管它在众多领域的成功为 AI 的未来带来了希望,但对大学教授来说,AI 依然存在不足。

原文链接:https://www.eduref.net/features/what-grades-can-ai-get-in-college/

AWS白皮书《策略手册:数据、 分析与机器学习》


曾存储过 GB 级业务数据的组织现在发现,所存储的数据量现已达 PB 级甚至 EB 级。要充分利用这 些海量数据的价值,就需要利用现代化云数据基础设施,从而将不同的信息竖井融合统一。

无论您处于数据现代化改造过程中的哪个阶段,本行动手册都能帮助您完善策略,在整个企业范围内高效扩展数据、分析和机器学习,从而加快创新并推动业务发展。

点击阅读原文,免费领取白皮书



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

登录查看更多
0

相关内容

【经典书】自然语言标注—用于机器学习,341页pdf
专知会员服务
52+阅读 · 2021年2月12日
专知会员服务
39+阅读 · 2020年6月19日
还在修改博士论文?这份《博士论文写作技巧》为你指南
【ACL2020-Allen AI】预训练语言模型中的无监督域聚类
专知会员服务
23+阅读 · 2020年4月7日
任煜:如何找到使命?(下篇)
混沌研习社广州分社
6+阅读 · 2019年7月6日
3分钟看懂史上最强NLP模型BERT
机器学习算法与Python学习
7+阅读 · 2019年2月27日
一文概述 2018 年深度学习 NLP 十大创新思路
AI科技评论
4+阅读 · 2019年1月5日
ELMo的朋友圈:预训练语言模型真的一枝独秀吗?
不只有BERT!盘点2018年NLP令人激动的10大想法
量子位
3+阅读 · 2018年12月22日
如何阅读科研论文
伯乐在线
5+阅读 · 2017年8月19日
Arxiv
6+阅读 · 2019年9月4日
CoQA: A Conversational Question Answering Challenge
Arxiv
7+阅读 · 2018年8月21日
QuAC : Question Answering in Context
Arxiv
4+阅读 · 2018年8月21日
Arxiv
27+阅读 · 2017年12月6日
VIP会员
相关资讯
任煜:如何找到使命?(下篇)
混沌研习社广州分社
6+阅读 · 2019年7月6日
3分钟看懂史上最强NLP模型BERT
机器学习算法与Python学习
7+阅读 · 2019年2月27日
一文概述 2018 年深度学习 NLP 十大创新思路
AI科技评论
4+阅读 · 2019年1月5日
ELMo的朋友圈:预训练语言模型真的一枝独秀吗?
不只有BERT!盘点2018年NLP令人激动的10大想法
量子位
3+阅读 · 2018年12月22日
如何阅读科研论文
伯乐在线
5+阅读 · 2017年8月19日
Top
微信扫码咨询专知VIP会员