百位学者署名的大模型综述研究被质疑「抄袭」,智源研究院官方发布致歉信

2022 年 4 月 14 日 机器之心
机器之心报道

机器之心编辑部

智源研究院表示:「对这一情况,研究院立即组织内部调查,确认部分文章存在问题后,已启动邀请第三方专家开展独立审查,并进行相关追责。」


昨天,一则有关综述研究涉嫌「抄袭」的消息引发了海内外学术圈的热议:



宾夕法尼亚大学博士生、谷歌学生研究员 Daphne Ippolito 在推特上表示,智源研究院一篇拥有 100 位作者署名的综述研究《A Roadmap for Big Model》涉嫌抄袭了多篇论文内容,其中就包括自己团队的一项研究《Deduplicating Training Data Makes Language Models Better》,后者此前已被 ACL 2022 接收。


该事件迅速发酵,引起了社区广泛关注与讨论。


针对质疑,4 月 13 日,北京智源人工智能研究院发布了《关于 “A Roadmap for Big Model” 综述报告问题的致歉信》,并表示:「对这一情况,研究院立即组织内部调查,确认部分文章存在问题后,已启动邀请第三方专家开展独立审查,并进行相关追责。」



智源研究院内部调查的初步结果如下:


1. 该报告是一篇大模型领域的综述,希望尽可能涵盖国内外该领域的所有重要文献,由智源研究院牵头,负责框架设计和稿件汇总,并邀请国内外 100 位科研人员分别撰写了 16 篇独立的专题文章,每篇文章分别邀请了一组作者撰写并单独署名,共 200 页。报告发布后,根据反馈持续进行修改完善,到 4 月 2 日在 arXiv 网站上已经更新到第三版。


2. 4 月 13 日,我们获悉谷歌研究员 Nicholas Carlini 在个人博客上指出该报告抄袭了他们论文的数个段落,同时还有其他段落和语句抄袭其他论文。我们对此进行了逐项核查,经查重确认第 2 篇文章的第 3.1 节 179 个词,第 8 篇文章的第 3.1 节 74 个词、第 12 篇文章的第 2.3 节 55 个词、第 14 篇文章的第 2 节 159 个词、第 16 篇文章的第 1 节 146 个词与其他论文重复,应属抄袭。我们决定立即从报告中删除相应内容,报告修订版今天将提交 arXiv 进行更新。目前已通知所有文章的作者对所有内容进行全面审查,后续经严格审核后再发布新版本。


3. 智源作为该报告的组织者,理应对各篇文章的所有内容进行严格审核,出现这样的问题难辞其咎。对此我们深感自责,特别感谢学术界和媒体的朋友们帮助我们发现问题。我们将深刻吸取教训,整改科研管理和论文发表流程,希望各界朋友监督我们工作。

涉嫌抄袭的细节


涉嫌被抄袭论文的作者之一 Nicholas Carlini 表示:「我的一位合著者正在阅读 Big Models 论文,并注意到其中一些文本似乎很熟悉,在快速查看后,我们发现实际上有一堆文本是直接从我们的论文中复制而来的。」


目前,在「Big Model」这篇论文的 arXiv 页面,管理员已经标注了两篇文章具有较高的文本重合度。



在博客中,声称被抄袭的作者也做出了举证:「Big Models」抄袭了 Carlini 论文的参考和相关工作部分。如下所示,左侧是「Big Models」论文中的文本,右侧是原始论文中的相应文本。被「复制」的文本以绿色高亮显示:



事件引起多方讨论之后,Nicholas Carlini 本人在博客的更新中表示:



这篇文章受到的关注比我想象的要多得多。(每小时访问这个页面的人数比上周访问我整个网站的人数还要多。)…… 在不清楚幕后情况的时候,我想避免做出判断。也许一些初级作者的本意是好的,认为有一条引文就可以复制文本。也许是来自上面的压力,让一些学生觉得他们唯一的选择就是按时交稿。对于资深作者来说,他们可能已经阅读了文本,认为它看起来非常合理,只是在不知道文本来自何处的情况下对文本做了一些调整。
我希望这篇文章能够引起人们对此类事情的注意。例如,大约有 1% 的已发表和被接收的论文比这篇报告有更高的数据复制比例。我应该在最初写博客的时候就给出这个背景。所以,再一次,请大家不要特别严厉地批评这篇论文。


最后想说一句,相信这件事也足以为大家敲响警钟,社区要严格维护学术规范。正如 UC 伯克利教授马毅在微博上的观点:「严格维护学术规范的地方,反而会因此受到同行尊重的。国内学术风气比较浮躁,学术规范意识薄弱,希望其他单位能够以此为例,共同改善我们的学术环境。」



参考链接:https://nicholas.carlini.com/writing/2022/a-case-of-plagarism-in-machine-learning.html



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

登录查看更多
0

相关内容

多维度对特定行业主题进行系统性分析、概括与总结。
AAAI 2022接收论文列表发布,1349篇论文都在这了!
专知会员服务
144+阅读 · 2022年1月11日
NeurIPS 20201接收论文列表发布,2334篇论文都在这了!
专知会员服务
37+阅读 · 2021年11月4日
专知会员服务
41+阅读 · 2021年9月28日
ICLR 2021 评审出炉!来看看得分最高的50篇论文是什么!
专知会员服务
40+阅读 · 2020年11月13日
专知会员服务
113+阅读 · 2020年10月8日
百余大佬署名AI论文被爆抄袭!智源现已致歉
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年2月28日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年4月20日
SkiQL: A Unified Schema Query Language
Arxiv
0+阅读 · 2022年4月19日
Arxiv
0+阅读 · 2022年4月17日
Arxiv
13+阅读 · 2022年1月20日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年2月28日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员