智源「抄袭门」相关责任人请辞，大模型研究中心重组换血！

会员服务 ·

智源「抄袭门」相关责任人请辞，大模型研究中心重组换血！

2022 年 7 月 18 日 新智元

新智元报道

编辑：如願好困

【新智元导读】7月15日，智源研究院发布了关于4月中旬「A Roadmap for Big Model」综述报告问题调查和处理的通报。

近日，智源研究院就三个月前的抄袭事件给出回应。

据通报称，在综述报告10处被质疑片段中，有2处属于抄袭，另有4处属于引用不规范。

目前，相关责任人已主动离职，大模型研究中心也将进行部门重组。

智源研究院表示，大模型研究中心作为组织单位，对综述报告撰写中可能存在的风险隐患缺少充分考虑，未采取必要措施避免相关问题出现，对整个事件负有监督失察责任。

综述报告的第一作者（智源大模型研究中心人员）未严格按照学术出版规范的流程执行，在未与其他作者确认的情况下，于2022年3月26日将综述报告上传至arXiv，负有主要组织责任。

两处抄袭，四处引用不规范

这篇综述报告是由智源研究院大模型研究中心牵头组织、邀请国内外19个机构共100位科研人员分别撰写的16篇独立专题文章组成。

其中，每篇文章都有对应的撰写作者和通讯作者（除第12篇外），所有作者共同署名整个报告。

第一处抄袭为第2篇文章2.3.1节中共计179个单词的多句重复。作者虽然在最开始明确标注了引用文献，但未明确区别引用文字，且篇幅较大。

属于《学术出版规范期刊学术不端行为界定》中的「文字表述剽窃」，其程度为《IEEE出版物服务和产品委员会操作手册》相关规定中的第5级（第1级最严重，第5级最轻微）。

文章第二作者负直接责任，通讯作者，未对该文章进行有效审查，负失察责任。

第二处为第8篇文章的8.3.1节存在74个单词的整句重复，无明确引用，属于抄袭。

由于文章一作者未经其他作者同意，就将自己加为第一作者并对文章进行了大篇幅修改，且在文章发布前未与通讯作者确认，因此负直接责任，而通讯作者和其他作者均没有责任。

IEEE分级标准：https://www.ieee.org/content/dam/ieee-org/ieee/web/org/pubs/Level_description.pdf

除前述2处抄袭外，有4处属于引用不规范，并不构成抄袭：

第12篇文章：12.2.3节存在共计36个单词的重复，其中一部分包含19个重复单词，进行引用时，未在本句中未标注引用参考文献。
第14篇文章：14.2.2节存在一处一句29个单词的重复，文字上指明了引用对象，但本句没有直接添加引用。
第14篇文章：14.2.3节存在一处一句27个单词重复，在14.2.3节中有参考文献标注，但在本句中没有直接标注。
第16篇文章：16.1节一处存在多句重复，该段落起始处对参考文献有明确引用，后续其他句子存在本句未直接标注的情形。

最后剩余的4处被质疑部分，则属于规范引用。

目前，智源研究院已经安排可能存在问题文章的作者向原作者进行了书面致歉，并且均已得到原作者反馈和谅解，论文也已从arXiv撤稿。

以下是关于整改的具体内容：

「抄袭门」事件一览

4月8日，来自一名被抄袭的谷歌大脑的研究员Nicholas Carlini在其个人博客上贴出文章「机器学习研究中的剽窃事例」（A Case of Plagiarism in Machine Learning Research）。

其中条分缕析、清楚克制地指明了「大模型路线图」（A Roadmap for Big Model）的抄袭实迹。

左侧标绿部分为抄袭后的文本，右侧为原文对照文本。

这仅仅是其中的一部分内容。

Nicholas Carlini还表示：「由于筛选工具的急就性质、和对比数据集的不完备性（只包括已在学刊上发表的论文，不包括预印本网站论文），很可能还有更多的抄袭部分尚未被发现。无论如何，现有程度已经很令人伤感了。」

这一起AI界的学术不端的事件可也算是「引爆」了整个学术圈。

涉及到的100位作者，无一不是业内大佬。

4月13日晚，智源研究院作为这一综述文章的组织者，在知乎的官方账号上发表公开致歉信，称「从互联网上获悉」此事，承认涉事论文有抄袭的部分，并向学界与公众表示歉意。

4月15日，智源研究院理事会委托中国计算机学会作为第三方开展独立调查。

7月15日，智源研究院正式通报了最终的调查结果。

参考资料：

https://www.baai.ac.cn/portal/article/index/cid/5/id/504.html

赠书福利：AI好书，抽送10本！

领取步骤：

1.点击下方视频，并关注新智元「视频号」。

2.在视频下留言评论，文案「引爆元宇宙，奔向AI新天地」（可复制）。

3.评论点赞数前10、且已关注的用户，将获得《人机物融合群智计算》一本。

《人机物融合群智计算》简介

全球首本！人机物融合群智计算开山之作，系统化地阐明新一代「群智感知计算」内涵，并匠造出一把开启「人机物融合群智计算」新世界大门的钥匙。

本书既可以作为专著，为物联网、人工智能、工业互联网、智慧城市、智能制造等领域的科研人员和IT从业者提供创新的发展视角及相关理论、方法与技术支撑，也可以作为高年级本科生或研究生的参考教材。

登录查看更多

相关内容

综述

关注 9

《为情报而战：为大规模战斗准备师级情报行动》美国陆军60页报告

专知会员服务

125+阅读 · 2022年9月12日

美国外交政策研究所2022发布《俄罗斯对军事人工智能、自动化和自主的见解》

专知会员服务

94+阅读 · 2022年4月19日

200页pdf100+位作者19家单位！北京智源清华唐杰等发布《大模型路线图》

专知会员服务

93+阅读 · 2022年3月30日

360发布《网络战序幕：美国国安局NSA（APT-C-40）对全球发起长达十余年无差别攻击》报告

专知会员服务

49+阅读 · 2022年3月27日

2022最新《高速公路交通气象系统架构及技术规范》团体标准，中国智能交通协会

专知会员服务

14+阅读 · 2022年3月23日

央行发布《金融大数据术语》，25页pdf

专知会员服务

43+阅读 · 2022年1月25日

BERT、GPT-3等预训练模型大一统？斯坦福Percy Liang、李飞飞等114位作者发布212页综述，阐述大模型机遇与风险

专知会员服务

69+阅读 · 2021年8月19日

756页美国国家安全AI战略报告

专知会员服务

182+阅读 · 2021年3月25日

美国人工智能国家安全委员会发布最终报告, 130页pdf

专知会员服务

146+阅读 · 2021年3月2日

智源发布《2020北京人工智能发展报告》，附43页pdf

专知会员服务

127+阅读 · 2020年11月19日

李斌回应蔚来将推10万元级汽车；每日优鲜否认“资金断链”；知网反垄断第一案原告撤诉；iPhone 14涨价计划被叫停丨邦早报

创业邦杂志

0+阅读 · 2022年8月2日

智源承认论文抄袭，相关责任人已离职！

夕小瑶的卖萌屋

0+阅读 · 2022年7月18日

智源“抄袭门”最新通报：2处抄袭4处引用不规范，相关责任人均已主动离职

量子位

0+阅读 · 2022年7月17日

智源内部承担抄袭责任，重组大模型研究中心，被指抄袭的大模型综述有了调查结果

机器之心

0+阅读 · 2022年7月17日

韩国AI团队抄袭震动学界！1个导师带51个学生，还是抄袭惯犯

极市平台

0+阅读 · 2022年6月28日

百位学者署名的大模型综述研究被质疑「抄袭」，智源研究院官方发布致歉信

机器之心

0+阅读 · 2022年4月14日

百人联名AI大模型综述论文被指抄袭，智源研究院致歉：承认存在问题，立即删除修订，后续追责到人

量子位

0+阅读 · 2022年4月14日

百余大佬署名AI论文被爆抄袭！智源现已致歉

新智元

0+阅读 · 2022年4月14日

共同一作，会被认可吗？

夕小瑶的卖萌屋

0+阅读 · 2022年3月30日

8点1氪：豆瓣私密小组将停用；4月1日起驾驶证买分卖分将被重罚；深圳市住建局回应“二手房参考价将上调3%-5%”

36氪

0+阅读 · 2022年3月30日

WDR35和GALNT4基因在血管内皮细胞功能紊乱及动脉粥样硬化中的作用及机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

MicroRNA-150调控NK/T细胞淋巴瘤放疗敏感性机制研究

国家自然科学基金

0+阅读 · 2013年12月31日

海参自溶初期线粒体相关凋亡信号蛋白分子的激活机理研究

国家自然科学基金

0+阅读 · 2013年12月31日

原癌基因AEG-1网络调控炎症非可控性及诱导恶性转化的分子机制

国家自然科学基金

0+阅读 · 2012年12月31日

脂多糖诱导人皮肤成纤维细胞表型改变的信号机制

国家自然科学基金

0+阅读 · 2012年12月31日

BRWD3蛋白复合物参与基因转录调控的机理

国家自然科学基金

0+阅读 · 2012年12月31日

边缘性人格障碍临床多模态脑影像表征研究

国家自然科学基金

1+阅读 · 2012年12月31日

我国预防医学学科基础研究队伍和基础研究现状分析

国家自然科学基金

2+阅读 · 2011年12月31日

家庭高等教育投资行为实证研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于单核苷酸多态性的牛枝子耐旱差异机制研究

国家自然科学基金

0+阅读 · 2009年12月31日

Big Learning: A Universal Machine Learning Paradigm?

Arxiv

0+阅读 · 2022年9月14日

Prompt Combines Paraphrase: Teaching Pre-trained Models to Understand Rare Biomedical Words

Arxiv

0+阅读 · 2022年9月14日

Entity Tagging: Extracting Entities in Text Without Mention Supervision

Arxiv

0+阅读 · 2022年9月13日

PATRIOT: Anti-Repackaging for IoT Firmware

Arxiv

0+阅读 · 2022年9月13日

A Roadmap for Big Model

Arxiv

76+阅读 · 2022年3月26日

K-AID: Enhancing Pre-trained Language Models with Domain Knowledge for Question Answering

Arxiv

15+阅读 · 2021年9月22日

Efficient Transformers: A Survey

Arxiv

23+阅读 · 2020年9月16日

Train Large, Then Compress: Rethinking Model Size for Efficient Training and Inference of Transformers

Arxiv

12+阅读 · 2020年6月23日

已删除

Arxiv

33+阅读 · 2020年3月23日

Heterogeneous Graph Transformer

Arxiv

27+阅读 · 2020年3月3日

VIP会员