大数据文摘出品
作者:刘俊寰、曹培信
Siraj在AI圈有多火呢?
仅仅在Youtube上,他就有仅70万订阅者,包括DeepMind创始人Demis Hassabis也是他的“粉丝”,简直堪称是机器学习界的“papi酱”。
除了视频内容丰富,Siraj的爆红也和他的“草根逆袭”人设分不开。
Siraj称自己的机器学习多靠自学完成。2012年,他从哥伦比亚大学计算机系退学,开始自学AI技术,并且,利用自己学到的内容,全心运营youtube专栏的视频内容。他在推特上称给自己的任务安排为“每周两个视频”,视频密度之大,质量之高,让业内的人纷纷惊叹地称其为“AI魔术师(wizard)”,而他本身“自学成为大师“的经历,也给了很多圈外小白学习的动力。
但是最近,这位油管网红人设忽然崩塌,被曝出视频中有部分内容搬运自github和一些论文,今天凌晨,有人举报Siraj最新一期视频存在大量内容和代码抄袭。
跌落神坛,被曝视频和论文存在代码抄袭
Siraj被举报抄袭的论文名叫《The Neural Qubit: Biologically Inspired Quantum Deep Learning》,上周发布在arxiv上,并且同期在油管上发布了同内容视频。
一位名叫Andrew M. Webb的ML工程师今天在推特上深扒了一下Siraj的论文,发现其与Nathan Killoran,Seth Lloyd的论文存在大量的相似之处。(红色的是Siraj的论文,绿色是原始论文)
Siraj's的论文:
http://vixra.org/pdf/1909.0060v1.pdf
原始论文:
https://arxiv.org/pdf/1806.06871.pdf
大家可以自行比对一下:
除此之外,Andrew M. Webb指出,Siraj引用了Killoran等人的文章,但只在摘要中涉及。
Andrew M. Webb称,Siraj当然没有全文复制,不少地方利用了“同义词”来取代原文单词,比如,原文中“There is a key distinction in the CV model between the quantum gates which are Gaussian and those which are not”,就被替换成了“there's a key difference between Gaussian quantum doors and non-Gaussian ones”。在写作者对写作内容不了解的情况下,“doors”和“gates”会被视为同义词。
内容付费遭投诉,要求退钱被拉黑
之所以选择在推特上公开曝光这件事,Andrew M. Webb称是因为Siraj目前正在为1000多名学生授课,而他很担心这样“抄袭”的老师会影响到整个机器学习圈的文化。
上个月,Siraj开始正式推出了一门名叫《用机器学习赚钱(make money with machine learning)》的付费课程,每门课程收费199美元,大概相当于人民币1400元。
Siraj承诺这门课程最多招生500人,并且提供一对一的辅导。但课程开始后,很多人发现课程不仅人数超标,所有群组加起来超过1000人,并且Siraj对课程的投入时间非常有限,每周放出半小时的视频+一段时间答疑。
不满意的学生纷纷要求退款,而Siraj不仅不理会相关要求,还对提出相关要求的学员“拉黑”。
这引发了极大不满,不少学员在twitter和reddit上贴出了自己的经历,引发了巨大关注。Siraj也因此出面道歉,并表示所有退款要求会在30天内完成。
抄袭风波再起,Siraj正式道歉,网友却不买账
“退款”事件还没有真正过去,这次的“抄袭”风波又再一次在事件上火上浇油。事发后,Siraj也已经在自己的推特上承认了抄袭的存在,删除了相关视频,并且正式道歉。
我已经看到对于“Neural Qubit”论文部分抄袭的质疑,这是真的,我道歉。我在一周内完成了视频和论文,以适应我“2个视频/周”的教学计划。我的本意是希望能激励其他人去研究,接下来我会放慢速度,更仔细地考虑我的产出。
随后,在Reddit上就出现了一个“Siraj Raval's official apology regarding his plagiarized paper”的话题,引发了热烈讨论。
许多网友在该话题下留言讨论,其中一位叫“MaxTalanov”的网友就并不满意这份道歉,针对Siraj说的“因为追求进度而犯的错”,他表示:“剽窃绝对不是偶然(by accident)发生的事,这不是因为“走得太快”而犯的“小错误,这明确地表明了他在追求信誉和认可时缺乏道德标准。
Siraj曾表示他大多数的机器学习知识都是通过自学,这也激励了很多粉丝,但是现在有网友开始质疑他的专业实力了,还贴出了一段讽刺的代码(返回谷歌搜索结果),说他是个只会搜索的“机器人(Android)”,当谷歌不返回搜索结果时他就“跪了”。
这位叫“Lofar788”的网友表示:“我看了他的一些视频,他似乎不理解一些非常简单的概念。他讲逻辑回归的视频有10分钟长,其中一半都像是拙劣的笑话,在视频中,他从来没有教过任何东西。他在视频最后使用的代码是当你搜索“逻辑回归代码”时谷歌给出的第一个结果,他使用的图形的例子,和Andrew NG在他的斯坦福机器学习课程中使用的完全相同。看起来他只是把谷歌的搜索结果拼在一起做成了一个视频。”
reddit话题链接:
https://www.reddit.com/r/MachineLearning/comments/dhe767/d_siraj_ravals_official_apology_regarding_his/
Siraj事件之所以引发如此大的关注,在一定程度上也反映了”剽窃和篡改结果在学术界比大多数人想象的要普遍“,而这种行为一旦被曝出,对于研究者和整个机器学习文化的摧毁是毁灭性的。
实习/全职编辑记者招聘ing
加入我们,亲身体验一家专业科技媒体采写的每个细节,在最有前景的行业,和一群遍布全球最优秀的人一起成长。坐标北京·清华东门,在大数据文摘主页对话页回复“招聘”了解详情。简历请直接发送至zz@bigdatadigest.cn