“翟天临”克星?哥本哈根大学开发反“枪手”AI,识别作业代写准确率接近90%

2019 年 6 月 5 日 大数据文摘

大数据文摘出品

编译:曹培信、周家乐


随着毕业季的邻近,翟天临又一次被网友们骂上了微博热搜。


翟的论文抄袭事件过后,许多高校都加强了论文评审标准,更有严格的院校连非毕业生的论文结课都要查重。


许多深夜改论文的学生于是结伴来到微博@翟天临:你睡了吗?你怎么睡得着?我还在改论文!你配睡觉吗!


图片来自微博


翟天临自己可能也没有想到,竟然阴差阳错对中国高校教育做出了卓越的贡献。


然而,也有学渣表示,以后查重这么严,抄袭是不可能了,只能找人代写了。


早有媒体曝光过学术圈“论文代写”的产业链。据第一财经报道,相关淘宝搜索的本科文科论文每千字200元左右。



不过,这条“学术歪路”也要被AI堵死了。近日,哥本哈根大学的研究人员的最新研究称,刚刚开发出一款“反枪手代写”的AI系统。


这款系统意图通过智能写作分析技术,来检测论文作弊。可以根据你的写作习惯,确定论文究竟是你自己写的作业还是由他人代写。


根据对13万份书面作业的分析,科学家们可以以近90%的准确率检测出学生究竟是自己写的作业,还是由代笔撰写。


基本上可以达到“代写”作业一抓一个准的结果了。


高中代写成风,哥本哈根大学的神操作


这套针对学生论文作弊行为的研究,已经在哥本哈根大学计算机科学系(DIKU)进行了几年了,最初,这款研究是针对丹麦的高中生进行的。


在丹麦,高中目前主要使用的作业查重平台叫做Lectio,可以用来检查学生的作业中是否有段落是直接复制先前提交的作业的。


然而,随着各类线上服务平台的盛行,在丹麦高中生中,找人代写作业变得越发容易。


面对这种情况,学校一直缺乏有效的检测手段。


学习轨迹项目或“SRP”(丹麦语的“Studie Retnings Projekt”)是丹麦高中毕业生的必修跨学科课程,也是一项非常重要的书面作业。在这个项目中的作弊现象尤其引人注目。


由于SRP对于毕业十分重要,很多学生们在丹麦竞拍网站Den Bla Avis上发布他们的写作任务来找人代写。


和中国的老师和大多数查重系统一样,Lectio只能查重,没法判断一份作业是否是找人代写的。


哥本哈根大学的一些院系一直和很多高中有着SRP项目的合作,深受代写作弊行为之害,一直在探究解决之道。


这所大学的计算机科学系DABAI项目组决定教教这些偷懒的高中生们“做人”。


DABAI(丹麦大数据分析驱动创新中心)是一个成立于2016年的丹麦国家研究中心。除了研究机器学习的高效算法,这个研究小组本来就对学生教育特别关注。之前,他们曾研究了“优化学生的个性化学习”、“提高教师洞察力”等教育项目。



名叫“枪手”的反枪手神器


这个防作弊程序被叫做Ghostwriter(枪手),它本质上属于一种基于机器学习和神经网络技术的一款文本分析程序。


项目组成员Stephan Lorenzen博士称,这款程序可以比较该学生最近提交和以前提交的文章来识别写作风格的差异。


“程序会关注单词长度、句子结构以及单词的使用方式等诸多特征。例如,它会察觉‘for example’被写成了‘ex’,还是‘e.g.,’。”


其数据集来自为丹麦高中提供Lectio平台的MaCom公司,该公司覆盖了丹麦90%以上的高中,他们为GhostWriter项目的研究人员提供了13万份不同高中学生书面作业。


这个研究组认为,这款产品非常具有实际效用,很多学校对于找出“论文究竟是谁写的”这个问题有着越来越高的技术需求。


但Stephan Lorenzen博士也认为,“在此之前,还需要认真讨论一下应用这项技术所面临的伦理问题。我们不能把这个程序得到的结论作为判别是否作弊的唯一标准,更应该把它看作一份辅助性的证据。”


Ghostwriter是怎么工作的?


Ghostwriter程序使用Siamese 神经网络来区分不同文本的写作风格:通过大量数据的训练,学习不同写作风格的外在表现(representation),然后进行比对。


这个项目分两步来解决作者身份验证问题。首先是解决了计算两个文本之间写作风格相似性的问题,主要通过使用Siamese网络学习相似度函数s:T×T→[0,1]。其次是再解决作者A的验证问题,通过比对未知作者文本X和已知是作者A的文本T之间的相似性。


在网络方面,他们考虑使用不同的输入通道考虑几种不同的体系结构(例如,char,word,POS-tags),最终确定了一种表现最佳的网络架构:


Best performing network


编码部分包括一个字符嵌入(Embd),然后是两个不用的卷积层,每个卷积层后面都有一个全局最大池化层(GMP)。


在比较部分,他们首先计算合并层中的编码之间的绝对差值,然后,应用4个密集层,每层有500个神经元,最后使用具有两个输出的softmax层来进行归一化。


他们将数据集分为三份,T-train用于训练,T-val用于训练提前停止和selecting Cs,T-test仅用于估测试模型。



经过训练,模型的准确率达到了87.5%。


最后实现的功能就是,当学生提交作业时,该网络会将其与以前的作业进行比较。对于每个作业,神经网络都会计算出一个百分数,用于表示新旧作业的相似性。然后,通过综合考虑新旧作业相似性、交作业时间等多种因素计算出一个加权平均值。这个最终值就可以用来表示新作业和学生写作风格之间的相似性。


这一研究已经被发表在一篇名为《识别高中代写“枪手”》的论文中。


论文链接:

https://www.science.ku.dk/presse/nyhedsarkiv/2019/fristet-til-at-snyde-med-eksamensopgaven-kunstig-intelligens-opdager-dig-med-90-procent-sikkerhed/Detecting_Ghostwriters_in_High_Schools.pdf


除了论文,还能与警方合作筛查伪造文本


除了代写作业,Ghostwriter的技术也可以应用于社会的其他地方。


例如,该程序可辅助警方的文档审查员执行各类文件的真伪分析任务,比如一份商业合同是否是伪造的;或者一个离奇的自杀案中,死者留下了一封遗书,这封遗书是不是死者本人写的等等。


“与警方合作将是一件有趣的事情。警方现有的方法是聘用文件审查员来定性的比较文本之间的相似性和差异。而我们的方法则适用于大数据并自动找到其中潜藏的模式。我认为结合两者将有利于警察开展工作。”Lorenzen说,他强调这里也同样需要讨论其面临的伦理问题。


这项利用人工智能来检测作业中作弊行为的技术,具有广泛的应用前景。


目前,它还被用来分析Twitter文本,以确定文本内容是由真实用户撰写的,还是由水军或机器人编写的。也就是说,淘宝店铺雇佣水军好评,很有可能也能被识别出来。


相关报道:

https://www.sciencedaily.com/releases/2019/05/190529145048.htm



实习/全职编辑记者招聘ing

加入我们,亲身体验一家专业科技媒体采写的每个细节,在最有前景的行业,和一群遍布全球最优秀的人一起成长。坐标北京·清华东门,在大数据文摘主页对话页回复“招聘”了解详情。简历请直接发送至zz@bigdatadigest.cn


志愿者介绍

后台回复志愿者”加入我

点「在看」的人都变好看了
登录查看更多
0

相关内容

哥本哈根大学(丹麦语:Københavns Universitet),位于丹麦王国的首都哥本哈根,是丹麦历史最悠久的大学,也是规模第二大的大学之一。在读学生总数约4万人,超过半数为女性。此外,还有逾一万教职员工。哥本哈根大学的校园散落在市区里和城市周边,最古老的部分则位于哥本哈根古城区。哥本哈根大学是斯堪的纳维亚地区第二古老的大学,它和位于日德兰半岛的奥胡斯大学同为丹麦享有国际声誉的教育与科研机构。哥本哈根大学孕育了世界著名童话大师安徒生,存在主义哲学先驱克尔凯郭尔;她培养了第一个发现超新星的人和第一个测定光速的天文学家;这里有电磁理论的先驱,也有量子理论的创始人;她科学地阐述了人脑的结构和肌肉的肌理,寻找到了地球和生命最久远的证据。
专知会员服务
146+阅读 · 2020年6月15日
专知会员服务
36+阅读 · 2019年12月13日
翟天临博士所发论文涉嫌抄袭(附各路证据)
美国顶尖 AI+教育公司,都在研究些什么?
硅谷第一线
4+阅读 · 2019年1月18日
AI情绪识别技术背后:一场悄然来袭的“暴政”
大数据文摘
7+阅读 · 2018年10月11日
中央再批人工智能伪创新,90%以上AI都不靠谱
THU数据派
7+阅读 · 2017年12月6日
Arxiv
26+阅读 · 2020年2月21日
Mobile big data analysis with machine learning
Arxiv
6+阅读 · 2018年8月2日
Arxiv
5+阅读 · 2018年5月16日
Arxiv
5+阅读 · 2018年4月17日
Arxiv
7+阅读 · 2018年3月19日
VIP会员
相关VIP内容
专知会员服务
146+阅读 · 2020年6月15日
专知会员服务
36+阅读 · 2019年12月13日
Top
微信扫码咨询专知VIP会员