爆肝100天,B站UP主开发会写高考作文的AI,内含17亿参数、2亿数据、1万行代码

2020 年 11 月 3 日 AI科技评论
本文来源 | 学术头条
作者 | 赵雅琦

前段时间,浙江高考满分作文《生活在树上》因为晦涩难懂的内容,刷爆了各种社交媒体。外行人看热闹,内行人看门道,大神们透过现象看本质。

一般来说,高考作文可以通过批量化、模式化的训练达到一个令人满意的分数。实际上就是把学生当做一个写作机器进行训练,为学生输入大量范文,提供写作模式,然后进行长时间的学习。等等,这不是和人工智能的训练过程相同吗?

那么,如果给一个人工智能系统同样的数据,是否可以教会它写作文呢?

答案是,当然可以。

B 站 UP 主 - 图灵的猫,秉承了心动不如行动的理念,一个人利用三个月,500 个小时,10000 行代码,200000000 条数据,1700000000 个参数,开发了一个会写作文的人工智能 - EssayKiller


1

EssayKiller 的基本组成

整体框架:


一个 AI 不管外形和功能如何,其核心都是人工神经网络。

EssayKiller 也是由四个不同的神经网络所组成。

第一部分是类似于人类的视觉处理系统的识别网络。它通过外接摄像头的实时 OCR 以及卷积神经网络及汉字的识别与提取并将结果输入到下一层的网络中。

第二部分是语言网络,旨在模范人类大脑的语言功能。在这里 UP 主将它分为两个子网络,相较于人类的颞叶区和额叶区等复杂构成,它更加简明扼要。一个子网络为读题网络,也就是对高考题目进行准确的阅读和主题摘要提取。

另一个子网络为写作网络,也就是根据主题摘要进行文章的写作。后者是整个 AI 的核心,基于这个神经网络,EssayKiller 才能获得理解并输出汉字的能力。

第三部分是判分网络。正常学生写完一篇八百字的高考作文通常需要 40 分钟,而 EssayKiller 只需要 0.1 分钟。

显然,在同样的时间里,EssayKiller 可以利用其快速写作的能力,在它的大脑中同时生成多篇作文,然后选出最好的一篇来作答。

UP 主说,这个想法借鉴了 AlphaGo 的设计理念。他利用 API 调用单独的神经网络,对 100 篇作文进行通顺度打分,取分数最高的一篇作文输出。理论上,只要了解于出题人的偏好,并且让 AI 完美拟合阅卷人喜欢的作文,就可以轻而易举的拿到高分。

这和训练学生写高考作文的过程是如出一辙,这也是近年来很多满分作文的套路,比如《生活在树上》。


2

EssayKiller的学习过程

通过 UP 主说起来看似很简单,其实非大神一操作就跪拜的四大网络搭建过程后,EssayKiller 就算是出生了。此时的它还是一张白纸,需要投喂大量数据养成。俗话说,读万卷书 AI 才能写出好作文。

接下来就是 EssayKiller 不是很漫长的学习过程了。UP 给它投喂了大量的优质散文、议论文,比如近现代散文集、历年高考作文等,然后让它自我训练并进行写作能力的提升。出于 UP 主的个人喜好,还为它增加了林语堂、木心、鲁迅等散文作家,也加入了一些现代作家,比如王小波、史铁生、王硕等。

也加入了一些现代作家,比如王小波、史铁生、王硕等。       

最后通过整理来的 360 万张图像数据、2 亿条中文预训练语料以及上千篇微调文章,EssayKiller 带着 UP 主满满的爱开始了它的“漫漫”求学之路。

事实证明,没有人能够随随便便成功。此时,出现了一个 “愉快” 的小插曲。OOM,全称 “Out of Memory”,翻译成中文就是“内存用完了。”
EssayKiller 的神经网络参数量已经达到了惊人的 17 亿,一般的显卡已经不能承受这么大的网络规模和计算量。在 UP 主多次尝试,均属失败告终后,他终于发现,EssayKiller 已经超越了目前市面上可见的任何一个单 GPU 的运算内存限制。最终,UP 主斥巨资选择 RTX8000,成功的让 EssayKiller 开始训练。果然,培养孩子都是得花钱的。

经过 137 个小时的不间断学习后,EssayKiller 终于成为一个合格的高中生。接下来就是激动人心的测试时间。UP 主选择了两个全国卷和两个地区高考卷。

EssayKiller 用它骄傲和自豪的 17 亿神经网络参数的多模块异构深度神经网络,通过 UP 主编写的高考格式排版脚本,搭配改装后的外接装置,对文本进行实时输出,在规定时间内将作文誊写到答题卡上。

最终贡献了四篇很不错的高考作文。(写作过程如开头眼花缭乱的动图。)

这里选择浙江卷的作文成果,


为大家展示一下 EssayKiller 的写作实力。

没错,是高考作文那熟悉的味道。别的先不说,感觉可能会扣一点卷面分。网友们普遍认为,差不多是 45 分的水平。首先语言是通顺的且能读懂的,但是缺少一些烟火气的灵魂。大概还是可以感觉到一丝不是人的气息。

但是小编认为,其实我们已经先入为主了这篇文章是 AI 写的,如果让大家盲选,结果如何还是很难判断的。

此外,也有热心网友提供了新的思路:写机关公文文件,难度会更小,且效果会更好。

更有网友提到了用这个软件写成功学已经月入百万了,听懂掌声


还有热心网友提供了:AI 做视频,“我淘汰我自己”的绝妙思路。

既然如此,那就拭目以待各位大神的新产品了。当然,暂时并不希望出现一款写公众号的 AI,不然某人就要失业了。


3

UP主介绍

AI科技评论联系到了UP主 “图灵的猫” ,这里给大家做个简单介绍。

图灵的猫,机器学习方向博士肄业,专注于ai科普与思维领域的知识创作,曾经是中文互联网百大技术博主,现在是一个兴趣使然的B站up主,知乎微博公众号同名。

另外,UP主在B站制作的这条视频也获得了今年的CCF科普一等奖

B站视频链接:https://www.bilibili.com/video/BV1pr4y1w7uM

Github传送门:https://github.com/EssayKillerBrain/EssayKiller_V2

最最后,感谢 UP主-图灵的猫三个月爆肝的EssayKiller,并期待新的视频与大家分享。

推荐阅读

 

点击阅读原文,直达NeurIPS小组~

登录查看更多
1

相关内容

人工神经网络(Artificial Neural Network,即ANN ),是20世纪80 年代以来人工智能领域兴起的研究热点。它从信息处理角度对人脑神经元网络进行抽象, 建立某种简单模型,按不同的连接方式组成不同的网络。在工程与学术界也常直接简称为神经网络或类神经网络。神经网络是一种运算模型,由大量的节点(或称神经元)之间相互联接构成。每个节点代表一种特定的输出函数,称为激励函数(activation function)。每两个节点间的连接都代表一个对于通过该连接信号的加权值,称之为权重,这相当于人工神经网络的记忆。网络的输出则依网络的连接方式,权重值和激励函数的不同而不同。而网络自身通常都是对自然界某种算法或者函数的逼近,也可能是对一种逻辑策略的表达。 最近十多年来,人工神经网络的研究工作不断深入,已经取得了很大的进展,其在模式识别、智能机器人、自动控制、预测估计、生物、医学、经济等领域已成功地解决了许多现代计算机难以解决的实际问题,表现出了良好的智能特性。
专知会员服务
55+阅读 · 2020年12月20日
机器直觉
专知会员服务
26+阅读 · 2020年11月22日
一份简明有趣的Python学习教程,42页pdf
专知会员服务
76+阅读 · 2020年6月22日
【2020新书】如何认真写好的代码和软件,318页pdf
专知会员服务
63+阅读 · 2020年3月26日
【哈工大】基于抽取的高考作文生成
专知会员服务
36+阅读 · 2020年3月10日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
听完了1000+首古风歌曲,我发现自己也能火
PingWest品玩
4+阅读 · 2019年6月2日
让AI做了200万道数学题,结果堪忧
图灵教育
3+阅读 · 2019年4月18日
教师解放新前沿:让机器给作文打分
雷锋网
5+阅读 · 2018年10月28日
【一文理清】如何确定自己适不适合学AI?
人工智能头条
4+阅读 · 2018年6月7日
猝不及防!刚刚,马云重大宣布,沸腾了全中国!
今日互联网头条
3+阅读 · 2017年11月23日
独家 | 一文读懂TensorFlow(附代码、学习资料)
数据派THU
3+阅读 · 2017年10月12日
手把手教你由TensorFlow上手PyTorch(附代码)
数据派THU
5+阅读 · 2017年10月1日
Arxiv
0+阅读 · 2021年1月27日
Equalization Loss for Long-Tailed Object Recognition
Arxiv
5+阅读 · 2020年4月14日
ViZDoom Competitions: Playing Doom from Pixels
Arxiv
5+阅读 · 2018年9月10日
VIP会员
相关VIP内容
专知会员服务
55+阅读 · 2020年12月20日
机器直觉
专知会员服务
26+阅读 · 2020年11月22日
一份简明有趣的Python学习教程,42页pdf
专知会员服务
76+阅读 · 2020年6月22日
【2020新书】如何认真写好的代码和软件,318页pdf
专知会员服务
63+阅读 · 2020年3月26日
【哈工大】基于抽取的高考作文生成
专知会员服务
36+阅读 · 2020年3月10日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
相关资讯
Top
微信扫码咨询专知VIP会员