We study the effects of data size and quality on the performance on Automated Essay Scoring (AES) engines that are designed in accordance with three different paradigms; A frequency and hand-crafted feature-based model, a recurrent neural network model, and a pretrained transformer-based language model that is fine-tuned for classification. We expect that each type of model benefits from the size and the quality of the training data in very different ways. Standard practices for developing training data for AES engines were established with feature-based methods in mind, however, since neural networks are increasingly being considered in a production setting, this work seeks to inform us as to how to establish better training data for neural networks that will be used in production.


翻译:我们研究数据大小和质量对自动测读引擎性能的影响,这些引擎是根据三种不同模式设计的; 频率和手制地物模型,经常性神经网络模型,以及经过精细调整以进行分类的预先训练的变压器语言模型; 我们期望每一种模型都以非常不同的方式从培训数据的规模和质量中获益; 但是,由于神经网络在生产环境中日益受到考虑,因此,我们用基于地物的方法制定了开发AES发动机培训数据的标准做法,这项工作旨在告诉我们如何为将被用于生产中的神经网络建立更好的培训数据。

0
下载
关闭预览

相关内容

Automator是苹果公司为他们的Mac OS X系统开发的一款软件。 只要通过点击拖拽鼠标等操作就可以将一系列动作组合成一个工作流,从而帮助你自动的(可重复的)完成一些复杂的工作。Automator还能横跨很多不同种类的程序,包括:查找器、Safari网络浏览器、iCal、地址簿或者其他的一些程序。它还能和一些第三方的程序一起工作,如微软的Office、Adobe公司的Photoshop或者Pixelmator等。
【干货书】实体搜索,Entity-Oriented Search,358页pdf
专知会员服务
35+阅读 · 2021年4月9日
迁移学习简明教程,11页ppt
专知会员服务
108+阅读 · 2020年8月4日
Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
108+阅读 · 2020年5月3日
因果图,Causal Graphs,52页ppt
专知会员服务
248+阅读 · 2020年4月19日
开源书:PyTorch深度学习起步
专知会员服务
51+阅读 · 2019年10月11日
已删除
将门创投
4+阅读 · 2020年6月12日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
大数据 | 顶级SCI期刊专刊/国际会议信息7条
Call4Papers
10+阅读 · 2018年12月29日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Python机器学习教程资料/代码
机器学习研究会
8+阅读 · 2018年2月22日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【推荐】Python机器学习生态圈(Scikit-Learn相关项目)
机器学习研究会
6+阅读 · 2017年8月23日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
0+阅读 · 2021年10月18日
A Survey on Automated Fact-Checking
Arxiv
8+阅读 · 2021年8月26日
Arxiv
0+阅读 · 2021年6月21日
Arxiv
0+阅读 · 2021年6月11日
Arxiv
11+阅读 · 2021年3月25日
The Measure of Intelligence
Arxiv
7+阅读 · 2019年11月5日
VIP会员
相关VIP内容
【干货书】实体搜索,Entity-Oriented Search,358页pdf
专知会员服务
35+阅读 · 2021年4月9日
迁移学习简明教程,11页ppt
专知会员服务
108+阅读 · 2020年8月4日
Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
108+阅读 · 2020年5月3日
因果图,Causal Graphs,52页ppt
专知会员服务
248+阅读 · 2020年4月19日
开源书:PyTorch深度学习起步
专知会员服务
51+阅读 · 2019年10月11日
相关资讯
已删除
将门创投
4+阅读 · 2020年6月12日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
大数据 | 顶级SCI期刊专刊/国际会议信息7条
Call4Papers
10+阅读 · 2018年12月29日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Python机器学习教程资料/代码
机器学习研究会
8+阅读 · 2018年2月22日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【推荐】Python机器学习生态圈(Scikit-Learn相关项目)
机器学习研究会
6+阅读 · 2017年8月23日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
相关论文
Arxiv
0+阅读 · 2021年10月18日
A Survey on Automated Fact-Checking
Arxiv
8+阅读 · 2021年8月26日
Arxiv
0+阅读 · 2021年6月21日
Arxiv
0+阅读 · 2021年6月11日
Arxiv
11+阅读 · 2021年3月25日
The Measure of Intelligence
Arxiv
7+阅读 · 2019年11月5日
Top
微信扫码咨询专知VIP会员