A common assumption exists according to which machine learning models improve their performance when they have more data to learn from. In this study, the authors wished to clarify the dilemma by performing an empirical experiment utilizing novel vocational student data. The experiment compared different machine learning algorithms while varying the number of data and feature combinations available for training and testing the models. The experiment revealed that the increase of data records or their sample frequency does not immediately lead to significant increases in the model accuracies or performance, however the variance of accuracies does diminish in the case of ensemble models. Similar phenomenon was witnessed while increasing the number of input features for the models. The study refutes the starting assumption and continues to state that in this case the significance in data lies in the quality of the data instead of the quantity of the data.


翻译:在这项研究中,作者希望通过利用新的职业学生数据进行实验性实验来澄清这一困境。实验比较了不同的机器学习算法,同时改变了可用于培训和测试模型的数据和特征组合的数量。实验表明,数据记录的增加或其抽样频率并不立即导致模型的准确性或性能的显著提高,但是,在混合模型中,适应性的差异确实减少。类似的现象在增加模型输入特征的同时也出现了。研究驳斥了最初的假设,并继续指出,在这种情况下,数据的重要性在于数据的质量,而不是数据的数量。

0
下载
关闭预览

相关内容

机器学习(Machine Learning)是一个研究计算学习方法的国际论坛。该杂志发表文章,报告广泛的学习方法应用于各种学习问题的实质性结果。该杂志的特色论文描述研究的问题和方法,应用研究和研究方法的问题。有关学习问题或方法的论文通过实证研究、理论分析或与心理现象的比较提供了坚实的支持。应用论文展示了如何应用学习方法来解决重要的应用问题。研究方法论文改进了机器学习的研究方法。所有的论文都以其他研究人员可以验证或复制的方式描述了支持证据。论文还详细说明了学习的组成部分,并讨论了关于知识表示和性能任务的假设。 官网地址:http://dblp.uni-trier.de/db/journals/ml/
【干货书】真实机器学习,264页pdf,Real-World Machine Learning
专知会员服务
116+阅读 · 2019年12月24日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
152+阅读 · 2019年10月12日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Machine Learning:十大机器学习算法
开源中国
21+阅读 · 2018年3月1日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
Andrew NG的新书《Machine Learning Yearning》
我爱机器学习
11+阅读 · 2016年12月7日
Arxiv
45+阅读 · 2019年12月20日
Arxiv
22+阅读 · 2019年11月24日
Few-shot Learning: A Survey
Arxiv
362+阅读 · 2019年4月10日
Arxiv
26+阅读 · 2018年8月19日
Deep Learning
Arxiv
6+阅读 · 2018年8月3日
Arxiv
5+阅读 · 2018年1月14日
Arxiv
3+阅读 · 2016年2月24日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Machine Learning:十大机器学习算法
开源中国
21+阅读 · 2018年3月1日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
Andrew NG的新书《Machine Learning Yearning》
我爱机器学习
11+阅读 · 2016年12月7日
相关论文
Arxiv
45+阅读 · 2019年12月20日
Arxiv
22+阅读 · 2019年11月24日
Few-shot Learning: A Survey
Arxiv
362+阅读 · 2019年4月10日
Arxiv
26+阅读 · 2018年8月19日
Deep Learning
Arxiv
6+阅读 · 2018年8月3日
Arxiv
5+阅读 · 2018年1月14日
Arxiv
3+阅读 · 2016年2月24日
Top
微信扫码咨询专知VIP会员