Data used in deep learning is notoriously problematic. For example, data are usually combined from diverse sources, rarely cleaned and vetted thoroughly, and sometimes corrupted on purpose. Intentional corruption that targets the weak spots of algorithms has been studied extensively under the label of "adversarial attacks." In contrast, the arguably much more common case of corruption that reflects the limited quality of data has been studied much less. Such "random" corruptions are due to measurement errors, unreliable sources, convenience sampling, and so forth. These kinds of corruption are common in deep learning, because data are rarely collected according to strict protocols -- in strong contrast to the formalized data collection in some parts of classical statistics. This paper concerns such corruption. We introduce an approach motivated by very recent insights into median-of-means and Le Cam's principle, we show that the approach can be readily implemented, and we demonstrate that it performs very well in practice. In conclusion, we believe that our approach is a very promising alternative to standard parameter training based on least-squares and cross-entropy loss.


翻译:深层学习中所使用的数据是臭名昭著的问题。例如,数据通常来自不同的来源,很少经过清理和彻底审查,有时是故意腐败。在“对抗性攻击”的标签下,对针对算法薄弱环节的蓄意腐败进行了广泛研究。相反,对反映数据质量有限的腐败案件的研究则少得多。这种“随机”腐败是测量错误、来源不可靠、方便抽样等原因造成的。这类腐败在深层学习中很常见,因为很少根据严格的协议收集数据 -- -- 这与某些古典统计数据的正式数据收集形成强烈对照。本文涉及此类腐败问题。我们采用了一种基于对手段中位和勒卡姆原则的最新洞见的驱动方法,我们表明这一方法可以很容易地实施,并且我们证明它在实践中表现得非常好。最后,我们认为,我们的方法对于基于最差和跨孔损失的标准参数培训是一种非常有希望的替代办法。

0
下载
关闭预览

相关内容

商业数据分析,39页ppt
专知会员服务
159+阅读 · 2020年6月2日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
【课程推荐】 深度学习中的几何(Geometry of Deep Learning)
专知会员服务
57+阅读 · 2019年11月10日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
【推荐】决策树/随机森林深入解析
机器学习研究会
5+阅读 · 2017年9月21日
【推荐】图像分类必读开创性论文汇总
机器学习研究会
14+阅读 · 2017年8月15日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
7+阅读 · 2021年4月30日
On Feature Normalization and Data Augmentation
Arxiv
15+阅读 · 2020年2月25日
Learning to Weight for Text Classification
Arxiv
8+阅读 · 2019年3月28日
Arxiv
5+阅读 · 2018年5月31日
Arxiv
8+阅读 · 2018年5月15日
Arxiv
5+阅读 · 2018年1月14日
Arxiv
3+阅读 · 2016年2月24日
VIP会员
相关资讯
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
【推荐】决策树/随机森林深入解析
机器学习研究会
5+阅读 · 2017年9月21日
【推荐】图像分类必读开创性论文汇总
机器学习研究会
14+阅读 · 2017年8月15日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
相关论文
Arxiv
7+阅读 · 2021年4月30日
On Feature Normalization and Data Augmentation
Arxiv
15+阅读 · 2020年2月25日
Learning to Weight for Text Classification
Arxiv
8+阅读 · 2019年3月28日
Arxiv
5+阅读 · 2018年5月31日
Arxiv
8+阅读 · 2018年5月15日
Arxiv
5+阅读 · 2018年1月14日
Arxiv
3+阅读 · 2016年2月24日
Top
微信扫码咨询专知VIP会员