While open databases are an important resource in the Deep Learning (DL) era, they are sometimes used "off-label": data published for one task are used for training algorithms for a different one. This work aims to highlight that in some cases, this common practice may lead to biased, overly-optimistic results. We demonstrate this phenomenon for inverse problem solvers and show how their biased performance stems from hidden data preprocessing pipelines. We describe two preprocessing pipelines typical of open-access databases and study their effects on three well-established algorithms developed for Magnetic Resonance Imaging (MRI) reconstruction: Compressed Sensing (CS), Dictionary Learning (DictL), and DL. In this large-scale study we performed extensive computations. Our results demonstrate that the CS, DictL and DL algorithms yield systematically biased results when naively trained on seemingly-appropriate data: the Normalized Root Mean Square Error (NRMSE) improves consistently with the preprocessing extent, showing an artificial increase of 25%-48% in some cases. Since this phenomenon is generally unknown, biased results are sometimes published as state-of-the-art; we refer to that as subtle data crimes. This work hence raises a red flag regarding naive off-label usage of Big Data and reveals the vulnerability of modern inverse problem solvers to the resulting bias.


翻译:虽然开放数据库是深层学习(DL)时代的一个重要资源,但有时它们被“关闭标签”使用:为一项任务公布的数据被用于不同任务的培训算法。 这项工作旨在强调,在某些情况下,这种常见做法可能导致偏向,过于乐观的结果。 我们向反问题解答者展示了这种现象,并展示了它们有偏差的性能如何产生于隐蔽的数据处理前管道。 我们描述了两个以开放访问数据库为典型的预处理管道,并研究了它们对为磁共振成像(MRI)重建而开发的三种完善的算法的影响:压缩感测(CS)、词典学(DictL)和DL。 在本次大规模研究中,我们进行了广泛的计算。 我们的结果显示,当对貌似适当的数据进行天真的培训时,CS、DictL和DL算法会产生系统性的偏差结果。 我们描述的是,正常的原始平方错误(NRMSE)与预处理前的程度一致地改善了它们的效果, 在某些案例中显示人为增加了25-48 % 。 由于这个现象是未知的,因此,因此, 变相偏差的结果数据显示, 变的变的变的变的变的变的变的变的变的 数据结果,结果有时的变的变。

0
下载
关闭预览

相关内容

专知会员服务
29+阅读 · 2021年8月2日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
79+阅读 · 2020年7月26日
吴恩达新书《Machine Learning Yearning》完整中文版
专知会员服务
146+阅读 · 2019年10月27日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
计算机 | 中低难度国际会议信息6条
Call4Papers
7+阅读 · 2019年5月16日
计算机 | CCF推荐期刊专刊信息5条
Call4Papers
3+阅读 · 2019年4月10日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
【计算机类】期刊专刊/国际会议截稿信息6条
Call4Papers
3+阅读 · 2017年10月13日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Andrew NG的新书《Machine Learning Yearning》
我爱机器学习
11+阅读 · 2016年12月7日
An overview of deep learning in medical imaging
Arxiv
0+阅读 · 2022年2月17日
A Statistical Learning View of Simple Kriging
Arxiv
0+阅读 · 2022年2月15日
Arxiv
18+阅读 · 2021年3月16日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
计算机 | 中低难度国际会议信息6条
Call4Papers
7+阅读 · 2019年5月16日
计算机 | CCF推荐期刊专刊信息5条
Call4Papers
3+阅读 · 2019年4月10日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
【计算机类】期刊专刊/国际会议截稿信息6条
Call4Papers
3+阅读 · 2017年10月13日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Andrew NG的新书《Machine Learning Yearning》
我爱机器学习
11+阅读 · 2016年12月7日
Top
微信扫码咨询专知VIP会员