Classification of high-dimensional spectroscopic data is a common task in analytical chemistry. Well-established procedures like support vector machines (SVMs) and partial least squares discriminant analysis (PLS-DA) are the most common methods for tackling this supervised learning problem. Nonetheless, interpretation of these models remains sometimes difficult, and solutions based on feature selection are often adopted as they lead to the automatic identification of the most informative wavelengths. Unfortunately, for some delicate applications like food authenticity, mislabeled and adulterated spectra occur both in the calibration and/or validation sets, with dramatic effects on the model development, its prediction accuracy and robustness. Motivated by these issues, the present paper proposes a robust model-based method that simultaneously performs variable selection, outliers and label noise detection. We demonstrate the effectiveness of our proposal in dealing with three agri-food spectroscopic studies, where several forms of perturbations are considered. Our approach succeeds in diminishing problem complexity, identifying anomalous spectra and attaining competitive predictive accuracy considering a very low number of selected wavelengths.


翻译:高维分光谱数据分类是分析化学的一项共同任务。支持矢量机(SVMs)和部分最小平方对立分析(PLS-DA)等既定程序是解决这一受监督的学习问题的最常见方法,然而,对这些模型的解释有时仍然很困难,而且往往采用基于特征选择的解决方案,因为它们导致自动识别最丰富的波长。不幸的是,对于食品真实性等一些微妙的应用,校准和(或)校准组都出现误标和掺杂的光谱,对模型的开发、预测准确性和稳健性产生巨大影响。受这些问题的驱动,本文件提出一种强有力的基于模型的方法,同时进行变量选择、外部值和标签噪声探测。我们展示了我们的建议在处理三种农业食品频谱研究方面的有效性,这些研究考虑了几种形式的扰动。我们的方法成功地减少了问题的复杂性,确定了异常光谱,并在考虑到选定的波长数量非常低的情况下实现了竞争性预测准确性。

0
下载
关闭预览

相关内容

专知会员服务
44+阅读 · 2020年12月18日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
79+阅读 · 2020年7月26日
商业数据分析,39页ppt
专知会员服务
162+阅读 · 2020年6月2日
【干货书】真实机器学习,264页pdf,Real-World Machine Learning
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
已删除
将门创投
8+阅读 · 2019年6月13日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
LibRec 精选:推荐系统的论文与源码
LibRec智能推荐
14+阅读 · 2018年11月29日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
Efficient and Effective $L_0$ Feature Selection
Arxiv
5+阅读 · 2018年8月7日
Arxiv
9+阅读 · 2018年3月28日
VIP会员
相关VIP内容
专知会员服务
44+阅读 · 2020年12月18日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
79+阅读 · 2020年7月26日
商业数据分析,39页ppt
专知会员服务
162+阅读 · 2020年6月2日
【干货书】真实机器学习,264页pdf,Real-World Machine Learning
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
相关资讯
已删除
将门创投
8+阅读 · 2019年6月13日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
LibRec 精选:推荐系统的论文与源码
LibRec智能推荐
14+阅读 · 2018年11月29日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
Top
微信扫码咨询专知VIP会员