Electronic nose proves its effectiveness in alternativeherbal medicine classification, but due to the supervised learn-ing nature, previous research relies on the labelled training data,which are time-costly and labor-intensive to collect. Consideringthe training data inadequacy in real-world applications, this studyaims to improve classification accuracy via data augmentationstrategies. We stimulated two scenarios to investigate the effective-ness of five data augmentation strategies under different trainingdata inadequacy: in the noise-free scenario, different availability ofunlabelled data were simulated, and in the noisy scenario, differentlevels of Gaussian noises and translational shifts were added tosimulate sensor drifts. The augmentation strategies: noise-addingdata augmentation, semi-supervised learning, classifier-based online learning, inductive conformal prediction (ICP) onlinelearning and the novel ensemble ICP online learning proposed in this study, were compared against supervised learningbaseline, with Linear Discriminant Analysis (LDA) and Support Vector Machine (SVM) as the classifiers. We found thatat least one strategies significantly improved the classification accuracy with LDA(p<=0.05) and showed non-decreasingclassification accuracy with SVM in each tasks. Moreover, our novel strategy: ensemble ICP online learning outperformedthe others by showing non-decreasing classification accuracy on all tasks and significant improvement on most tasks(25/36 tasks,p<=0.05). This study provides a systematic analysis over augmentation strategies, and we provided userswith recommended strategies under specific circumstances. Furthermore, our newly proposed strategy showed botheffectiveness and robustness in boosting the classification model generalizability, which can also be further employed inother machine learning applications.


翻译:电子鼻子证明了其在替代草药分类中的有效性,但是由于监督的学习性质,先前的研究依赖于有标签的培训数据,这些数据需要花费时间和劳动密集型才能收集。考虑到实际应用中的培训数据不足,本研究旨在通过数据增强战略提高分类准确性。我们刺激了两种情景,以调查不同培训数据不足下五项数据增强战略的有效性:在无噪音假设中,模拟了不同程度的未贴标签数据,在吵闹的假设中,不同级别的高萨噪音和翻译转换都添加了模拟传感器漂移。增强战略:增加噪音数据增强、半超级学习、基于分类的在线学习、感化符合预测(IPC)在线学习和本研究中提议的新型综合国际比较方案在线学习,与受监督的学习基线进行了比较,以线性差异模型分析(LDA)和支持Vctor Machy (SVM) 进一步展示了分类中的升级,我们发现至少一项战略大大改进了在SDA(P)A(O) 0.05中采用的非升级战略的分类准确性, 并且显示SDA(SLA(ILA) 0.05)中的大多数学习任务中采用的非高级任务。

0
下载
关闭预览

相关内容

专知会员服务
42+阅读 · 2020年12月18日
专知会员服务
50+阅读 · 2020年12月14日
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
LibRec 精选:基于参数共享的CNN-RNN混合模型
LibRec智能推荐
6+阅读 · 2019年3月7日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
动手写机器学习算法:SVM支持向量机(附代码)
七月在线实验室
12+阅读 · 2017年12月5日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
On Feature Normalization and Data Augmentation
Arxiv
15+阅读 · 2020年2月25日
VIP会员
相关资讯
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
LibRec 精选:基于参数共享的CNN-RNN混合模型
LibRec智能推荐
6+阅读 · 2019年3月7日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
动手写机器学习算法:SVM支持向量机(附代码)
七月在线实验室
12+阅读 · 2017年12月5日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
Top
微信扫码咨询专知VIP会员