机器学习中原型学习研究进展

2022 年 1 月 18 日 专知


随着信息技术在社会各领域的深入渗透,人类社会所拥有的数据总量达到了一个前所未有的高度.一方面,海量数据为基于数据驱动的机器学习方法获取有价值信息提供了充分空间;另一方面,高维度、过冗余以及高噪声也是上述繁多、复杂数据的固有特性.为消除数据冗余、发现数据结构、提高数据质量,原型学习是一种行之有效的方式.通过寻找一个原型集来表示目标集,以从样本空间进行数据约简,在增强数据可用性的同时,提升机器学习算法的执行效率.其可行性在众多应用领域中已得到证明.因此,原型学习相关理论与方法的研究是当前机器学习领域的一个研究热点与重点.该文主要介绍了原型学习的研究背景和应用价值,概括介绍了各类原型学习相关方法的基本特性、原型的质量评估以及典型应用.接着,从原型学习的监督方式及模型设计两个视角重点介绍了原型学习的研究进展,其中前者主要涉及无监督、半监督和全监督方式;后者包括基于相似度,行列式点过程,数据重构和低秩逼近四大类原型学习方法.最后,对原型学习的未来发展方向进行了展望.


http://www.jos.org.cn/jos/article/abstract/6365


在当今信息爆炸时代,信息的种类和数量空前激增.面对如此海量的数据,以机器学习尤其是深度学习为核 心的人工智能技术得到了长足的发展.然而,需要指出的是,数据在量上的膨胀未必能带来在质上的提高.如何 有效地选择“用的了”且“用的好”的数据,如何从数据中获取最有用的信息,成为摆在机器学习研究中的重要问 题.诚如《大趋势》的作者奈斯比特所说:“我们被数据淹没,但却渴求着知识”[1].一方面,海量数据为基于数据驱 动的机器学习方法获取有价值信息提供了充分空间;另一方面,高维度、过冗余以及高噪声也是上述繁多、复 杂数据的固有特性.这不但造成存储资源的巨大浪费,而且还会显著提升学习算法的复杂度.更严重的是,它们 还会将真正有价值的信息湮没从而恶化学习算法的性能.为消除数据冗余、发现数据结构、提高数据质量,从 特征空间与样本空间进行数据约简是两种行之有效的方式,在增强数据可用性的同时,提升机器学习算法的执 行效率.其中,前者涉及到的技术包括特征降维(dimensionality reduction)[2,3]和特征选择(feature selection)[4,5];而 后者则涉及样本空间的原型生成(prototype generation)[6]和原型选择(prototype selection)[7].本文将样本空间的 原型生成与选择,统称为原型学习(prototype learning). 


实质上,原型学习问题涉及到众多领域的应用场景,因而作为机器学习的研究重点之一,与原型学习相关的 理论与方法的研究得到了国际上众多学者的普遍关注.在国际有关机器学习的主流会议,如 Advances in Neural Information Processing Systems (NIPS)、International Conference on Machine Learning (ICML)、International Joint Conference on Artificial Intelligence (IJCAI)和 AAAI Conference on Artificial Intelligence (AAAI)等,以及 IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE TPAMI)、Journal of Machine Learning Research (JMLR)等重要国际杂志上每年都有大量的关于原型学习的最新工作发表.此外,来自美国东北大学的 Ehsan Elhamifar 教授、耶鲁大学的 Amin Karbasi 教授、IBM Research AI 的 Rameswar Panda 研究科学家等在 Computer Vision and Pattern Recognition (CVPR’16, CVPR’18, CVPR’19)国际会议上,专门组织了关于原型选择中的算法 与优化的专题讲座[8,9].通过以上大量文献梳理可以看出,原型学习的研究成果有助于挖掘出数据中最具价值的 信息,提高用于机器学习的数据质量,降低机器学习算法的计算复杂度、节约目标数据的存储成本、实现机器 学习模型的轻量化(模型压缩)等.同时,这也为大数据时代下的计算机视觉、图像与自然语言处理、生物医学、 信息推荐等领域提供理论基础与技术支撑,满足与原型学习有关的应用需求. 


鉴于原型学习问题在机器学习中的重要性,国内一些研究机构近些年也对此开展了相关研究,诸如南京理 工大学的杨静宇教授课题组[10]、西安电子科技大学的焦李成教授课题组[11]、清华大学的张长水教授课题组[12]、 南京大学的周志华教授课题组[13]、北京大学的张志华教授课题组[14]、中国科学院自动化研究所的刘成林研究 员课题组[15]等.这些课题组的工作主要围绕监督条件下的核学习、主动学习以及示例学习中的原型选择、矩阵 列选择问题、图像分类中的原型学习等进行研究.此外,国内的一些研究学者还基于粗糙集理论从数据的不确 定性角度开展数据约简研究[16],这类方法虽然能够有效去除数据冗余,进而发现数据结构,但是对获得的原型的 代表性缺乏直观物理解释,并且原型的质量还不足以满足众多应用的需求.更为重要的是,尽管目前国内外学者 已经发表大量关于原型学习的研究成果,但是关于原型学习的综述性文献却很稀少,对于原型的定义与解释也 不够清晰.因此本文梳理了原型学习领域的相关文献,对不同文献所采用的方案、面向的应用以及存在的问题 进行归纳总结.通过对前人工作的学习与理解,我们能够发现原型学习领域研究近几十年的理论与应用发展脉 络.同时,通过分析近几年原型学习领域的最新研究成果,我们可以把握当前主流的研究兴趣与方向,探究诸多应用背景对原型学习的具体需求,从而对未来原型学习研究的理论与应用发展方向进行一定的预测,进而更高 效地地服务实际应用. 


具体来说,本文首先赋予原型学习明确的数学定义与物理概念,并介绍原型学习的研究背景和应用价值. 接下来依据目前相关文献的内容,概括介绍了各类原型学习方法的基本特性、原型的质量评估标准以及原型学 习的典型应用.在此基础上,我们进一步挑选不同类型原型学习方法中具有代表性的文献,对其解决的问题以及 方法进行深入介绍.从原型学习的监督方式及模型设计两个视角重点介绍了原型学习的研究进展,其中前者主 要涉及无监督、半监督和全监督方式;后者包括基于相似度,行列式点过程,数据重构和低秩逼近四大类原型学 习方法.最后,重新梳理原型学习领域研究的发展脉络,综合文献研究成果及应用实例,根据目前研究中存在的 问题及原型学习研究领域发展趋势探讨未来可能的发展方向.



专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“MLPL” 就可以获取机器学习中原型学习研究进展》专知下载链接


专知,专业可信的人工智能知识分发 ,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取70000+AI主题干货知识资料!


欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取70000+AI主题知识资源
登录查看更多
0

相关内容

知识驱动的推荐系统:现状与展望
专知会员服务
69+阅读 · 2021年11月22日
协同过滤推荐系统综述
专知会员服务
47+阅读 · 2021年11月4日
专知会员服务
43+阅读 · 2021年9月7日
专知会员服务
32+阅读 · 2021年7月25日
专知会员服务
37+阅读 · 2021年3月21日
无参考图像质量评价研究进展
专知会员服务
31+阅读 · 2021年2月14日
专知会员服务
65+阅读 · 2021年1月25日
专知会员服务
81+阅读 · 2020年6月20日
元学习(meta learning) 最新进展综述论文
专知会员服务
279+阅读 · 2020年5月8日
基于深度学习的多标签生成研究进展
专知会员服务
143+阅读 · 2020年4月25日
知识驱动的推荐系统:现状与展望
专知
1+阅读 · 2021年11月22日
面向任务型的对话系统研究进展
专知
0+阅读 · 2021年11月17日
中文版协同过滤推荐系统综述
机器学习与推荐算法
0+阅读 · 2021年11月5日
人工神经网络在材料科学中的研究进展
专知
0+阅读 · 2021年5月7日
深度学习模型可解释性的研究进展
专知
25+阅读 · 2020年8月1日
综述 | CVPR2019目标检测方法进展
计算机视觉life
15+阅读 · 2019年4月3日
CVPR2019目标检测方法进展综述
极市平台
45+阅读 · 2019年3月20日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
6+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Challenges for Open-domain Targeted Sentiment Analysis
Arxiv
17+阅读 · 2022年1月11日
A Survey on Edge Intelligence
Arxiv
52+阅读 · 2020年3月26日
Arxiv
14+阅读 · 2019年9月11日
Arxiv
15+阅读 · 2019年6月25日
Self-Driving Cars: A Survey
Arxiv
41+阅读 · 2019年1月14日
VIP会员
相关VIP内容
知识驱动的推荐系统:现状与展望
专知会员服务
69+阅读 · 2021年11月22日
协同过滤推荐系统综述
专知会员服务
47+阅读 · 2021年11月4日
专知会员服务
43+阅读 · 2021年9月7日
专知会员服务
32+阅读 · 2021年7月25日
专知会员服务
37+阅读 · 2021年3月21日
无参考图像质量评价研究进展
专知会员服务
31+阅读 · 2021年2月14日
专知会员服务
65+阅读 · 2021年1月25日
专知会员服务
81+阅读 · 2020年6月20日
元学习(meta learning) 最新进展综述论文
专知会员服务
279+阅读 · 2020年5月8日
基于深度学习的多标签生成研究进展
专知会员服务
143+阅读 · 2020年4月25日
相关资讯
知识驱动的推荐系统:现状与展望
专知
1+阅读 · 2021年11月22日
面向任务型的对话系统研究进展
专知
0+阅读 · 2021年11月17日
中文版协同过滤推荐系统综述
机器学习与推荐算法
0+阅读 · 2021年11月5日
人工神经网络在材料科学中的研究进展
专知
0+阅读 · 2021年5月7日
深度学习模型可解释性的研究进展
专知
25+阅读 · 2020年8月1日
综述 | CVPR2019目标检测方法进展
计算机视觉life
15+阅读 · 2019年4月3日
CVPR2019目标检测方法进展综述
极市平台
45+阅读 · 2019年3月20日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
6+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
相关论文
Top
微信扫码咨询专知VIP会员