项目名称: 多态异构机器学习及其在大数据挖掘中的应用

项目编号: No.61473123

项目类型: 面上项目

立项/批准年度: 2015

项目学科: 其他

项目作者: 杨沛

作者单位: 华南理工大学

项目金额: 78万元

中文摘要: 随着大数据挖掘的兴起,许多重要的机器学习应用系统面临着多重异构性和稀缺性并存的挑战,例如:搜索引擎欺诈点击检测、内部恶意行为检测、在线社交媒体分析、半导体芯片生产缺陷检测、大脑图像分析等。异构性包括任务、视图、实例、标签、神谕异构等;稀缺性包括稀缺类、异常点、不平衡性等。而目前的研究大都是针对单一的稀缺性或异构性问题。为此,我们提出了一系列新颖的多重异构性和稀缺性并存的研究问题,并且提出了新颖的模型算法,例如:基于二部图的多视图多任务多示例学习模型、基于三部图的多视图多任务多示例学习模型、基于边界度的多视图多任务学习框架等。以此为突破口,我们希望通过本研究,建立一个统一的多态异构机器学习算法框架,以适用于各种不同的异构性和稀缺性并存的问题。同时,从Rademacher复杂度、泛化误差边界、PAC可学习性等角度,对多态异构机器学习算法进行深入的理论分析,以夯实多态异构机器学习领域的理论基础。

中文关键词: 异构机器学习;稀缺类分析;多任务学习;多视图学习;多示例学习

英文摘要: In the era of big data, the co-existing of multiple types of heterogeneity and rarity is one of the major challenges faced by many highly important real-world machine learning applications, such as click fraud detection, malicious insider detection, online social media analysis, defect detection in semiconductor manufacturing, brain image analysis, etc. Multiple types of heterogeneity include task-, view-, instance-, label-, and oracle-heterogeneity, and rarity could be in terms of rare category, outlier, imbalance, etc. However, most of existing work focus on single type of heterogeneity or rarity. Therefore, we introduce a number of novel problems in which multiple types of heterogeneity and rarity co-exist. Then, various novel models are proposed to effectively leverage both heterogeneity and rarity, such as bipartite-graph-based multi-view multi-task learning framework, triple-graph-based multi-view multi-task learning framework, multi-view multi-task learning model based on border-degree, etc. Furthermore, starting from these typical problems, we plan to build a principled and unified framework to learn from multiple types of heterogeneity and rarity simultaneously. At the same time, theoretic analysis with respect to the Rademacher complexity, generalization error bound, PAC learnability, and etc. are investigated so as to reinforce the theoretical basis for the field of heterogeneous machine learning.

英文关键词: Heterogeneous machine learning;Rare category analysis;Multi-task learning;Multi-view learning;Multi-instance learning

成为VIP会员查看完整内容
1

相关内容

专知会员服务
75+阅读 · 2021年9月27日
专知会员服务
65+阅读 · 2021年7月18日
大规模时间序列分析框架的研究与实现,计算机学报
专知会员服务
58+阅读 · 2020年7月13日
专知会员服务
80+阅读 · 2020年6月20日
【硬核书】可扩展机器学习:并行分布式方法
专知会员服务
85+阅读 · 2020年5月23日
八篇NeurIPS 2019【图神经网络(GNN)】相关论文
专知会员服务
43+阅读 · 2020年1月10日
基于机器学习的自动化网络流量分析
CCF计算机安全专委会
4+阅读 · 2022年4月8日
论文浅尝 | GraphIE:基于图的信息抽取框架
开放知识图谱
17+阅读 · 2019年6月2日
可解释的机器学习
平均机器
25+阅读 · 2019年2月25日
【机器学习】深入剖析机器学习中的统计思想
产业智能官
14+阅读 · 2019年1月24日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
关系推理:基于表示学习和语义要素
计算机研究与发展
18+阅读 · 2017年8月22日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
4+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Hardness Results for Weaver's Discrepancy Problem
Arxiv
0+阅读 · 2022年5月3日
Arxiv
14+阅读 · 2018年4月18日
Arxiv
26+阅读 · 2018年2月27日
小贴士
相关VIP内容
相关资讯
基于机器学习的自动化网络流量分析
CCF计算机安全专委会
4+阅读 · 2022年4月8日
论文浅尝 | GraphIE:基于图的信息抽取框架
开放知识图谱
17+阅读 · 2019年6月2日
可解释的机器学习
平均机器
25+阅读 · 2019年2月25日
【机器学习】深入剖析机器学习中的统计思想
产业智能官
14+阅读 · 2019年1月24日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
关系推理:基于表示学习和语义要素
计算机研究与发展
18+阅读 · 2017年8月22日
相关基金
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
4+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员