项目名称: 基于无限混合模型的大数据降维及其在信息检索中的应用

项目编号: No.61472304

项目类型: 面上项目

立项/批准年度: 2015

项目学科: 其他

项目作者: 王秀美

作者单位: 西安电子科技大学

项目金额: 80万元

中文摘要: 数据降维是解决维数灾难的有效途径,相关技术的发展对当前机器学习和计算机视觉等领域有着重要意义。然而,降维算法在处理当前大数据时,面临样本分布非高斯、非均匀以及样本之间相互依赖关联复杂等问题。为了能对大数据进行有效处理,本项目拟以无限混合模型、概率论、图论、优化等数学理论为基础,充分利用贝叶斯推理、隐变量结构、变分推理等方法,提出可以处理复杂数据的非参数降维算法:首先利用无限混合模型模拟大数据的多模态、异构分布特性,提出基于非参数贝叶斯推理的降维模型;其次,为了能对多源数据进行联合处理,实现数据的高效检索,设计了基于隐变量结构的生成式模型方法,找寻多源数据的内在结构相似性,进一步,针对找到的低维数据,进行哈希变换,生成二值编码,实现多源数据的快速检索;最后,提出了基于变分近似推理的模型推断方法,实现对非参数目标函数的优化。该研究成果将为面向大数据的挖掘和识别领域提供新思路和新方法。

中文关键词: 数据降维;无限混合模型;隐变量结构;哈希函数;变分推理

英文摘要: Dimensionality reduction is an effective way to solve the curse of dimensionality. The development of the DR plays an important role in machine learning and computer vision. However, the traditional dimensionality reduction algorithms cannot satisfy the requirements of the big data. The distribution of the samples is non-Gaussian or non-uniform, and relationships between samples are much complex. In order to deal this kind of dataset more effectively, the project attempt to establish the DR model based on some basic theory, such as, the infinite mixture models, probability theory, graph theory and mathematical optimization theory. At the same time, Through making full use of Bayesian inference, the latent variable structure and variational inference, the project will build the non-parametric data dimensionality reduction model for above samples. Firstly, the DR model will be proposed based on infinite mixture model to deal with multi-modal and heterogeneous dataset. Secondly, an important requirement for processing multiple content modalities is the development of sophisticated joint models for evaluating the similarity and divergence between different modalities, and particularly important is the development of generative graphical models that can find the low-structure with respect to content in multiple modalities, then design the hashing function which can project the low-structure to the binary codes for fast retrieval. Finally, the variational approximation inference model based approach will be proposed to optimize the hyper-parameters of objective function. The research results will provide new ideas and new methods for dealing with complex dataset in data mining and recognition.

英文关键词: dimensionality reduciton;infinite mixture model;latent variable structure;hashing function;variational inference

成为VIP会员查看完整内容
0

相关内容

【博士论文】机器学习中的标记增强理论 与应用研究
专知会员服务
29+阅读 · 2021年12月3日
大数据时代的地学知识图谱研究展望
专知会员服务
33+阅读 · 2021年11月25日
专知会员服务
52+阅读 · 2021年8月29日
【SIGMOD2021】数据库与人工智能交叉技术综述
专知会员服务
67+阅读 · 2021年7月14日
专知会员服务
14+阅读 · 2021年6月26日
专知会员服务
28+阅读 · 2021年2月17日
基于机器学习的数据库技术综述
专知会员服务
54+阅读 · 2021年1月2日
【CIKM2020】神经贝叶斯信息处理,220页ppt,国立交通大学
专知会员服务
34+阅读 · 2020年10月26日
面向大数据领域的事理认知图谱构建与推断分析
专知会员服务
103+阅读 · 2020年8月11日
空间数据智能:概念、技术与挑战
专知
8+阅读 · 2022年2月4日
杨宇鸿:腾讯多模态内容理解技术及应用
专知
3+阅读 · 2022年1月27日
大数据时代的地学知识图谱研究展望
专知
0+阅读 · 2021年11月25日
基于深度学习的流行度预测研究综述
专知
0+阅读 · 2021年3月24日
从模型到应用,一文读懂因子分解机
AI100
10+阅读 · 2019年9月6日
基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】
人工智能前沿讲习班
26+阅读 · 2018年12月13日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
贝叶斯机器学习前沿进展
架构文摘
13+阅读 · 2018年2月11日
手把手教你用LDA特征选择
AI研习社
12+阅读 · 2017年8月21日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
Arxiv
1+阅读 · 2022年4月15日
Arxiv
14+阅读 · 2021年8月5日
Arxiv
10+阅读 · 2021年2月18日
Arxiv
19+阅读 · 2020年7月21日
A Survey on Bayesian Deep Learning
Arxiv
63+阅读 · 2020年7月2日
Arxiv
15+阅读 · 2019年6月25日
小贴士
相关VIP内容
【博士论文】机器学习中的标记增强理论 与应用研究
专知会员服务
29+阅读 · 2021年12月3日
大数据时代的地学知识图谱研究展望
专知会员服务
33+阅读 · 2021年11月25日
专知会员服务
52+阅读 · 2021年8月29日
【SIGMOD2021】数据库与人工智能交叉技术综述
专知会员服务
67+阅读 · 2021年7月14日
专知会员服务
14+阅读 · 2021年6月26日
专知会员服务
28+阅读 · 2021年2月17日
基于机器学习的数据库技术综述
专知会员服务
54+阅读 · 2021年1月2日
【CIKM2020】神经贝叶斯信息处理,220页ppt,国立交通大学
专知会员服务
34+阅读 · 2020年10月26日
面向大数据领域的事理认知图谱构建与推断分析
专知会员服务
103+阅读 · 2020年8月11日
相关资讯
空间数据智能:概念、技术与挑战
专知
8+阅读 · 2022年2月4日
杨宇鸿:腾讯多模态内容理解技术及应用
专知
3+阅读 · 2022年1月27日
大数据时代的地学知识图谱研究展望
专知
0+阅读 · 2021年11月25日
基于深度学习的流行度预测研究综述
专知
0+阅读 · 2021年3月24日
从模型到应用,一文读懂因子分解机
AI100
10+阅读 · 2019年9月6日
基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】
人工智能前沿讲习班
26+阅读 · 2018年12月13日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
贝叶斯机器学习前沿进展
架构文摘
13+阅读 · 2018年2月11日
手把手教你用LDA特征选择
AI研习社
12+阅读 · 2017年8月21日
相关基金
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
微信扫码咨询专知VIP会员