基于结构约束的多模态学习理论和方法 - 专知基金

会员服务 ·

2

模式识别 · 多模态学习 ·

2014 年 12 月 31 日

基于结构约束的多模态学习理论和方法

国家自然科学基金

国家自然科学基金委员会

项目名称： 基于结构约束的多模态学习理论和方法

项目编号： No.61473289

项目类型： 面上项目

立项/批准年度： 2015

项目学科： 其他

项目作者： 赫然

作者单位： 中国科学院自动化研究所

项目金额： 83万元

中文摘要： 多模态数据的跨模态整合与分析是模式识别和计算机视觉的热点研究内容之一。由于不同模态数据的语义表达能力不同，使得数据的跨模态整合与分析极具挑战。本项目以互网络中的图像和文本两个模态为研究对象，以多模态数据中隐含的先验结构信息为切入点，研究基于结构约束的多模态学习理论和方法。在理论方面，结合信息理论学习和隐含正则化算子，研究多模态数据的结构约束的数学形式，以及多模态数据的相关性度量方式；特别地，研究基于隐含正则化算子的结构化稀疏和矩阵低秩约束，建立统一的半二次优化框架。在方法方面，研究高维多模态数据的低维隐含子空间的性质，分析不同子空间结构对学习结果的影响；把结构约束作为正则项，研究多模态数据的耦合学习问题，包括耦合特征选择、耦合哈希编码和耦合聚类分析，进而研究多模态数据的跨模态整合和分析技术。

中文关键词： 模式识别；多模态学习

英文摘要： The integration and analysis of multi-modal data has drawn much attention in the pattern recognition and computer vision communities. It is still a challenging and ongoing issue because the data from different modalities have different semantic representation ability. This project makes use of the text-image pairs in web pages as an example of multi-modal data, and focuses on the structure prior behind multi-modal data. We aim to propose new multi-modal learning theory and methods via structure prior. For the multi-modal theory, based on information theoretic learning and implicit regularizers, we study the mathematic formulation of structure prior, and the measurement of correlation between multi-modal data. In particular, we study structured sparsity and low-rank matrix constraints based on implicit regularizers, and develop a half-quadratic framework for both of them. For multi-modal methods, we study the properties of the low-dimensional subspace of original high-dimensional multi-modal data, and analyze the influence of different subspace structures for multi-modal learning. And taking structure constraints as regularization terms, we further study coupled feature selection, coupled hashing and coupled clustering for multi-modal data. Finally, we study the integration and analysis technique for multi-modal data.

英文关键词： Pattern Recognition;Multi-modal Learning

成为VIP会员查看完整内容

6

相关内容

模式识别

模式识别 Pattern Recognition

【ICML2021】贝叶斯结构自适应的持续学习

专知会员服务

35+阅读 · 2021年9月18日

【ICML2021】 RSD: 一种基于几何距离的可迁移回归表征学习方法

专知会员服务

18+阅读 · 2021年7月30日

北大「最优化：建模、算法与理论」新书, 附579页电子版与课件

北大「最优化：建模、算法与理论」新书, 附579页电子版与课件

专知会员服务

243+阅读 · 2021年4月12日

【CVPR2021】基于端到端预训练的视觉-语言表征学习

【CVPR2021】基于端到端预训练的视觉-语言表征学习

专知会员服务

38+阅读 · 2021年4月9日

图像描述生成研究进展

专知会员服务

71+阅读 · 2021年3月29日

基于深度学习的跨模态检索综述

专知会员服务

62+阅读 · 2021年3月25日

【WSDM2021】基于交叉融合的无监督属性网络嵌入

专知会员服务

26+阅读 · 2020年12月17日

复杂网络的双曲空间表征学习方法

专知会员服务

47+阅读 · 2020年11月13日

多模态学习方法综述

专知会员服务

234+阅读 · 2020年5月6日

多模态深度学习综述，18页pdf

多模态深度学习综述，18页pdf

专知会员服务

220+阅读 · 2020年3月29日

基于机器学习的自动化网络流量分析

基于机器学习的自动化网络流量分析

CCF计算机安全专委会

5+阅读 · 2022年4月8日

首个视觉-语言预训练综述来了！

首个视觉-语言预训练综述来了！

夕小瑶的卖萌屋

8+阅读 · 2022年3月29日

【TPAMI2022】关联关系驱动的多模态分类

【TPAMI2022】关联关系驱动的多模态分类

专知

3+阅读 · 2022年3月22日

AAAI2022 预训练中的多模态信息融合与表征探究

AAAI2022 预训练中的多模态信息融合与表征探究

RUC AI Box

3+阅读 · 2022年3月15日

中科院自动化所最新《视觉-语言预训练》综述

中科院自动化所最新《视觉-语言预训练》综述

专知

5+阅读 · 2022年2月23日

一个模型处理多种模态和任务，商汤等提出Uni-Perceiver，迈向通用预训练感知模型

一个模型处理多种模态和任务，商汤等提出Uni-Perceiver，迈向通用预训练感知模型

机器之心

0+阅读 · 2021年12月12日

赛尔原创@ACL findings | 基于跨模态预测的多模态情感分类

赛尔原创@ACL findings | 基于跨模态预测的多模态情感分类

哈工大SCIR

0+阅读 · 2021年10月15日

基于规则的建模方法的可解释性及其发展

基于规则的建模方法的可解释性及其发展

专知

5+阅读 · 2021年6月23日

牛津大学|“不变信息聚类” ：满足你对无监督深度聚类的一点幻想，Invariant Information Clustering

牛津大学|“不变信息聚类” ：满足你对无监督深度聚类的一点幻想，Invariant Information Clustering

极市平台

44+阅读 · 2019年5月31日

一文概览基于深度学习的超分辨率重建架构

一文概览基于深度学习的超分辨率重建架构

论智

23+阅读 · 2018年3月24日

基于结构光方法的全向视觉测量与控制研究

国家自然科学基金

1+阅读 · 2014年12月31日

命题与模态逻辑的扩展规则推理与混合推理方法研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于多信息局部相关模型的视频标注研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于深度信息和深度学习的车载视觉行人检测方法研究

国家自然科学基金

4+阅读 · 2013年12月31日

基于深度学习的隐写分析新方法研究

国家自然科学基金

4+阅读 · 2013年12月31日

基于组合地图模型的图像检索算法研究

国家自然科学基金

0+阅读 · 2013年12月31日

面向图像检索的互补哈希表构造方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于压缩感知的稀疏信号重建算法的理论研究

国家自然科学基金

3+阅读 · 2012年12月31日

基于统计流形的局部视觉特征层次化索引研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于成对约束的半监督谱流形非线性降维算法及应用研究

国家自然科学基金

0+阅读 · 2009年12月31日

Diverse Image Captioning with Grounded Style

Arxiv

0+阅读 · 2022年5月3日

Assessing Dataset Bias in Computer Vision

Arxiv

0+阅读 · 2022年5月3日

VICE: Variational Inference for Concept Embeddings

Arxiv

0+阅读 · 2022年5月2日

Gender neutrality in robots: An open living review framework

Arxiv

0+阅读 · 2022年4月30日

PyramidCLIP: Hierarchical Feature Alignment for Vision-language Model Pretraining

PyramidCLIP: Hierarchical Feature Alignment for Vision-language Model Pretraining

Arxiv

0+阅读 · 2022年4月29日

On global randomized block Kaczmarz algorithm for solving large-scale matrix equations

Arxiv

0+阅读 · 2022年4月29日

A Polynomial-time Decentralised Algorithm for Coordinated Management of Multiple Intersections

Arxiv

0+阅读 · 2022年4月29日

Attention Bottlenecks for Multimodal Fusion

Arxiv

31+阅读 · 2021年6月30日

Talking-Heads Attention

Talking-Heads Attention

Arxiv

15+阅读 · 2020年3月5日

Multimodal Intelligence: Representation Learning, Information Fusion, and Applications

Arxiv

78+阅读 · 2019年11月10日

阅读: 0 点赞: 0

小贴士

登录享主题订阅及个性化推荐

相关主题

多模态学习

热门VIP内容

开通专知VIP会员享更多权益服务

【ICCV2025教程】基础模型遇见具身智能体

军事机器学习设计：关于开发自动化任务摘要系统的梯次化设计科学研究 | 2025最新93页

扩散模型中的缓存方法综述：迈向高效的多模态生成

【ICCV2025教程】《迈向视觉语言模型的全面推理》

相关VIP内容

【ICML2021】贝叶斯结构自适应的持续学习

专知会员服务

35+阅读 · 2021年9月18日

【ICML2021】 RSD: 一种基于几何距离的可迁移回归表征学习方法

专知会员服务

18+阅读 · 2021年7月30日

北大「最优化：建模、算法与理论」新书, 附579页电子版与课件

北大「最优化：建模、算法与理论」新书, 附579页电子版与课件

专知会员服务

243+阅读 · 2021年4月12日

【CVPR2021】基于端到端预训练的视觉-语言表征学习

【CVPR2021】基于端到端预训练的视觉-语言表征学习

专知会员服务

38+阅读 · 2021年4月9日

图像描述生成研究进展

专知会员服务

71+阅读 · 2021年3月29日

基于深度学习的跨模态检索综述

专知会员服务

62+阅读 · 2021年3月25日

【WSDM2021】基于交叉融合的无监督属性网络嵌入

专知会员服务

26+阅读 · 2020年12月17日

复杂网络的双曲空间表征学习方法

专知会员服务

47+阅读 · 2020年11月13日

多模态学习方法综述

专知会员服务

234+阅读 · 2020年5月6日

多模态深度学习综述，18页pdf

多模态深度学习综述，18页pdf

专知会员服务

220+阅读 · 2020年3月29日

相关资讯

基于机器学习的自动化网络流量分析

基于机器学习的自动化网络流量分析

CCF计算机安全专委会

5+阅读 · 2022年4月8日

首个视觉-语言预训练综述来了！

首个视觉-语言预训练综述来了！

夕小瑶的卖萌屋

8+阅读 · 2022年3月29日

【TPAMI2022】关联关系驱动的多模态分类

【TPAMI2022】关联关系驱动的多模态分类

专知

3+阅读 · 2022年3月22日

AAAI2022 预训练中的多模态信息融合与表征探究

AAAI2022 预训练中的多模态信息融合与表征探究

RUC AI Box

3+阅读 · 2022年3月15日

中科院自动化所最新《视觉-语言预训练》综述

中科院自动化所最新《视觉-语言预训练》综述

专知

5+阅读 · 2022年2月23日

一个模型处理多种模态和任务，商汤等提出Uni-Perceiver，迈向通用预训练感知模型

一个模型处理多种模态和任务，商汤等提出Uni-Perceiver，迈向通用预训练感知模型

机器之心

0+阅读 · 2021年12月12日

赛尔原创@ACL findings | 基于跨模态预测的多模态情感分类

赛尔原创@ACL findings | 基于跨模态预测的多模态情感分类

哈工大SCIR

0+阅读 · 2021年10月15日

基于规则的建模方法的可解释性及其发展

基于规则的建模方法的可解释性及其发展

专知

5+阅读 · 2021年6月23日

牛津大学|“不变信息聚类” ：满足你对无监督深度聚类的一点幻想，Invariant Information Clustering

牛津大学|“不变信息聚类” ：满足你对无监督深度聚类的一点幻想，Invariant Information Clustering

极市平台

44+阅读 · 2019年5月31日

一文概览基于深度学习的超分辨率重建架构

一文概览基于深度学习的超分辨率重建架构

论智

23+阅读 · 2018年3月24日

相关基金

基于结构光方法的全向视觉测量与控制研究

国家自然科学基金

1+阅读 · 2014年12月31日

命题与模态逻辑的扩展规则推理与混合推理方法研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于多信息局部相关模型的视频标注研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于深度信息和深度学习的车载视觉行人检测方法研究

国家自然科学基金

4+阅读 · 2013年12月31日

基于深度学习的隐写分析新方法研究

国家自然科学基金

4+阅读 · 2013年12月31日

基于组合地图模型的图像检索算法研究

国家自然科学基金

0+阅读 · 2013年12月31日

面向图像检索的互补哈希表构造方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于压缩感知的稀疏信号重建算法的理论研究

国家自然科学基金

3+阅读 · 2012年12月31日

基于统计流形的局部视觉特征层次化索引研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于成对约束的半监督谱流形非线性降维算法及应用研究

国家自然科学基金

0+阅读 · 2009年12月31日

相关论文

Diverse Image Captioning with Grounded Style

Arxiv

0+阅读 · 2022年5月3日

Assessing Dataset Bias in Computer Vision

Arxiv

0+阅读 · 2022年5月3日

VICE: Variational Inference for Concept Embeddings

Arxiv

0+阅读 · 2022年5月2日

Gender neutrality in robots: An open living review framework

Arxiv

0+阅读 · 2022年4月30日

PyramidCLIP: Hierarchical Feature Alignment for Vision-language Model Pretraining

PyramidCLIP: Hierarchical Feature Alignment for Vision-language Model Pretraining

Arxiv

0+阅读 · 2022年4月29日

On global randomized block Kaczmarz algorithm for solving large-scale matrix equations

Arxiv

0+阅读 · 2022年4月29日

A Polynomial-time Decentralised Algorithm for Coordinated Management of Multiple Intersections

Arxiv

0+阅读 · 2022年4月29日

Attention Bottlenecks for Multimodal Fusion

Arxiv

31+阅读 · 2021年6月30日

Talking-Heads Attention

Talking-Heads Attention

Arxiv

15+阅读 · 2020年3月5日

Multimodal Intelligence: Representation Learning, Information Fusion, and Applications

Arxiv

78+阅读 · 2019年11月10日

微信扫码咨询专知VIP会员