Recent advances in brain-inspired artificial intelligence have sought to align neural signals with visual semantics using multimodal models such as CLIP. However, existing methods often treat CLIP as a static feature extractor, overlooking its adaptability to neural representations and the inherent physiological-symbolic gap in EEG-image alignment. To address these challenges, we present NeuroCLIP, a prompt tuning framework tailored for EEG-to-image contrastive learning. Our approach introduces three core innovations: (1) We design a dual-stream visual embedding pipeline that combines dynamic filtering and token-level fusion to generate instance-level adaptive prompts, which guide the adjustment of patch embedding tokens based on image content, thereby enabling fine-grained modulation of visual representations under neural constraints; (2) We are the first to introduce visual prompt tokens into EEG-image alignment, acting as global, modality-level prompts that work in conjunction with instance-level adjustments. These visual prompt tokens are inserted into the Transformer architecture to facilitate neural-aware adaptation and parameter optimization at a global level; (3) Inspired by neuroscientific principles of human visual encoding, we propose a refined contrastive loss that better model the semantic ambiguity and cross-modal noise present in EEG signals. On the THINGS-EEG2 dataset, NeuroCLIP achieves a Top-1 accuracy of 63.2% in zero-shot image retrieval, surpassing the previous best method by +12.3%, and demonstrates strong generalization under inter-subject conditions (+4.6% Top-1), highlighting the potential of physiology-aware prompt tuning for bridging brain signals and visual semantics.


翻译:近年来,脑启发式人工智能的进展致力于利用如CLIP等多模态模型将神经信号与视觉语义对齐。然而,现有方法通常将CLIP视为静态特征提取器,忽视了其对神经表征的适应性以及脑电-图像对齐中固有的生理-符号鸿沟。为应对这些挑战,我们提出了NeuroCLIP,一个专为脑电-图像对比学习设计的提示调优框架。我们的方法引入了三项核心创新:(1)我们设计了一个双流视觉嵌入管道,结合动态滤波和令牌级融合来生成实例级自适应提示,这些提示基于图像内容指导补丁嵌入令牌的调整,从而在神经约束下实现视觉表示的细粒度调制;(2)我们首次将视觉提示令牌引入脑电-图像对齐,作为全局的模态级提示,与实例级调整协同工作。这些视觉提示令牌被插入Transformer架构中,以促进全局层面的神经感知适应和参数优化;(3)受人类视觉编码的神经科学原理启发,我们提出了一种改进的对比损失,能更好地建模脑电信号中存在的语义模糊性和跨模态噪声。在THINGS-EEG2数据集上,NeuroCLIP在零样本图像检索中实现了63.2%的Top-1准确率,较先前最佳方法提升了+12.3%,并在跨被试条件下展现出强大的泛化能力(Top-1提升+4.6%),凸显了生理感知提示调优在连接脑信号与视觉语义方面的潜力。

0
下载
关闭预览

相关内容

MM-REACT:提示ChatGPT进行多模态推理和行动
专知会员服务
34+阅读 · 2023年3月26日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员