Sleep stage classification based on electroencephalography (EEG) is fundamental for assessing sleep quality and diagnosing sleep-related disorders. However, most traditional machine learning methods rely heavily on prior knowledge and handcrafted features, while existing deep learning models still struggle to jointly capture fine-grained time-frequency patterns and achieve clinical interpretability. Recently, vision-language models (VLMs) have made significant progress in the medical domain, yet their performance remains constrained when applied to physiological waveform data, especially EEG signals, due to their limited visual understanding and insufficient reasoning capability. To address these challenges, we propose EEG-VLM, a hierarchical vision-language framework that integrates multi-level feature alignment with visually enhanced language-guided reasoning for interpretable EEG-based sleep stage classification. Specifically, a specialized visual enhancement module constructs high-level visual tokens from intermediate-layer features to extract rich semantic representations of EEG images. These tokens are further aligned with low-level CLIP features through a multi-level alignment mechanism, enhancing the VLM's image-processing capability. In addition, a Chain-of-Thought (CoT) reasoning strategy decomposes complex medical inference into interpretable logical steps, effectively simulating expert-like decision-making. Experimental results demonstrate that the proposed method significantly improves both the accuracy and interpretability of VLMs in EEG-based sleep stage classification, showing promising potential for automated and explainable EEG analysis in clinical settings.


翻译:基于脑电图(EEG)的睡眠阶段分类是评估睡眠质量和诊断睡眠相关疾病的基础。然而,大多数传统机器学习方法严重依赖先验知识和手工特征,而现有的深度学习模型仍难以同时捕获细粒度时频模式并实现临床可解释性。近年来,视觉语言模型(VLMs)在医学领域取得了显著进展,但由于其视觉理解能力有限和推理能力不足,在应用于生理波形数据(尤其是EEG信号)时性能仍受限制。为应对这些挑战,我们提出了EEG-VLM,一种层次化视觉语言框架,该框架将多级特征对齐与视觉增强的语言引导推理相结合,用于实现可解释的基于EEG的睡眠阶段分类。具体而言,一个专门的视觉增强模块从中间层特征构建高级视觉标记,以提取EEG图像的丰富语义表示。这些标记通过多级对齐机制与低层CLIP特征进一步对齐,从而增强VLM的图像处理能力。此外,思维链(CoT)推理策略将复杂的医学推理分解为可解释的逻辑步骤,有效模拟类似专家的决策过程。实验结果表明,所提方法显著提升了VLMs在基于EEG的睡眠阶段分类中的准确性和可解释性,展现了在临床环境中实现自动化且可解释的EEG分析的广阔潜力。

0
下载
关闭预览

相关内容

专知会员服务
38+阅读 · 2021年10月14日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员