Medical Report Generation (MRG) is a key part of modern medical diagnostics, as it automatically generates reports from radiological images to reduce radiologists' burden. However, reliable MRG models for lesion description face three main challenges: insufficient domain knowledge understanding, poor text-visual entity embedding alignment, and spurious correlations from cross-modal biases. Previous work only addresses single challenges, while this paper tackles all three via a novel hierarchical task decomposition approach, proposing the HTSC-CIF framework. HTSC-CIF classifies the three challenges into low-, mid-, and high-level tasks: 1) Low-level: align medical entity features with spatial locations to enhance domain knowledge for visual encoders; 2) Mid-level: use Prefix Language Modeling (text) and Masked Image Modeling (images) to boost cross-modal alignment via mutual guidance; 3) High-level: a cross-modal causal intervention module (via front-door intervention) to reduce confounders and improve interpretability. Extensive experiments confirm HTSC-CIF's effectiveness, significantly outperforming state-of-the-art (SOTA) MRG methods. Code will be made public upon paper acceptance.


翻译:医学报告生成(MRG)是现代医学诊断的关键组成部分,它通过从放射影像自动生成报告来减轻放射科医生的负担。然而,用于病变描述的可靠MRG模型面临三大挑战:领域知识理解不足、文本-视觉实体嵌入对齐不佳,以及跨模态偏差带来的伪相关性。先前的研究仅针对单一挑战,而本文通过一种新颖的分层任务分解方法,同时解决所有三个挑战,提出了HTSC-CIF框架。HTSC-CIF将这三个挑战划分为低、中、高三个层次的任务:1)低层次:将医学实体特征与空间位置对齐,以增强视觉编码器的领域知识;2)中层次:利用前缀语言建模(文本)和掩码图像建模(图像),通过相互指导提升跨模态对齐;3)高层次:一个跨模态因果干预模块(通过前门干预)来减少混杂因素并提高可解释性。大量实验证实了HTSC-CIF的有效性,其性能显著优于当前最先进的MRG方法。代码将在论文被接受后公开。

0
下载
关闭预览

相关内容

AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员