Automatic radiology report generation has attracted enormous research interest due to its practical value in reducing the workload of radiologists. However, simultaneously establishing global correspondences between the image (e.g., Chest X-ray) and its related report and local alignments between image patches and keywords remains challenging. To this end, we propose an Unify, Align and then Refine (UAR) approach to learn multi-level cross-modal alignments and introduce three novel modules: Latent Space Unifier (LSU), Cross-modal Representation Aligner (CRA) and Text-to-Image Refiner (TIR). Specifically, LSU unifies multimodal data into discrete tokens, making it flexible to learn common knowledge among modalities with a shared network. The modality-agnostic CRA learns discriminative features via a set of orthonormal basis and a dual-gate mechanism first and then globally aligns visual and textual representations under a triplet contrastive loss. TIR boosts token-level local alignment via calibrating text-to-image attention with a learnable mask. Additionally, we design a two-stage training procedure to make UAR gradually grasp cross-modal alignments at different levels, which imitates radiologists' workflow: writing sentence by sentence first and then checking word by word. Extensive experiments and analyses on IU-Xray and MIMIC-CXR benchmark datasets demonstrate the superiority of our UAR against varied state-of-the-art methods.


翻译:自动化的影像学报告生成已经成为研究热点,因为它在减轻放射科医生工作负担方面具有实际价值。然而,同时建立图像(如胸部X射线)及其相关报告的全局对应关系和图像补丁与关键词之间的本地对齐仍然具有挑战性。为此,我们提出了一种联合、对齐和细化(UAR)方法,来学习跨模态的多级别对齐,并引入了三个新模块:潜空间整合器(LSU)、跨模态表征对齐器(CRA)和文本到图像精化器(TIR)。具体来说,LSU将多模态数据统一成离散的标记,通过共享网络线性学习模态之间的共同知识。不依赖于模态的CRA首先通过一组正交基和双门机制学习判别特征,然后在三元对比损失函数的影响下对全局进行视觉和文本表示对齐。TIR通过可学习蒙版校准文本到图像的注意力来加强标记级别的本地对齐。此外,我们设计了一个两阶段的训练过程,使UAR逐渐掌握不同级别的跨模态对齐,模仿放射科医生的工作流程:先一句一句地写,然后逐字核对。IU-Xray和MIMIC-CXR基准数据集上的大量实验和分析表明,我们的UAR相对于各种最先进的方法具有优势。

0
下载
关闭预览

相关内容

【CVPR2023】面向自监督视觉表示学习的混合自编码器
专知会员服务
24+阅读 · 2023年4月3日
【CVPR2023】基于动态图增强对比学习的胸部X光报告生成
专知会员服务
20+阅读 · 2023年3月23日
【AAAI2023】对比掩码自动编码器的自监督视频哈希
专知会员服务
14+阅读 · 2022年11月25日
【AAAI2022】基于渐进式增强学习的人脸伪造图像检测
专知会员服务
21+阅读 · 2022年1月19日
【AAAI2022】对偶对比学习在人脸伪造检测中的应用
专知会员服务
22+阅读 · 2022年1月9日
【ECCV2020】EfficientFCN:语义分割中的整体引导解码器
专知会员服务
15+阅读 · 2020年8月23日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
深度学习医学图像分析文献集
机器学习研究会
18+阅读 · 2017年10月13日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年5月19日
Arxiv
16+阅读 · 2021年1月27日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员