随着基础模型(包括大规模视觉语言模型)的最新进展,许多研究者探讨了将多模态数据作为视觉问答输入的结合方法。在医疗领域,视觉问答的一个关键应用是自动化医学报告生成,其中可能提供胸部X光图像和患者基于文本的症状数据,目的是生成相关的医学报告。然而,很少有研究分析这些模型与单模态微调的大型语言模型(LLM)的性能差异,更少有研究比较这些多模态模型在提供症状信息作为输入时的表现。此外,过去的研究通常使用简单的评估指标,如n-gram重叠(例如BLEU和ROUGE分数),这些指标对于能够生成不同句子但具有相同语义意义的生成式基础模型并不有效。 本文的主要贡献有两个。首先,我们比较了多种医学报告生成方法在胸部X光医学报告数据集上的表现,包括单模态微调的医学LLM、没有症状数据的多模态模型和包含症状数据的多模态模型。其次,我们引入了四种新的评估指标,用于评估生成医学报告与参考医学报告之间的相似性,分别为:单词对、句子平均、句子对和句子对(生物)。我们的结果表明,针对医学报告生成的多模态方法远优于单模态方法,且提供症状数据略微提高了生成报告的准确性。我们还发现,我们新提出的句子对评估指标比所有之前的指标更能准确衡量生成报告与参考报告之间的相似性,这一点通过全面的定量和定性案例研究对比得到了证实。 这项研究从根本上推动了医学报告生成的前沿,进一步增强了使用多模态模型和症状输入的准确性优势,并引入了几种更为全面、定制化的评估生成医学报告的评分指标。