This paper presents the 5th place solution by our team, y3h2, for the Meta CRAG-MM Challenge at KDD Cup 2025. The CRAG-MM benchmark is a visual question answering (VQA) dataset focused on factual questions about images, including egocentric images. The competition was contested based on VQA accuracy, as judged by an LLM-based automatic evaluator. Since incorrect answers result in negative scores, our strategy focused on reducing hallucinations from the internal representations of the VLM. Specifically, we trained logistic regression-based hallucination detection models using both the hidden_state and the outputs of specific attention heads. We then employed an ensemble of these models. As a result, while our method sacrificed some correct answers, it significantly reduced hallucinations and allowed us to place among the top entries on the final leaderboard.


翻译:本文介绍了我们团队y3h2在KDD Cup 2025 Meta CRAG-MM挑战赛中获得第五名的解决方案。CRAG-MM基准是一个专注于图像(包括第一人称视角图像)事实性问题的视觉问答数据集。该竞赛基于LLM驱动的自动评估器判定的VQA准确率进行评比。由于错误答案会导致负分,我们的策略侧重于减少视觉语言模型内部表示产生的幻觉。具体而言,我们利用hidden_state和特定注意力头的输出,训练了基于逻辑回归的幻觉检测模型,并采用了这些模型的集成方法。结果表明,虽然我们的方法牺牲了部分正确答案,但显著减少了幻觉现象,使我们在最终排行榜上位列前茅。

0
下载
关闭预览

相关内容

[CVPR 2021] 序列到序列对比学习的文本识别
专知
10+阅读 · 2021年4月14日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
【ICML2019】IanGoodfellow自注意力GAN的代码与PPT
GAN生成式对抗网络
18+阅读 · 2019年6月30日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
VIP会员
相关资讯
[CVPR 2021] 序列到序列对比学习的文本识别
专知
10+阅读 · 2021年4月14日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
【ICML2019】IanGoodfellow自注意力GAN的代码与PPT
GAN生成式对抗网络
18+阅读 · 2019年6月30日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员