We establish a rubric-based human evaluation protocol for image captioning models. Our scoring rubrics and their definitions are carefully developed based on machine- and human-generated captions on the MSCOCO dataset. Each caption is evaluated along two main dimensions in a tradeoff (precision and recall) as well as other aspects that measure the text quality (fluency, conciseness, and inclusive language). Our evaluations demonstrate several critical problems of the current evaluation practice. Human-generated captions show substantially higher quality than machine-generated ones, especially in coverage of salient information (i.e., recall), while all automatic metrics say the opposite. Our rubric-based results reveal that CLIPScore, a recent metric that uses image features, better correlates with human judgments than conventional text-only metrics because it is more sensitive to recall. We hope that this work will promote a more transparent evaluation protocol for image captioning and its automatic metrics.


翻译:我们为图像字幕模型制定了基于标本的人类评价协议。我们的评分标注及其定义是根据机器和人类在MCCO数据集上产生的字幕精心制定的。每个标题都按照取舍(精度和回溯)中的两个主要方面以及衡量文本质量的其他方面(流利、简洁和包容性语言)进行评估。我们的评价显示了当前评价做法的若干关键问题。人类产生的字幕质量大大高于机器产生的字幕,特别是在显要信息(即回顾)的覆盖面方面,而所有自动计量则相反。我们基于标本的结果表明,CLIPScore是使用图像特征的近期指标,它与人类的判断比传统的仅使用文本的衡量标准更相关,因为它更敏感。我们希望这项工作将促进一个更透明的图像字幕及其自动计量评价协议。

0
下载
关闭预览

相关内容

图像字幕(Image Captioning),是指从图像生成文本描述的过程,主要根据图像中物体和物体的动作。
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
计算机 | CCF推荐期刊专刊信息5条
Call4Papers
3+阅读 · 2019年4月10日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
综述:Image Caption 任务之语句多样性
PaperWeekly
22+阅读 · 2018年11月30日
Image Captioning 36页最新综述, 161篇参考文献
专知
90+阅读 · 2018年10月23日
自然语言处理领域公开数据集
炼数成金订阅号
8+阅读 · 2018年4月19日
CVPR2017有哪些值得读的Image Caption论文?
PaperWeekly
10+阅读 · 2017年11月29日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Arxiv
3+阅读 · 2020年4月29日
Hierarchy Parsing for Image Captioning
Arxiv
6+阅读 · 2019年9月10日
Neural Image Captioning
Arxiv
5+阅读 · 2019年7月2日
Arxiv
3+阅读 · 2019年3月29日
Attend More Times for Image Captioning
Arxiv
6+阅读 · 2018年12月8日
Arxiv
7+阅读 · 2018年11月27日
Arxiv
11+阅读 · 2018年5月13日
Arxiv
3+阅读 · 2017年8月15日
VIP会员
相关VIP内容
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
相关资讯
计算机 | CCF推荐期刊专刊信息5条
Call4Papers
3+阅读 · 2019年4月10日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
综述:Image Caption 任务之语句多样性
PaperWeekly
22+阅读 · 2018年11月30日
Image Captioning 36页最新综述, 161篇参考文献
专知
90+阅读 · 2018年10月23日
自然语言处理领域公开数据集
炼数成金订阅号
8+阅读 · 2018年4月19日
CVPR2017有哪些值得读的Image Caption论文?
PaperWeekly
10+阅读 · 2017年11月29日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
相关论文
Arxiv
3+阅读 · 2020年4月29日
Hierarchy Parsing for Image Captioning
Arxiv
6+阅读 · 2019年9月10日
Neural Image Captioning
Arxiv
5+阅读 · 2019年7月2日
Arxiv
3+阅读 · 2019年3月29日
Attend More Times for Image Captioning
Arxiv
6+阅读 · 2018年12月8日
Arxiv
7+阅读 · 2018年11月27日
Arxiv
11+阅读 · 2018年5月13日
Arxiv
3+阅读 · 2017年8月15日
Top
微信扫码咨询专知VIP会员