当前,视频描述的评价方式主要基于参考文本和候选描述之间的文本比较。忽略了视频描述任务的特性,可能导致有偏差的评估。因此,我们提出了 EMScore(Embedding Matching-based score),这是一种专用于视频描述的新颖的无参考评价指标,其直接度量视频和候选描述之间的相似度。实验表明 EMScore 具有更高的人类相关性和更低的参考依赖性。
作者:Yaya Shi, Xu Yang, Haiyang Xu, Chunfeng Yuan, Bing Li, Weiming Hu, Zheng-Jun Zha