我们介绍了 HourVideo,一个用于小时级视频-语言理解的基准数据集。该数据集包含一个全新的任务套件,涵盖了摘要生成、感知(回忆、跟踪)、视觉推理(空间、时间、预测、因果、反事实)以及导航(从房间到房间、对象检索)任务。HourVideo 包含了从 Ego4D 数据集中精心挑选的500个第一人称视频,时长从20分钟到120分钟不等,涵盖了12,976道高质量的五选一多项选择题。基准测试结果显示,多模态模型(包括 GPT-4 和 LLaVA-NeXT)仅比随机猜测略有提升。与之形成鲜明对比的是,人类专家的表现显著优于当前最先进的长上下文多模态模型 Gemini Pro 1.5(85.0% 对比 37.3%),这突显出多模态能力上的巨大差距。我们的基准数据集、评估工具包、提示和文档已在 hourvideo.stanford.edu 上发布。