我们介绍了 HourVideo,一个用于小时级视频-语言理解的基准数据集。该数据集包含一个全新的任务套件,涵盖了摘要生成、感知(回忆、跟踪)、视觉推理(空间、时间、预测、因果、反事实)以及导航(从房间到房间、对象检索)任务。HourVideo 包含了从 Ego4D 数据集中精心挑选的500个第一人称视频,时长从20分钟到120分钟不等,涵盖了12,976道高质量的五选一多项选择题。基准测试结果显示,多模态模型(包括 GPT-4 和 LLaVA-NeXT)仅比随机猜测略有提升。与之形成鲜明对比的是,人类专家的表现显著优于当前最先进的长上下文多模态模型 Gemini Pro 1.5(85.0% 对比 37.3%),这突显出多模态能力上的巨大差距。我们的基准数据集、评估工具包、提示和文档已在 hourvideo.stanford.edu 上发布。

成为VIP会员查看完整内容
22

相关内容

【2022新书】Python数据分析第三版,579页pdf
专知会员服务
244+阅读 · 2022年8月31日
南洋理工最新《视频自然语言定位》2022综述
专知会员服务
24+阅读 · 2022年1月29日
【干货书】R语言探索性数据分析,218页pdf
专知会员服务
61+阅读 · 2021年9月14日
深度学习自然语言处理概述,116页ppt,Jiří Materna
专知会员服务
79+阅读 · 2020年3月10日
【2022新书】Python数据分析第三版,579页pdf
专知
19+阅读 · 2022年8月31日
【Tutorial】计算机视觉中的Transformer,98页ppt
专知
18+阅读 · 2021年10月25日
PointNet系列论文解读
人工智能前沿讲习班
17+阅读 · 2019年5月3日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
37+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Arxiv
155+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
395+阅读 · 2023年3月31日
Arxiv
66+阅读 · 2023年3月26日
Arxiv
137+阅读 · 2023年3月24日
Arxiv
19+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
37+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员