大型语言模型(LLMs)在迈向通用人工智能(AGI)的道路上取得了重要进展。与此同时,越来越多的领域特定问题(如数学和编程)正在推动这些通用模型不断演化,向着更深层次的专业化知识学习发展。因此,当下正是进一步拓展知识型 LLMs 在多样化专业应用中的时机,尽管收集包含新颖且信息丰富任务的高质量数据仍然具有挑战性。在本文中,我们提出利用广告(ad)视频作为一个具有挑战性的测试平台,以探索 LLMs 感知超越常见视觉领域客观物理内容的能力。我们的动机在于充分利用广告视频丰富线索和高信息密度的特点,例如营销逻辑、说服策略和受众互动。我们的贡献主要包括三点:(1)据我们所知,这是首次尝试利用精心设计的广告视频任务来评估 LLMs。我们提出了 AdsQA,一个由 1,544 条广告视频构建的挑战性广告视频问答基准,涵盖 10,962 个片段,总时长 22.7 小时,提供 5 个挑战性任务。(2)我们提出了 ReAd-R,一种类似 Deepseek-R1 的基于强化学习的模型,能够通过自我反思问题,并结合奖励驱动的优化生成答案。(3)我们在 AdsQA 上对 14 个顶尖 LLMs 进行了基准测试,其中 ReAd-R 取得了最新的最优性能,并以显著优势超越了具备长链式推理能力的强大竞争对手。

成为VIP会员查看完整内容
1

相关内容

【SIGIR2024】GPT4Rec: 用于流式推荐的图提示微调
专知会员服务
18+阅读 · 2024年6月13日
【Paul Liang】多模态深度学习,Multimodal Deep Learning
专知会员服务
185+阅读 · 2022年4月12日
【ECIR2021】信息检索技术进展: 从词袋到BERT,230页ppt
专知会员服务
55+阅读 · 2021年3月30日
专知会员服务
36+阅读 · 2020年9月25日
【Tutorial】计算机视觉中的Transformer,98页ppt
专知
21+阅读 · 2021年10月25日
【KDD2020】动态知识图谱的多事件预测
专知
88+阅读 · 2020年8月31日
【KDD2020】图神经网络:基础与应用,322页ppt
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
45+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Arxiv
171+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
482+阅读 · 2023年3月31日
Arxiv
79+阅读 · 2023年3月26日
Arxiv
174+阅读 · 2023年3月24日
Arxiv
25+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
45+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
微信扫码咨询专知VIP会员