大型语言模型(LLMs)在迈向通用人工智能(AGI)的道路上取得了重要进展。与此同时,越来越多的领域特定问题(如数学和编程)正在推动这些通用模型不断演化,向着更深层次的专业化知识学习发展。因此,当下正是进一步拓展知识型 LLMs 在多样化专业应用中的时机,尽管收集包含新颖且信息丰富任务的高质量数据仍然具有挑战性。在本文中,我们提出利用广告(ad)视频作为一个具有挑战性的测试平台,以探索 LLMs 感知超越常见视觉领域客观物理内容的能力。我们的动机在于充分利用广告视频丰富线索和高信息密度的特点,例如营销逻辑、说服策略和受众互动。我们的贡献主要包括三点:(1)据我们所知,这是首次尝试利用精心设计的广告视频任务来评估 LLMs。我们提出了 AdsQA,一个由 1,544 条广告视频构建的挑战性广告视频问答基准,涵盖 10,962 个片段,总时长 22.7 小时,提供 5 个挑战性任务。(2)我们提出了 ReAd-R,一种类似 Deepseek-R1 的基于强化学习的模型,能够通过自我反思问题,并结合奖励驱动的优化生成答案。(3)我们在 AdsQA 上对 14 个顶尖 LLMs 进行了基准测试,其中 ReAd-R 取得了最新的最优性能,并以显著优势超越了具备长链式推理能力的强大竞争对手。