多模态视频分析火了，真正的应用场景有哪些现状与挑战？

2022 年 6 月 8 日 机器之心

目前人工智能发展已经趋于冷静与理性，从公开的大众话题回归到领域内的专业话题，从外部炒作和泡沫回归到实际产业价值和经济价值的产出。为了助力人工智能公司集中精力在细分领域获取核心信息，高效树立品牌形象，延续自身优势并获取本领域的更多资源，机器之心聚焦特定领域或主题，深度挖掘技术发展和产业应用的复杂需求与挑战，特别策划出品了「Target 系列论坛」。

首期论坛聚焦多模态视频分析这一垂直领域。过去几年来，有大量的研究项目聚焦多模态深度学习，致力于构建能够同时处理语音、文本、图像、视频等多种不同类型数据的 AI 系统。大规模视觉语言预训练模型的出现，比如 OpenAI 的 CLIP 和 DALL-E 2，更是将多模态内容感知和理解技术往商业化落地推进了一大步，其中一个典型便是智能化的视频生产和分析。

6 月 8 日 19:00-21:00，「Target 系列论坛」首期在线上举办，以「多模态 AI 视频分析：技术及应用」为主题，邀请产业链各方代表分享和展示最新的技术及应用案例，交流探讨「多模态 AI 视频内容分析」在实际场景中的现状与挑战，为开发实践和未来研究提供见解和方向。

分享嘉宾与主题介绍

主题一：“紫东太初” 多模态大模型，让机器具有理解和想象力

嘉宾简介：王金桥，中国科学院自动化研究所研究员，博士生导师，中国科学院大学人工智能学院教授。主要从事预训练大模型、目标检测与识别、视频分析与理解等方面的研究，共发表论 280 余篇，获得国内竞赛冠军 20 余项。

分享摘要：本次将介绍千亿参数多模态预训练大模型 “紫东太初”，它开拓性地实现了图像、文字、语音和视频等不同模态数据的统一表示和互相生成，兼具理解和生成认知能力，并实现了在媒体理解、人机对话等多场景的落地应用。

主题二：优酷 AI 视频智能生产系统

嘉宾简介：李静，博士，优酷技术中心总监，摩酷实验室负责人。法国南特大学计算机博士，曾任法国国家科学院研究员。2019 年加入阿里巴巴。研究方向多媒体视觉体验质量评价，3D 视觉，机器学习等。为多个国际、欧盟、国内专家组和标准组成员。参与制定多个 IEEE 以及 ITU 国际标准，担任多个国际期刊与会议主编以及评审。

分享摘要：优酷 AI 视频智能生产系统，基于自有 IP 版权内容，从视频、音频、弹幕等多模态信息中提取看点和标签，沉淀图片、镜头、片段级看点素材形成素材库，通过自研算法具备根据不同内容创作模板进行加工与视频剪辑合成的能力，同时可自动配合相应标题与封面图，满足人机配合高效创作精品、以及自动化批量生产满足优酷内容需求的分级智能生产系统。

主题三：Vision+：An Effective Way of Environmental Perception and Human Understanding

嘉宾简介：郭彦东，OPPO 公司智能感知首席科学家，对应技术委员会以及智能驾驶负责人，北京邮电大学兼职教授。郭博士致力于计算机视觉与人工智能的学术研究，也注重在工业界的应用。他的论文被广泛接收在 CVPR、ECCV 等国际认可的学术会议期刊，同行引用数千次，赋能了 GE、HP、Microsoft、小鹏汽车、OPPO 等公司的多款核心产品。本次郭博士也邀请了OPPO 研究院部分技术骨干与实验室负责人与他共同分享。

分享摘要：OPPO 讨论了视觉信号与其他模态的信号融合的不同方式，包括声音、文字、激光雷达，以及多路视频的相互融合方式。通过场景化的设计具有融合作用的神经网络架构，实验展示了视觉信号可以融合其他模态来提高识别效果，也可以与文字一起进行有效的联合预先训练（特别是分割场景），多路视觉信号对于 3D 立体重建，特别是人体重建，有非常好的效果。

圆桌对话嘉宾与主题介绍

圆桌对话主题：「多模态 AI 视频分析：进展与挑战」

特邀主持人：

赵行，清华大学交叉信息院助理教授、博士生导师

圆桌对话嘉宾：

王金桥，中科院自动化所研究员
郭彦东，OPPO公司智能感知首席科学家
文镇，腾讯信息平台与服务业务线 AI 算法负责人（特邀嘉宾）

特邀主持人简介 ：赵行，清华大学交叉信息院助理教授，博士生导师。他的主要研究兴趣为多模态机器学习，自动驾驶和机器人学。在此之前，赵行在麻省理工学院 MIT 取得了博士学位，后于谷歌无人车项目 Waymo 担任研究科学家。赵行博士的工作曾被多家主流媒体报道，如 BBC, NBC, 麻省理工科技评论等。他的工作获得了 2015 年 ICCP 最佳论文奖。他本人入选了 2020 年福布斯中国 U30 科学精英榜。

特邀嘉宾简介 ：文镇，腾讯信息平台与服务业务线 AI 算法负责人，研发前沿 AI 技术让内容处理、加工和分发更加智能高效。博士于清华大学计算机系本科毕业，美国伊利诺伊大学（UIUC）获得博士学位，曾在阿里巴巴、谷歌公司和 IBM T. J. Watson 研究院从事大数据和 AI 工作。获得过腾讯和 IBM 多个卓越研发成就奖，多个国际学术会议的最佳论文奖，曾担任 IEEE TMM 副主编。

此次圆桌聚焦多模态视频分析这一垂直领域，交流探讨多模态 AI 视频分析在实际场景中的现状与挑战，讨论话题包括多模态数据表示、多模态融合（即传统和基于深度学习的方案）、多模态迁移学习等。

观看渠道

加群看直播

直播间：关注机器之心机动组视频号，北京时间 6 月 8 日 19:00 开播。