成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
0
多模态视频分析火了,真正的应用场景有哪些现状与挑战?
2022 年 6 月 8 日
机器之心
目前人工智能发展已经趋于冷静与理性,从公开的大众话题回归到领域内的专业话题,从外部炒作和泡沫回归到实际产业价值和经济价值的产出。为了助力人工智能公司集中精力在细分领域获取核心信息,高效树立品牌形象,延续自身优势并获取本领域的更多资源,机器之心聚焦特定领域或主题,深度挖掘技术发展和产业应用的复杂需求与挑战,特别策划出品了「Target 系列论坛」。
首期论坛聚焦多模态视频分析这一垂直领域。过去几年来,有大量的研究项目聚焦多模态深度学习,致力于构建能够同时处理语音、文本、图像、视频等多种不同类型数据的 AI 系统。大规模视觉语言预训练模型的出现,比如 OpenAI 的 CLIP 和 DALL-E 2,更是将多模态内容感知和理解技术往商业化落地推进了一大步,其中一个典型便是智能化的视频生产和分析。
6 月 8 日 19:00-21:00,「Target 系列论坛」首期在线上举办,以「多模态 AI 视频分析:技术及应用」为主题,邀请产业链各方代表分享和展示最新的技术及应用案例,交流探讨「多模态 AI 视频内容分析」在实际场景中的现状与挑战,为开发实践和未来研究提供见解和方向。
分享嘉宾与主题介绍
主题一:“紫东太初” 多模态大模型,让机器具有理解和想象力
嘉宾简介:王金桥,中国科学院自动化研究所研究员,博士生导师,中国科学院大学人工智能学院教授。主要从事预训练大模型、目标检测与识别、视频分析与理解等方面的研究,共发表论 280 余篇,获得国内竞赛冠军 20 余项。
分享摘要:本次将介绍千亿参数多模态预训练大模型 “紫东太初”,它开拓性地实现了图像、文字、语音和视频等不同模态数据的统一表示和互相生成,兼具理解和生成认知能力,并实现了在媒体理解、人机对话等多场景的落地应用。
主题二:优酷 AI 视频智能生产系统
嘉宾简介:李静,博士,优酷技术中心总监,摩酷实验室负责人。法国南特大学计算机博士,曾任法国国家科学院研究员。2019 年加入阿里巴巴。研究方向多媒体视觉体验质量评价,3D 视觉,机器学习等。为多个国际、欧盟、国内专家组和标准组成员。参与制定多个 IEEE 以及 ITU 国际标准,担任多个国际期刊与会议主编以及评审。
分享摘要:优酷 AI 视频智能生产系统,基于自有 IP 版权内容,从视频、音频、弹幕等多模态信息中提取看点和标签,沉淀图片、镜头、片段级看点素材形成素材库,通过自研算法具备根据不同内容创作模板进行加工与视频剪辑合成的能力,同时可自动配合相应标题与封面图,满足人机配合高效创作精品、以及自动化批量生产满足优酷内容需求的分级智能生产系统。
主题三:Vision+:An Effective Way of Environmental Perception and Human Understanding
嘉宾简介:郭彦东,OPPO 公司智能感知首席科学家,对应技术委员会以及智能驾驶负责人,北京邮电大学兼职教授。郭博士致力于计算机视觉与人工智能的学术研究,也注重在工业界的应用。他的论文被广泛接收在 CVPR、ECCV 等国际认可的学术会议期刊,同行引用数千次,赋能了 GE、HP、Microsoft、小鹏汽车、OPPO 等公司的多款核心产品。本次郭博士也邀请了OPPO 研究院部分技术骨干与实验室负责人
与他共同分享。
分享摘要:OPPO 讨论了视觉信号与其他模态的信号融合的不同方式,包括声音、文字、激光雷达,以及多路视频的相互融合方式。通过场景化的设计具有融合作用的神经网络架构,实验展示了视觉信号可以融合其他模态来提高识别效果,也可以与文字一起进行有效的联合预先训练(特别是分割场景),多路视觉信号对于 3D 立体重建,特别是人体重建,有非常好的效果。
圆桌对话嘉宾与主题介绍
圆桌对话主题:「多模态 AI 视频分析:进展与挑战」
特邀主持人:
赵行,清华大学交叉信息院助理教授、博士生导师
圆桌对话嘉宾:
王金桥,中科院自动化所研究员
郭彦东,OPPO公司智能感知首席科学家
文镇,腾讯信息平台与服务业务线 AI 算法负责人(特邀嘉宾)
特邀主持人简介
:赵行,清华大学交叉信息院助理教授,博士生导师。他的主要研究兴趣为多模态机器学习,自动驾驶和机器人学。在此之前,赵行在麻省理工学院 MIT 取得了博士学位,后于谷歌无人车项目 Waymo 担任研究科学家。赵行博士的工作曾被多家主流媒体报道,如 BBC, NBC, 麻省理工科技评论等。他的工作获得了 2015 年 ICCP 最佳论文奖。他本人入选了 2020 年福布斯中国 U30 科学精英榜。
特邀嘉宾简介
:文镇,腾讯信息平台与服务业务线 AI 算法负责人,研发前沿 AI 技术让内容处理、加工和分发更加智能高效。博士于清华大学计算机系本科毕业,美国伊利诺伊大学(UIUC)获得博士学位,曾在阿里巴巴、谷歌公司和 IBM T. J. Watson 研究院从事大数据和 AI 工作。获得过腾讯和 IBM 多个卓越研发成就奖,多个国际学术会议的最佳论文奖,曾担任 IEEE TMM 副主编。
此次圆桌聚焦多模态视频分析这一垂直领域,交流探讨多模态 AI 视频分析在实际场景中的现状与挑战,讨论话题包括多模态数据表示、多模态融合(即传统和基于深度学习的方案)、多模态迁移学习等。
观看渠道
加群看直播
直播间:关注机器之心机动组视频号,北京时间 6 月 8 日 19:00 开播。
交流群:扫描下方二维码,欢迎加入本次直播交流群探讨交流。
登录查看更多
点赞并收藏
0
暂时没有读者
0
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
多模
关注
2
面向实时视频流分析的边缘计算技术
专知会员服务
78+阅读 · 2022年6月5日
电力领域知识图谱技术进展与应用实践
专知会员服务
29+阅读 · 2022年5月13日
《人工智能之人机交互》报告重磅发布,展示AI+人机交互的酷炫现状与未来
专知会员服务
46+阅读 · 2022年4月30日
论文复现指南:要求、挑战与技巧
专知会员服务
53+阅读 · 2022年1月28日
【报告】未来的语音世界——中国智能语音市场分析,30页pdf
专知会员服务
35+阅读 · 2021年12月16日
数据价值释放与隐私保护计算应用研究报告,64页pdf
专知会员服务
39+阅读 · 2021年11月29日
面向任务型的对话系统研究进展
专知会员服务
56+阅读 · 2021年11月17日
【中科院软件所陈波老师】基于深度学习的自然语言语义解析,101页ppt
专知会员服务
55+阅读 · 2021年11月8日
2021—2022中国人工智能计算力发展评估报告,36页pdf
专知会员服务
70+阅读 · 2021年11月6日
面向社会媒体的多模态情感分析与表达,搜狗AI交互技术中心高级总监陈伟,第八届全国社会媒体处理大会SMP2019
专知会员服务
48+阅读 · 2019年10月22日
「2021年中国对话式AI市场报告」出炉!腾讯云智能斩获四项第一
新智元
0+阅读 · 2022年7月22日
企业专家深入探讨元宇宙技术及应用场景 | TF62回顾
中国计算机学会
1+阅读 · 2022年7月11日
12位顶级名家的扛鼎之作:阐述可解释AI研究的问题和方法 | 文末送书
PaperWeekly
2+阅读 · 2022年6月2日
视频内容爆炸时代,这场论坛让我们了解多模态 AI 视频分析的现状与挑战
机器之心
0+阅读 · 2022年6月2日
“通用大模型”趋势下,AI未来当如何?
CSDN
3+阅读 · 2022年3月10日
人人都能大长腿?今晚让我们起底美颜特效背后的技术
机器之心
1+阅读 · 2022年3月3日
技术为王?畅谈可信AI 征途中的技术实践与应用机遇
机器之心
0+阅读 · 2022年1月28日
CV、终端芯片、虚拟数字人技术:元宇宙浪潮下的AI技术流实践机遇与挑战
机器之心
1+阅读 · 2022年1月27日
面向未来,分布式数据库能有哪些新的突破
CSDN
0+阅读 · 2022年1月17日
会议研讨 | TF45: 知识图谱新技术、新场景、新应用
开放知识图谱
1+阅读 · 2021年8月19日
基于精神分裂症公认认知成套测验(MCCB)的多模态脑影像标志鉴定
国家自然科学基金
0+阅读 · 2014年12月31日
基于深度学习的交通环境理解与目标检测方法研究
国家自然科学基金
2+阅读 · 2013年12月31日
基于磁耦合多频谐振的能量与信息同步无线传输技术的研究
国家自然科学基金
0+阅读 · 2013年12月31日
面向技战术分析的足球视频中的运动模式挖掘
国家自然科学基金
0+阅读 · 2012年12月31日
基于语义分析的三维模型生成技术研究
国家自然科学基金
1+阅读 · 2012年12月31日
基于语义分析的数据库交互技术
国家自然科学基金
0+阅读 · 2012年12月31日
移动云计算模式下的场景文本感知方法研究
国家自然科学基金
0+阅读 · 2012年12月31日
计算摄像学中大深度范围场景抖动模糊研究
国家自然科学基金
0+阅读 · 2011年12月31日
视频广告监播中的跨媒体分析理论与技术研究
国家自然科学基金
1+阅读 · 2011年12月31日
场景表意式绘制方法研究
国家自然科学基金
0+阅读 · 2009年12月31日
Low-data? No problem: low-resource, language-agnostic conversational text-to-speech via F0-conditioned data augmentation
Arxiv
0+阅读 · 2022年7月29日
PencilNet: Zero-Shot Sim-to-Real Transfer Learning for Robust Gate Perception in Autonomous Drone Racing
Arxiv
0+阅读 · 2022年7月28日
The Arousal video Game AnnotatIoN (AGAIN) Dataset
Arxiv
0+阅读 · 2022年7月28日
XADLiME: eXplainable Alzheimer's Disease Likelihood Map Estimation via Clinically-guided Prototype Learning
Arxiv
0+阅读 · 2022年7月27日
Intelligence Primer
Arxiv
32+阅读 · 2022年5月23日
On games and simulators as a platform for development of artificial intelligence for command and control
Arxiv
81+阅读 · 2021年10月21日
A Survey on Edge Computing Systems and Tools
Arxiv
35+阅读 · 2019年11月7日
Few-shot Learning: A Survey
Arxiv
362+阅读 · 2019年4月10日
A Memory-Network Based Solution for Multivariate Time-Series Forecasting
Arxiv
13+阅读 · 2018年9月6日
Interpretable Convolutional Neural Networks
Arxiv
22+阅读 · 2018年2月14日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
多模
视频
分析
视频分析
多模态
模态
相关VIP内容
面向实时视频流分析的边缘计算技术
专知会员服务
78+阅读 · 2022年6月5日
电力领域知识图谱技术进展与应用实践
专知会员服务
29+阅读 · 2022年5月13日
《人工智能之人机交互》报告重磅发布,展示AI+人机交互的酷炫现状与未来
专知会员服务
46+阅读 · 2022年4月30日
论文复现指南:要求、挑战与技巧
专知会员服务
53+阅读 · 2022年1月28日
【报告】未来的语音世界——中国智能语音市场分析,30页pdf
专知会员服务
35+阅读 · 2021年12月16日
数据价值释放与隐私保护计算应用研究报告,64页pdf
专知会员服务
39+阅读 · 2021年11月29日
面向任务型的对话系统研究进展
专知会员服务
56+阅读 · 2021年11月17日
【中科院软件所陈波老师】基于深度学习的自然语言语义解析,101页ppt
专知会员服务
55+阅读 · 2021年11月8日
2021—2022中国人工智能计算力发展评估报告,36页pdf
专知会员服务
70+阅读 · 2021年11月6日
面向社会媒体的多模态情感分析与表达,搜狗AI交互技术中心高级总监陈伟,第八届全国社会媒体处理大会SMP2019
专知会员服务
48+阅读 · 2019年10月22日
热门VIP内容
开通专知VIP会员 享更多权益服务
人形机器人与AI大模型之Robot+AI的Transformer之旅
【博士论文】基于车载3D LiDAR的几何与语义场景理解深度学习研究
【新书】数据挖掘与机器学习,777页pdf
[NeurIPS 2024] TextCtrl:基于扩散模型和先验引导控制的场景文字编辑
相关资讯
「2021年中国对话式AI市场报告」出炉!腾讯云智能斩获四项第一
新智元
0+阅读 · 2022年7月22日
企业专家深入探讨元宇宙技术及应用场景 | TF62回顾
中国计算机学会
1+阅读 · 2022年7月11日
12位顶级名家的扛鼎之作:阐述可解释AI研究的问题和方法 | 文末送书
PaperWeekly
2+阅读 · 2022年6月2日
视频内容爆炸时代,这场论坛让我们了解多模态 AI 视频分析的现状与挑战
机器之心
0+阅读 · 2022年6月2日
“通用大模型”趋势下,AI未来当如何?
CSDN
3+阅读 · 2022年3月10日
人人都能大长腿?今晚让我们起底美颜特效背后的技术
机器之心
1+阅读 · 2022年3月3日
技术为王?畅谈可信AI 征途中的技术实践与应用机遇
机器之心
0+阅读 · 2022年1月28日
CV、终端芯片、虚拟数字人技术:元宇宙浪潮下的AI技术流实践机遇与挑战
机器之心
1+阅读 · 2022年1月27日
面向未来,分布式数据库能有哪些新的突破
CSDN
0+阅读 · 2022年1月17日
会议研讨 | TF45: 知识图谱新技术、新场景、新应用
开放知识图谱
1+阅读 · 2021年8月19日
相关基金
基于精神分裂症公认认知成套测验(MCCB)的多模态脑影像标志鉴定
国家自然科学基金
0+阅读 · 2014年12月31日
基于深度学习的交通环境理解与目标检测方法研究
国家自然科学基金
2+阅读 · 2013年12月31日
基于磁耦合多频谐振的能量与信息同步无线传输技术的研究
国家自然科学基金
0+阅读 · 2013年12月31日
面向技战术分析的足球视频中的运动模式挖掘
国家自然科学基金
0+阅读 · 2012年12月31日
基于语义分析的三维模型生成技术研究
国家自然科学基金
1+阅读 · 2012年12月31日
基于语义分析的数据库交互技术
国家自然科学基金
0+阅读 · 2012年12月31日
移动云计算模式下的场景文本感知方法研究
国家自然科学基金
0+阅读 · 2012年12月31日
计算摄像学中大深度范围场景抖动模糊研究
国家自然科学基金
0+阅读 · 2011年12月31日
视频广告监播中的跨媒体分析理论与技术研究
国家自然科学基金
1+阅读 · 2011年12月31日
场景表意式绘制方法研究
国家自然科学基金
0+阅读 · 2009年12月31日
相关论文
Low-data? No problem: low-resource, language-agnostic conversational text-to-speech via F0-conditioned data augmentation
Arxiv
0+阅读 · 2022年7月29日
PencilNet: Zero-Shot Sim-to-Real Transfer Learning for Robust Gate Perception in Autonomous Drone Racing
Arxiv
0+阅读 · 2022年7月28日
The Arousal video Game AnnotatIoN (AGAIN) Dataset
Arxiv
0+阅读 · 2022年7月28日
XADLiME: eXplainable Alzheimer's Disease Likelihood Map Estimation via Clinically-guided Prototype Learning
Arxiv
0+阅读 · 2022年7月27日
Intelligence Primer
Arxiv
32+阅读 · 2022年5月23日
On games and simulators as a platform for development of artificial intelligence for command and control
Arxiv
81+阅读 · 2021年10月21日
A Survey on Edge Computing Systems and Tools
Arxiv
35+阅读 · 2019年11月7日
Few-shot Learning: A Survey
Arxiv
362+阅读 · 2019年4月10日
A Memory-Network Based Solution for Multivariate Time-Series Forecasting
Arxiv
13+阅读 · 2018年9月6日
Interpretable Convolutional Neural Networks
Arxiv
22+阅读 · 2018年2月14日
大家都在搜
palantir
PRML
武器目标分配
学习方法
知识图谱
洛克菲勒
汽车智能化
壁画
MoE
出海产品从 0 到 1 该怎么做
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top