成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
0
视频内容爆炸时代,这场论坛让我们了解多模态 AI 视频分析的现状与挑战
2022 年 6 月 2 日
机器之心
目前人工智能发展已经趋于冷静与理性,从公开的大众话题回归到领域内的专业话题,从外部炒作和泡沫回归到实际产业价值和经济价值的产出。为了助力人工智能公司集中精力在细分领域获取核心信息,高效树立品牌形象,延续自身优势并获取本领域的更多资源,机器之心聚焦特定领域或主题,深度挖掘技术发展和产业应用的复杂需求与挑战,特别策划出品了「Target 系列论坛」。
首期论坛聚焦多模态视频分析这一垂直领域。过去几年来,有大量的研究项目聚焦多模态深度学习,致力于构建能够同时处理语音、文本、图像、视频等多种不同类型数据的 AI 系统。大规模视觉语言预训练模型的出现,比如 OpenAI 的 CLIP 和 DALL-E 2,更是将多模态内容感知和理解技术往商业化落地推进了一大步,其中一个典型便是智能化的视频生产和分析。
6 月 8 日 19:00-21:00,「Target 系列论坛」首期在线上举办,以「多模态 AI 视频分析:技术及应用」为主题,邀请产业链各方代表分享和展示最新的技术及应用案例,交流探讨「多模态 AI 视频内容分析」在实际场景中的现状与挑战,为开发实践和未来研究提供见解和方向。
分享嘉宾与主题介绍
主题一:“紫东太初” 多模态大模型,让机器具有理解和想象力
嘉宾简介:王金桥,中国科学院自动化研究所研究员,博士生导师,中国科学院大学人工智能学院教授。主要从事预训练大模型、目标检测与识别、视频分析与理解等方面的研究,共发表论 280 余篇,获得国内竞赛冠军 20 余项。
分享摘要:本次将介绍千亿参数多模态预训练大模型 “紫东太初”,它开拓性地实现了图像、文字、语音和视频等不同模态数据的统一表示和互相生成,兼具理解和生成认知能力,并实现了在媒体理解、人机对话等多场景的落地应用。
主题二:优酷 AI 视频智能生产系统
嘉宾简介:李静,博士,优酷技术中心总监,摩酷实验室负责人。法国南特大学计算机博士,曾任法国国家科学院研究员。2019 年加入阿里巴巴。研究方向多媒体视觉体验质量评价,3D 视觉,机器学习等。为多个国际、欧盟、国内专家组和标准组成员。参与制定多个 IEEE 以及 ITU 国际标准,担任多个国际期刊与会议主编以及评审。
分享摘要:优酷 AI 视频智能生产系统,基于自有 IP 版权内容,从视频、音频、弹幕等多模态信息中提取看点和标签,沉淀图片、镜头、片段级看点素材形成素材库,通过自研算法具备根据不同内容创作模板进行加工与视频剪辑合成的能力,同时可自动配合相应标题与封面图,满足人机配合高效创作精品、以及自动化批量生产满足优酷内容需求的分级智能生产系统。
主题三:Vision+:An Effective Way of Environmental Perception and Human Understanding
嘉宾简介:郭彦东,OPPO 公司智能感知首席科学家,对应技术委员会以及智能驾驶负责人,北京邮电大学兼职教授。郭博士致力于计算机视觉与人工智能的学术研究,也注重在工业界的应用。他的论文被广泛接收在 CVPR、ECCV 等国际认可的学术会议期刊,同行引用数千次,赋能了 GE、HP、Microsoft、小鹏汽车、OPPO 等公司的多款核心产品。
分享摘要:OPPO 讨论了视觉信号与其他模态的信号融合的不同方式,包括声音、文字、激光雷达,以及多路视频的相互融合方式。通过场景化的设计具有融合作用的神经网络架构,实验展示了视觉信号可以融合其他模态来提高识别效果,也可以与文字一起进行有效的联合预先训练(特别是分割场景),多路视觉信号对于 3D 立体重建,特别是人体重建,有非常好的效果。
圆桌对话嘉宾与主题介绍
圆桌对话主题:「多模态 AI 视频分析:进展与挑战」
特邀主持人:
赵行,清华大学交叉信息院助理教授、博士生导师
圆桌对话嘉宾:
王金桥,中科院自动化所研究员
郭彦东,OPPO公司智能感知首席科学家
文镇,腾讯信息平台与服务业务线 AI 算法负责人(特邀嘉宾)
特邀主持人简介
:赵行,清华大学交叉信息院助理教授,博士生导师。他的主要研究兴趣为多模态机器学习,自动驾驶和机器人学。在此之前,赵行在麻省理工学院 MIT 取得了博士学位,后于谷歌无人车项目 Waymo 担任研究科学家。赵行博士的工作曾被多家主流媒体报道,如 BBC, NBC, 麻省理工科技评论等。他的工作获得了 2015 年 ICCP 最佳论文奖。他本人入选了 2020 年福布斯中国 U30 科学精英榜。
特邀嘉宾简介
:文镇,腾讯信息平台与服务业务线 AI 算法负责人,研发前沿 AI 技术让内容处理、加工和分发更加智能高效。博士于清华大学计算机系本科毕业,美国伊利诺伊大学(UIUC)获得博士学位,曾在阿里巴巴、谷歌公司和 IBM T. J. Watson 研究院从事大数据和 AI 工作。获得过腾讯和 IBM 多个卓越研发成就奖,多个国际学术会议的最佳论文奖,曾担任 IEEE TMM 副主编。
此次圆桌聚焦多模态视频分析这一垂直领域,交流探讨多模态 AI 视频分析在实际场景中的现状与挑战,讨论话题包括多模态数据表示、多模态融合(即传统和基于深度学习的方案)、多模态迁移学习等。
观看渠道
加群看直播
直播间:关注机器之心机动组视频号,北京时间 6 月 8 日 19:00 开播。
交流群:扫描下方二维码,欢迎加入本次直播交流群探讨交流。
登录查看更多
点赞并收藏
0
暂时没有读者
0
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
多模
关注
2
面向任务型的对话系统研究进展
专知会员服务
56+阅读 · 2021年11月17日
【ACM Multimedia2021教程】人工智能作曲教程,79页ppt,微软亚研谭旭等主讲
专知会员服务
27+阅读 · 2021年10月28日
人工智能AI中台白皮书(2021年),45页pdf
专知会员服务
284+阅读 · 2021年9月18日
【NLPCC2020】多模态知识图谱构建、推理与挑战,东南大学王萌博士
专知会员服务
145+阅读 · 2020年10月21日
【DeepMind硬核课】深度学习注意力与记忆机制,附70页ppt与视频
专知会员服务
166+阅读 · 2020年6月25日
【CCL 2019】特邀报告,语言与视觉多模态智能的进展,京东AI研究院常务副院长何晓冬
专知会员服务
48+阅读 · 2019年11月11日
阅读理解中的推理和符号机制[吕正东]CCKS ATT 16-2019
专知会员服务
16+阅读 · 2019年10月25日
知识指导的自然语言处理 [微信模式识别中心 林衍凯] CCKS ATT 16-2019
专知会员服务
46+阅读 · 2019年10月25日
从知识表示发展历史理解知识图谱,中科院自动化所模式识别国家重点实验室何世柱副研究员,第八届全国社会媒体处理大会SMP2019
专知会员服务
76+阅读 · 2019年10月24日
社交机器人的挑战性问题,清华大学计算机系黄民烈副教授,SMP 2019 前沿技术讲习班第十五期(CIPS ATT 15)
专知会员服务
18+阅读 · 2019年10月23日
深度学习能颠覆视频编解码吗?国家技术发明奖一等奖得主在小红书给你唠
量子位
0+阅读 · 2022年7月26日
【CSIG云讲堂】6月28日19点,赵健主讲:面向无约束场景下的图象/视频深度理解
中国图象图形学学会CSIG
0+阅读 · 2022年6月23日
多模态视频分析火了,真正的应用场景有哪些现状与挑战?
机器之心
0+阅读 · 2022年6月8日
技术大咖齐聚爱数智慧人机交互技术论坛 | CNCC2021
极市平台
0+阅读 · 2021年10月15日
观点 | 多模态大模型成为AI基础设施,模型研发从“手工作坊”迈入工业化生产时代
中国科学院自动化研究所
3+阅读 · 2021年9月18日
会议研讨 | TF45: 知识图谱新技术、新场景、新应用
开放知识图谱
1+阅读 · 2021年8月19日
世界人工智能大会|年度AI盛宴开启,奉上微软独家观看指南
微软研究院AI头条
0+阅读 · 2021年7月7日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
24+阅读 · 2019年9月9日
CCAI 2019|视觉语音语言多模态论坛嘉宾介绍
中国人工智能学会
12+阅读 · 2019年9月3日
AI综述专栏|多模态学习研究进展综述
人工智能前沿讲习班
64+阅读 · 2018年7月13日
面向社交大数据的热点事件预测
国家自然科学基金
9+阅读 · 2015年12月31日
多深度融合感知的多视点视频联合处理与高效编码
国家自然科学基金
1+阅读 · 2014年12月31日
基于深度学习框架的多媒体大数据表示学习
国家自然科学基金
6+阅读 · 2013年12月31日
面向技战术分析的足球视频中的运动模式挖掘
国家自然科学基金
0+阅读 · 2012年12月31日
基于统计建模和稀疏表示的图像视频增强表达和高效编码
国家自然科学基金
0+阅读 · 2012年12月31日
基于视觉感知和迁移学习的书法鉴别技术研究
国家自然科学基金
0+阅读 · 2012年12月31日
适应云计算环境的视频编码、传输与智能处理
国家自然科学基金
0+阅读 · 2011年12月31日
复杂图形数据内容理解与检索技术研究
国家自然科学基金
0+阅读 · 2010年12月31日
句子语义的视觉表示研究
国家自然科学基金
4+阅读 · 2009年12月31日
面向FTV视点绘制的多视点视频与深度联合编码研究
国家自然科学基金
0+阅读 · 2009年12月31日
Recognition of Handwritten Chinese Text by Segmentation: A Segment-annotation-free Approach
Arxiv
0+阅读 · 2022年7月29日
Domain Specific Wav2vec 2.0 Fine-tuning For The SE&R 2022 Challenge
Arxiv
0+阅读 · 2022年7月29日
Robust Framework for COVID-19 Identification from a Multicenter Dataset of Chest CT Scans
Arxiv
0+阅读 · 2022年7月28日
Knowing Where and What: Unified Word Block Pretraining for Document Understanding
Arxiv
0+阅读 · 2022年7月28日
Active Domain-Invariant Self-Localization Using Ego-Centric and World-Centric Maps
Arxiv
0+阅读 · 2022年7月28日
Artificial Intelligence and Medicine: A literature review
Arxiv
28+阅读 · 2022年5月5日
Transformers in Medical Image Analysis: A Review
Arxiv
39+阅读 · 2022年2月24日
A Survey of Uncertainty in Deep Neural Networks
Arxiv
30+阅读 · 2021年7月7日
Learning in the Frequency Domain
Arxiv
11+阅读 · 2020年3月12日
A Survey of Domain Adaptation for Neural Machine Translation
Arxiv
17+阅读 · 2018年6月1日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
多模
视频
分析
多模态
视频分析
模态
相关VIP内容
面向任务型的对话系统研究进展
专知会员服务
56+阅读 · 2021年11月17日
【ACM Multimedia2021教程】人工智能作曲教程,79页ppt,微软亚研谭旭等主讲
专知会员服务
27+阅读 · 2021年10月28日
人工智能AI中台白皮书(2021年),45页pdf
专知会员服务
284+阅读 · 2021年9月18日
【NLPCC2020】多模态知识图谱构建、推理与挑战,东南大学王萌博士
专知会员服务
145+阅读 · 2020年10月21日
【DeepMind硬核课】深度学习注意力与记忆机制,附70页ppt与视频
专知会员服务
166+阅读 · 2020年6月25日
【CCL 2019】特邀报告,语言与视觉多模态智能的进展,京东AI研究院常务副院长何晓冬
专知会员服务
48+阅读 · 2019年11月11日
阅读理解中的推理和符号机制[吕正东]CCKS ATT 16-2019
专知会员服务
16+阅读 · 2019年10月25日
知识指导的自然语言处理 [微信模式识别中心 林衍凯] CCKS ATT 16-2019
专知会员服务
46+阅读 · 2019年10月25日
从知识表示发展历史理解知识图谱,中科院自动化所模式识别国家重点实验室何世柱副研究员,第八届全国社会媒体处理大会SMP2019
专知会员服务
76+阅读 · 2019年10月24日
社交机器人的挑战性问题,清华大学计算机系黄民烈副教授,SMP 2019 前沿技术讲习班第十五期(CIPS ATT 15)
专知会员服务
18+阅读 · 2019年10月23日
热门VIP内容
开通专知VIP会员 享更多权益服务
人形机器人与AI大模型之Robot+AI的Transformer之旅
【博士论文】基于车载3D LiDAR的几何与语义场景理解深度学习研究
【新书】数据挖掘与机器学习,777页pdf
[NeurIPS 2024] TextCtrl:基于扩散模型和先验引导控制的场景文字编辑
相关资讯
深度学习能颠覆视频编解码吗?国家技术发明奖一等奖得主在小红书给你唠
量子位
0+阅读 · 2022年7月26日
【CSIG云讲堂】6月28日19点,赵健主讲:面向无约束场景下的图象/视频深度理解
中国图象图形学学会CSIG
0+阅读 · 2022年6月23日
多模态视频分析火了,真正的应用场景有哪些现状与挑战?
机器之心
0+阅读 · 2022年6月8日
技术大咖齐聚爱数智慧人机交互技术论坛 | CNCC2021
极市平台
0+阅读 · 2021年10月15日
观点 | 多模态大模型成为AI基础设施,模型研发从“手工作坊”迈入工业化生产时代
中国科学院自动化研究所
3+阅读 · 2021年9月18日
会议研讨 | TF45: 知识图谱新技术、新场景、新应用
开放知识图谱
1+阅读 · 2021年8月19日
世界人工智能大会|年度AI盛宴开启,奉上微软独家观看指南
微软研究院AI头条
0+阅读 · 2021年7月7日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
24+阅读 · 2019年9月9日
CCAI 2019|视觉语音语言多模态论坛嘉宾介绍
中国人工智能学会
12+阅读 · 2019年9月3日
AI综述专栏|多模态学习研究进展综述
人工智能前沿讲习班
64+阅读 · 2018年7月13日
相关基金
面向社交大数据的热点事件预测
国家自然科学基金
9+阅读 · 2015年12月31日
多深度融合感知的多视点视频联合处理与高效编码
国家自然科学基金
1+阅读 · 2014年12月31日
基于深度学习框架的多媒体大数据表示学习
国家自然科学基金
6+阅读 · 2013年12月31日
面向技战术分析的足球视频中的运动模式挖掘
国家自然科学基金
0+阅读 · 2012年12月31日
基于统计建模和稀疏表示的图像视频增强表达和高效编码
国家自然科学基金
0+阅读 · 2012年12月31日
基于视觉感知和迁移学习的书法鉴别技术研究
国家自然科学基金
0+阅读 · 2012年12月31日
适应云计算环境的视频编码、传输与智能处理
国家自然科学基金
0+阅读 · 2011年12月31日
复杂图形数据内容理解与检索技术研究
国家自然科学基金
0+阅读 · 2010年12月31日
句子语义的视觉表示研究
国家自然科学基金
4+阅读 · 2009年12月31日
面向FTV视点绘制的多视点视频与深度联合编码研究
国家自然科学基金
0+阅读 · 2009年12月31日
相关论文
Recognition of Handwritten Chinese Text by Segmentation: A Segment-annotation-free Approach
Arxiv
0+阅读 · 2022年7月29日
Domain Specific Wav2vec 2.0 Fine-tuning For The SE&R 2022 Challenge
Arxiv
0+阅读 · 2022年7月29日
Robust Framework for COVID-19 Identification from a Multicenter Dataset of Chest CT Scans
Arxiv
0+阅读 · 2022年7月28日
Knowing Where and What: Unified Word Block Pretraining for Document Understanding
Arxiv
0+阅读 · 2022年7月28日
Active Domain-Invariant Self-Localization Using Ego-Centric and World-Centric Maps
Arxiv
0+阅读 · 2022年7月28日
Artificial Intelligence and Medicine: A literature review
Arxiv
28+阅读 · 2022年5月5日
Transformers in Medical Image Analysis: A Review
Arxiv
39+阅读 · 2022年2月24日
A Survey of Uncertainty in Deep Neural Networks
Arxiv
30+阅读 · 2021年7月7日
Learning in the Frequency Domain
Arxiv
11+阅读 · 2020年3月12日
A Survey of Domain Adaptation for Neural Machine Translation
Arxiv
17+阅读 · 2018年6月1日
大家都在搜
palantir
MoE
武器目标分配
AI智能
学习方法
PRML
RE-NET
壁画
汽车智能化
EBSD晶体学织构基础及数据处理
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top