IEEE Fellow 梅涛当选ACM MM 2023大会共同主席！

会员服务 ·

IEEE Fellow 梅涛当选ACM MM 2023大会共同主席！

2021 年 11 月 7 日 极市平台

↑ 点击蓝字关注极市平台

来源丨AI科技评论

编辑丨极市平台

极市导读

日前，第29届ACM国际多媒体顶级会议已于10月20日至24日在成都举办.会上，IEEE Fellow、京东集团副总裁梅涛当选ACM Multimedia 2023大会共同主席（General Co-Chair）。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

日前，第29届ACM国际多媒体顶级会议（ACM International Conference on Multimedia, 简称ACM Multimedia）已于10月20日至24日在成都举办，京东探索研究院凭借跨模态分析技术、多模态交互数字人技术分别斩获最佳开源项目奖及最佳演示奖（Demo）。会上，IEEE Fellow、京东集团副总裁梅涛当选ACM Multimedia 2023大会共同主席（General Co-Chair）。

最佳Demo奖：ViDA-MAN: Visual Dialog with Digital Humans

贡献：展示了一个完整的多模态数字人系统，包含语音模块、对话模块、视觉模块、驱动模块以及流模块等。

最佳开源奖：X-modaler: A Versatile and High-performance Codebase for Cross-modal Analytics

贡献：跨模态分析的多功能和高性能的代码库，统一了最先进的视觉语言技术中的全面的高质量模块。

关于X-modaler和ViDA-Man

过去十年多媒体领域视觉和语言之间的跨模态分析出现了稳定创新和突破的势头。然而，X-modaler出现之前，还没有一个开源的代码库来支持以统一和模块化的方式训练和部署众多的跨模态分析的神经网络模型。京东探索研究院AI团队模态视觉分析代码库X-modaler是业界首个模块化、标准化的跨模态视觉分析代码库，涵盖了视觉语言领域各种前沿技术，并支持各种多模态任务。它可以轻松复现视觉语言领域目前主流的技术，促进学术界在视觉语言领域的发展。同时也便于工业界集成跨模态视觉分析的模块，推动技术进步。

京东探索研究院跨模态视觉分析代码库X-modaler

系统化地集成了跨模态分析各大任务中最常用七大模块（如编码器模块、跨模态交互模块以及解码器模块等），每一个模块也包含了各种前沿技术算法，例如跨模态交互模块可以选择传统的Attention、Top-Down Attention、Meshed Memory Attention以及最新的X-Linear Attention。具体示意如下图：

基于这七大模块，X-modaler就可以轻松支持各种多模态任务，如image/video captioning、vision-language pre-training、VQA、VCR、cross-modal retrieval，同时也能很好地复现每个多模态任务中的前沿技术，例如在image captioning的任务中X-modaler集成了京东AI团队从ICCV17的LSTM-A、ECCV18的GCN-LSTM、再到CVPR20的X-LAN。目前代码库支持的算法如下图，后续将不断加入更多最新技术的实现，整个代码库包括使用文档以及预训练模型均已开源（https://github.com/YehLi/xmodaler）。

在传统的AI认知中，视觉领域、语音领域、自然语言领域等领域之前是独立演进的技术和应用，可以认为是单模态技术，而人是一个看、听、说多模态共同工作的智能体，所以多模态技术是未来人工智能应用发展的方向。

京东探索研究院多模态交互数字人技术ViDA-Man致力于打造具备多感官交互能力的人机交互系统，深入多模态交互技术研究，专注于人机交互的消费科技产品打造。基于该技术开发的多模态交互数字人形象引擎，能够提供快速的形象定制能力，从外观的数字化逐渐深入到行为的交互化、情绪的智能化。

ViDA-Man致力于打造具备多感官交互能力的人机交互系统，深入多模态交互技术研究，专注于人机交互的消费科技产品打造。基于现有的人机对话技术，创新性研究类人风格的虚拟形象生成技术，深度融合计算机视觉、自然语言与语音等多项AI技术，结合泛文娱和智能客服场景，提供真人虚拟形象的新型拟人式交互新体验（项目主页：https://ascust.github.io/vidaman/）。

获奖论文展示了一个完整的多模态数字人系统，包含语音模块、对话模块、视觉模块、驱动模块以及流模块等。先进的ASR技术与基于多音色融合的TTS技术使数字人具备了出色听以及说的能力；基于多技能、多回合的对话系统使数字人具备了多样性的应答能力。基于3D重构技术以及神经渲染技术的视觉模块使数字人具备了逼真的外表以及自然的动作。同时流式服务模块将音视频整合，让系统具备低延迟的实时交互能力。各模块并非独立运作，而是有机整合在一起，使得各模态数据真正实现融合。

京东为什么“看中”多模态技术

数字浪潮的推动让人工智能技术已经实现从不可用到可用，AI产品化时期，诸如智能语音识别技术、智能图片处理技术、基于用户兴趣的算法引擎推荐、智能审核技术、AR/VR技术、5G技术等成为了AI落地的抓手，掀起了科技创新的新浪潮。梅涛表示，获奖技术早已服务于京东云打造的虚拟数字人、拍照购、搭配购等多个产品，并开始在产业化、商业化项目中广泛应用。

例如，这些技术已大规模应用于正在如火如荼展开的京东11.11。如，基于计算机视觉以图搜图的搜索应用，辅助以语音对话交互技术的“拍照购”和“搭配购”功能已在刚刚拉开帷幕的京东11.11中大放异彩，通过拍照或截图方式，直接匹配搭配好的时尚单品，打造“一站加购”、“一键买齐”的购物新体验，帮助商家强种草、高转化。

今年京东11.11期间，针对商品营销内容推出的智能写作服务“达人写作”，形成一篇百余字商品文案仅需300毫秒，5分钟可以创作出1000篇文案，覆盖近3000个商品品类，累计生成3,000万AI内容，相比于人工撰写内容点击转化率超过40%，成本降低93.2%。

除京东内部应用之外，这些获得国际学术界顶尖荣誉的领先技术正在通过京东云这个统一平台输出对外赋能各行各业。比如，基于多模态交互数字人技术研发的“虚拟数字人”能助力京东云智能客服产品提升智能接待、服务和虚拟助手的体验。比如，京东云智能客服业务与某银行合作，打造了全国第一个交互式数字人项目“数字柜员”，有别于播报式数字人，“数字柜员”涉及VTM虚拟坐席交互，利用AI技术，实现用虚拟人替代真人柜员办理业务、把控风险。

可以看到，京东AI技术之所以能取得如此优异的成绩，是其在真实复杂场景的有效实践和千锤百炼。作为京东集团对外技术输出的窗口，京东云不仅是政府、企业、家庭数字化转型全生命周期合伙人，并基于人工智能、大数据、云计算、物联网、区块链、隐私计算等技术，通过数智化全链条技术服务，助力千行百业数字化转型，激发产业无限可能。

关于ACM Multimedia

ACM Multimedia是计算机科学领域中多媒体领域的首要国际会议，1993年以来每年召开一次，已成为多媒体领域顶级盛典，大会致力于推动多媒体的研究和应用。

ACM Multimedia 2009 曾在北京举办，ACM Multimedia 2021 是该会议第二次在中国举办。

参考链接：

1. X-modaler: A Versatile and High-performance Codebase for Cross-modal Analytics, ACM Multimedia 2021.

2. ViDA-Man: Visual Dialog with Digital Human, ACM Multimedia 2021.

3. Unsupervised Person Image Generation with Semantic Parsing Transformation，CVPR 2019.

4. Unpaired Person Image Generation with Semantic Parsing Transformation, TPAMI 2020.

5. Down to the Last Detail: Virtual Try-on with Fine-grained Details. ACM MM 2020.

6. Boosting Image Captioning with Attributes, ICCV 2017.

7. Exploring Visual Relationship for Image Captioning, ECCV 2018.

8. X-Linear Attention Networks for Image Captioning, CVPR 2020.

如果觉得有用，就请分享到朋友圈吧！

△点击卡片关注极市平台，获取最新CV干货

公众号后台回复“CVPR21检测”获取CVPR2021目标检测论文下载～

极市干货

神经网络：视觉神经网络模型优秀开源工作：timm库使用方法和最新代码解读

技术综述：综述：神经网络中 Normalization 的发展历程｜ CNN轻量化模型及其设计原则综述

算法技巧（trick）： 8点PyTorch提速技巧汇总｜图像分类算法优化技巧

# CV技术社群邀请函 #

△长按添加极市小助手

添加极市小助手微信（ID : cvmart4）

备注：姓名-学校/公司-研究方向-城市（如：小极-北大-目标检测-深圳）

即可申请加入极市目标检测/图像分割/工业检测/人脸/医学影像/3D/SLAM/自动驾驶/超分辨率/姿态估计/ReID/GAN/图像增强/OCR/视频理解等技术交流群

每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企视觉开发者互动交流~

觉得有用麻烦给个在看啦~

登录查看更多

相关内容

ACM Multimedia

关注 311

ACM 国际多媒体大会（英文名称：ACM Multimedia，简称：ACM MM）是多媒体领域的顶级国际会议，每年举办一次。

刚刚！CCF-A类会议计算机系统领域ASPLOS 2022最佳论文出炉！

专知会员服务

37+阅读 · 2022年3月4日

2020 ACL Fellow名单出炉！华为刘群、中科院自动化所宗成庆当选！

专知会员服务

10+阅读 · 2022年1月7日

【重磅】2022年IEEE Fellow出炉！ 310位新晋升会士！王海峰、田永鸿、汪玉、申恒涛等七十九位华人当选！

专知会员服务

7+阅读 · 2021年11月24日

多媒体顶会ACM Multimedia 2021各大奖项出炉！北航获最佳论文，NTU获最佳学生论文

专知会员服务

15+阅读 · 2021年10月23日

信息检索顶会SIGIR2021最佳论文奖出炉，荷兰Radboud大学最佳论文，山东大学最佳学生论文

专知会员服务

24+阅读 · 2021年7月14日

最新！NLP顶会NAACL2021最佳论文出炉！罗切斯特-腾讯获最佳长论文

专知会员服务

30+阅读 · 2021年6月6日

【重磅】2021年IEEE Fellow出炉！ 282位新晋升会士！七十多位华人当选！

专知会员服务

23+阅读 · 2020年11月25日

多媒体顶会ACM Multimedia2020各大奖项出炉！南开获最佳论文，西安交大获最佳学生论文

专知会员服务

26+阅读 · 2020年10月16日

最新！CCF-A类人工智能顶会WWW2020最佳论文出炉！OSU最佳论文，北邮斩获最佳学生论文！

专知会员服务

27+阅读 · 2020年4月25日

AAAI 2020最佳论文公布，华盛顿大学、AllenAI、NTU、清华、港大等斩获

专知会员服务

51+阅读 · 2020年2月8日

主编谭铁牛院士领衔，自动化所新刊MIR首届编委会国内编委会议圆满召开

中国科学院自动化研究所

0+阅读 · 2022年2月16日

刚刚，2021 ACM Fellow放榜！李飞飞、谢涛、刘铁岩等13名华人学者当选

极市平台

0+阅读 · 2022年1月19日

最新ACM Fellow名单发布，唐杰等4名中国大陆学者当选，中国机构入选人数排名第二

学术头条

0+阅读 · 2022年1月19日

自动化所宗成庆研究员当选 ACL Fellow

中国科学院自动化研究所

0+阅读 · 2022年1月7日

IEEE Fellow梅涛：计算机视觉的前沿进展与挑战

CVer

0+阅读 · 2021年12月16日

2021 ACM杰出科学家揭榜：清华刘奕群、上科大虞晶怡等19位华人学者入选

新智元

0+阅读 · 2021年12月16日

【喜讯】2022 IEEE Fellow名单公布，学会多位专家入选

中国图象图形学学会CSIG

0+阅读 · 2021年11月24日

2022 IEEE fellow 重磅出炉：王海峰、山世光、童行行等31位中国计算机科学家入选

学术头条

0+阅读 · 2021年11月24日

热烈祝贺中国图象图形学学会机器视觉专委会委员陈熙霖教授当选ACM Fellow！

CSIG机器视觉专委会

0+阅读 · 2019年12月12日

CSIG机器视觉专委主任林宙辰教授当选2018年度国际电气与电子工程师协会会士（IEEE Fellow）

CSIG机器视觉专委会

0+阅读 · 2017年11月22日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

后选择技术的理论及其在量子信息中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

跨领域整体模式分类理论研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

国家天文台科研亮点基金成果多媒体展示和交互体验

国家自然科学基金

1+阅读 · 2013年12月31日

基于结构化集学习的视频稀疏编码理论与技术

国家自然科学基金

0+阅读 · 2012年12月31日

量子关联及其应用

国家自然科学基金

0+阅读 · 2012年12月31日

基于石墨烯的自旋量子比特的理论研究

国家自然科学基金

0+阅读 · 2012年12月31日

图像统计特性的随机场建模与应用

国家自然科学基金

0+阅读 · 2012年12月31日

多媒体问答中的若干关键问题研究

国家自然科学基金

0+阅读 · 2011年12月31日

量子计算与量子信息的若干理论探讨和实验检测

国家自然科学基金

0+阅读 · 2008年12月31日

Multimodal Token Fusion for Vision Transformers

Arxiv

3+阅读 · 2022年4月19日

Dual-Key Multimodal Backdoors for Visual Question Answering

Arxiv

1+阅读 · 2022年4月18日

I Cannot See Students Focusing on My Presentation; Are They Following Me? Continuous Monitoring of Student Engagement through "Stungage"

Arxiv

0+阅读 · 2022年4月18日

Ingredient Extraction from Text in the Recipe Domain

Arxiv

0+阅读 · 2022年4月18日

Designing Creative AI Partners with COFI: A Framework for Modeling Interaction in Human-AI Co-Creative Systems

Arxiv

0+阅读 · 2022年4月15日

Spatio-Temporal-Frequency Graph Attention Convolutional Network for Aircraft Recognition Based on Heterogeneous Radar Network

Arxiv

0+阅读 · 2022年4月15日

Uncertainty-Aware Text-to-Program for Question Answering on Structured Electronic Health Records

Arxiv

0+阅读 · 2022年4月15日

Unsupervised Probabilistic Models for Sequential Electronic Health Records

Arxiv

0+阅读 · 2022年4月15日

A Survey on Multi-modal Summarization

Arxiv

49+阅读 · 2021年9月11日

On the Opportunities and Risks of Foundation Models

Arxiv

30+阅读 · 2021年8月18日

VIP会员