果然，武汉驶上了AI高速路

会员服务 ·

果然，武汉驶上了AI高速路

2021 年 12 月 19 日 量子位

博雯明敏发自凹非寺
量子位报道 | 公众号 QbitAI

要致富先修路。

在面向智能时代的转型中，武汉深谙此理。

这不，多模态人工智能产业联盟，为此而来。

中科院自动化研究所牵头，华为、武汉人工智能研究院提供技术支持。

再看其他联盟成员：武汉大学、华中科技大学、中移系统集成、爱奇艺、新华社技术局……都是产学研各界耳熟能详的名字。

它们聚集在武汉，搞了这个“大合体”的目的也很简单：

依靠和联盟成员的合作，要把多模态人工智能产业落地推进到底。

这是一个怎样的组织？

先从关键词解题。

“模态”。这是一个认知领域的概念，指某种信息的来源或形式，或者“某件事情发生、被感知到的方式”。

人的触觉、听觉、视觉、嗅觉，作为信息媒介的语音、视频、图像、文字等都可以被称之为是一种模态。

“ 多模态”一词则更多出现在计算机科学领域：当一个研究问题或数据集包含两种及其以上的模态数据类型时，它就被描述为 多模态 （Multimodality）。

而通过多模态进行交互和学习，一度被称为是“最接近类人脑智能的方式”。

究其原因，还是人脑的感知和认知过程，本质也是一个多种感官信息融合处理的过程。

比如，人可以同时利用视觉和听觉信息理解说话人的情感：

因此，人工智能领域近几年的一个热门方向，就是学习不同模态信息之间的关联，处理和理解多模态信息。

并且，这些技术已经应用在了我们生活中的各个方面。

比如大家都熟知的自动驾驶技术，就是基于视觉摄像头、激光雷达、超声传感、地图等多种模态的传感器实现的：

还有一些视频网站的智能化推荐，也是通过分析视频封面、视频抽帧和文本几个模态的信息对视频质量进行评估：

此外，通过语音识别和视觉感知理解语义的智能音箱、结合产品图像和语义属性进行推荐的智能客服、融合人脸声音虹膜等多种信息进行身份识别的安全系统，都是多模态技术的体现。

所以多模态人工智能产业联盟会聚集各行各业的成员，也就再自然不过。

牵头的中科院自动化研究所，国内最早开展类脑智能研究的国立研究机构，拥有3个国家级重点平台和数十个重点实验室及研究中心。

今年9月份，中科院自动化研究所在华为全联接大会发布了全球首个三模态大模型紫东.太初。这一模型拥有千亿级别的参数，能够跨越视觉-文本-语音三种模态进行统一编码。

在今年的两项AI顶会，ACM Multimedia和ICCV的视频语义理解与视频描述赛道中，“紫东.太初”拿下两项冠军，在跨模态理解与生成性能上都展现出了目前业界的最高水准。

多模态联盟将基于紫东.太初，孵化更多行业应用，并进一步探索通用人工智能新路径。

联盟的理事长单位是中科院自动化研究所。

另外三位副理事长，也是多模态领域的重要玩家。

他们分别来自华为、爱奇艺和武汉昇腾人工智能生态创新中心。

其中，昇腾AI平台包括Atlas系列硬件、异构计算架构CANN、全场景AI框架昇思MindSpore、昇腾应用使能MindX以及AI应用使能ModelArts等，为开发者和企业高效使用AI能力，创新场景化AI应用，加速千行百业智能升级，可以说是目前业界极其领先的全场景AI平台。

爱奇艺也在多模态领域深耕多年。

依据自身的数据场景，爱奇艺构建了PPC视频-中文描述的数据集，基于这一数据集开发的跨模态搜索项目能够通过中文语句搜索视频中的内容。此外，还有能够基于视频内容自动生成语音解说的视频-台词-描述的跨模态模型。

此外，与其他AI生态组织中不同，多模态人工智能产业联盟当中，确实包含了诸多产业一线力量，通过完整名单，就能明显感知：

会员单位由湖南省马栏山计算媒体研究院、依瞳科技（深圳）有限公司、魏桥国科研究院、拓维信息股份有限公司、斗鱼、长江计算、武汉大学、华中科技大学、极目智能、武汉微创光电股份有限公司、武汉光庭信息技术股份有限公司、武汉兴图新科电子股份有限公司、武汉唯理科技有限公司、三峡电能能源管理（湖北）有限公司、普宙飞行器科技（深圳）有限公司、传神语构成。

在成立仪式现场，联盟成员也表达了目标和雄心。

希望从各自擅长的领域展开合作，通过这样一种产业聚合的模式，解决专用AI走向通用AI的挑战。

不仅是产学研融合，由于联盟成员几乎涉及到各行各业，AI创新成果也能及时落地到行业中，带来实际价值，并辐射到更广阔领域。

为什么是现在？为什么是武汉？

实际上，了解了“多模态”，也就知道并非新事物新概念。

于是问题也就来了——

那为什么多模态人工智能产业联盟的成立，会是现在？联盟基石“紫东.太初”是在武汉孵化？

个中缘由，其实包含了三方面。

因为这是在聚集了天时地利人和多方面因素、谋定而后动的一个成果。

首先来看天时——

多模态人工智能产业联盟的成立，是顺应AI发展的大势所趋的结果。

现下，AI发展的最大趋势是什么？

是从单点技术走向真正的通用技术、从单模态走向多模态、从大模型走向超大模型。

单一算法的人工智能应用已逐渐不能满足应用需求，融合计算机视觉、自然语言理解、智能决策多方面能力的通用人工智能，开始大放异彩。

AI处理任务也不再只是收集单一信息，而是跨越图像、文字、语音、语义等多种模态，从中抽象出更高层的特征向量来解决问题。

以此同时，随着任务的复杂程度变高，算法模型的规模也在日渐扩大。

这些趋势上的变化，在应用层面上也早有显露。

比如AI最初的商用，在视觉和核验身份等方面，但现在，衣食住行用方方面面，都开始有AI渗透的影子。

背后原因，正是因为它在不断向多模态、通用性上靠拢。

而且这还可能只是开始的开始。

其次，地利，武汉的优势不言而喻。

作为长江经济带核心城市、中部崛起战略支点，国家对于武汉科技发展的重视程度可见一斑。

2020年9月，科技部正式发文批复，支持武汉建设国家新一代人工智能创新发展试验区。

不到一年时间，2021年5月31日，武汉人工智能计算中心正式竣工并投入运营，成为科技部批复的18个国家人工智能创新发展试验区中，最早落地的一个。

该人工智能计算中心，基于昇腾AI基础软硬件平台建设，在原来100P的基础上已扩容高达200P FLOPS。

什么概念？

要知道，100P FLOPS就可相当于50万台电脑加起来的算力，每秒运算次数达百亿亿次。

如此强悍的算力，一方面可以支持一个城市来运行许多重大AI项目，比如自动驾驶、智慧交通、智能制造、城市大脑等等。另一方面，作为智能时代的城市基础设施，也是支撑其他场景下AI落地的关键所在。

这也是为什么，在全国各大城市争相建设AI算力大型基建的背景下，武汉会抢占先机、拔得头筹，在人工智能计算中心的建设中，如此坚决果断。

当然，多模态人工智能产业联盟在武汉成立，也就顺利成章——毕竟计算中心已经有了，就意味着黑土地已经准备好了。

最后，人和。

天时也好，地利也好，背后都是武汉自身对于发展AI、抓住智能时代发展机遇的渴求。

今年7月，武汉出台了《武汉国家新一代人工智能创新发展试验区建设若干政策》，提出8条激励措施，最高提供5亿元资金支持。

具体措施上，武汉开创了人工智能一中心四平台的“武汉模式”。

“中心”就是人工智能计算中心。

四大平台则是公共算力服务平台、应用创新孵化平台、产业聚集发展平台、科研创新和人才培养平台，主要面向千行百业。

目前，武汉已集聚超过500家人工智能企业，相关产业规模超过200亿元。预计2023年武汉AI核心产业规模将超过500亿元，带动相关产业规模超过5000亿元。

而发展之关键，不仅要有基础设施，还在于人才。

作为中国四大科教中心之一，武汉从来不缺人才，不然也不会“惟楚有才”。

而它现在进一步鼓励高校和龙头企业，做好产学研结合。例如创建人工智能重点实验室、研究院等创新科研组织，更是为了进一步培养关键科技人才。

加之这些年，武汉本身在科技产业发展上倾注了诸多心血。

比如吸引了华为、小米、联想等科技龙头企业落户，还打造了“光谷”这一高新技术发开区名片。

种种努力，桩桩件件，都是对智能时代机遇的志在必得。

如果说曾经，武汉和湖北，被质疑过“错失”互联网发展机遇，那么现在，AI时代大潮中，就得加倍补回来。

所以回过头来再看人工智能计算中心的建立、多模态人工智能产业联盟的成立，似乎都水到渠成，都是武汉要抓住AI机遇更快发展的努力和成果。

而剩下的问题，只有一个，武汉的干劲，用对地方了吗？

AI高速路上的武汉

时代级的机遇，往往成果也需要更长时间来等待。

但从大方向上，武汉的干劲，使在正确的方向上。

从AI发展维度来看，经历了技术研发、商用检验，现在正在进入产业场景下的大规模落地进程中。这种落地，深入各个场景，会与多元产业的方方面面结合，就像语音之于交互，视觉之于视频，覆盖到产业的方方面面。

所以“多模态人工智能产业联盟”因何成立，就是因为武汉看到了这种趋势而成立，说明武汉准确把握了AI发展的趋势，给产业发展提供了抢占先机的机会。

其次，从经济发展层面来说，都说AI是新动能，提供了新机遇，但如果能在发轫期就把机遇变成机制，产生飞轮效应，就能培养基础生态。

现在，“多模态人工智能产业联盟”就是这样的基础生态，它可以提供更多的需求、机遇和岗位。

一方面，可以最大限度留住武汉辈出的人才；另一方面，还能凭借各项人才政策，吸引更多优秀的人才前来，最终形成人才-产业生态-经济发展的正向循环。

最后，要致富先修路，AI时代也一样。

而AI时代的“高速路”、基础设施是什么？归根溯源，还是人工智能计算中心。

武汉，正是准确预判了这种预判，在昇腾AI的加持下，各大一线城市在智能时代的竞速中，率先把握住了这种机遇。

于是九省通衢武汉，现在也是AI高速路上的武汉。

— 完 —

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容，未经账号授权，禁止随意转载。

「智能汽车」交流群招募中！

欢迎关注智能汽车、自动驾驶的小伙伴们加入社群，与行业大咖交流、切磋，不错过智能汽车行业发展&技术进展。

ps.加好友请务必备注您的姓名-公司-职位哦~

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~

登录查看更多

相关内容

模态

关注 3

【百图生科宋乐博士】人工智能赋能医药研发

专知会员服务

29+阅读 · 2022年3月17日

人工智能AI中台白皮书（2021年），45页pdf

专知会员服务

288+阅读 · 2021年9月18日

自动化所研发全球首个图文音三模态预训练模型，让AI更接近人类想象力！

专知会员服务

35+阅读 · 2021年7月8日

5G+智能时代的多模搜索技术

专知会员服务

22+阅读 · 2021年4月1日

视频处理与压缩技术

专知会员服务

36+阅读 · 2021年2月20日

AAAI 2020 | 南京大学×滴滴：基于弱监督学习的网约车用户体验提升

专知会员服务

15+阅读 · 2020年2月26日

《信息技术人工智能面向机器学习的数据标注规程》，中国电子工业标准化技术协会

专知会员服务

59+阅读 · 2019年12月14日

【MLA 2019】在微软小冰做好玩儿的研究，微软小冰首席科学家宋睿华

专知会员服务

22+阅读 · 2019年11月6日

【2019 北京智源大会】NLP、多模态智能和机器学习何晓冬/京东集团技术副总裁

专知会员服务

48+阅读 · 2019年11月1日

智能客服在腾讯游戏的实践，腾讯AI平台部智能客服方向技术负责人唐国华，第八届全国社会媒体处理大会SMP2019

专知会员服务

37+阅读 · 2019年10月24日

长城汽车「向死而生」式的智能化布局

机器之心

3+阅读 · 2022年1月24日

新身份！自动化所“紫东太初”大模型担任央视音乐节目人工智能导师

中国科学院自动化研究所

1+阅读 · 2022年1月9日

北大毕业的山区小学校长，给清华老朋友派了一个紧急任务

量子位

0+阅读 · 2021年12月29日

分分钟get「隔空传手」技能，网友：我想试试别的东西…

量子位

0+阅读 · 2021年12月11日

北大正式成立智能学院，AI视觉大牛朱松纯任院长

量子位

0+阅读 · 2021年11月28日

CCTV | “紫东太初”三模态大模型打破传统模式开创新一代人工智能新起点！

中国科学院自动化研究所

2+阅读 · 2021年11月16日

《科技日报》专访｜我国研发首个千亿参数三模态大模型“紫东太初”

中国科学院自动化研究所

0+阅读 · 2021年10月5日

自动化所千亿级三模态大模型“紫东太初” 首次实现语音生成视频等功能

中国科学院自动化研究所

2+阅读 · 2021年9月26日

自动化所研发全球首个图文音三模态预训练模型，让AI更接近人类想象力！

中国科学院自动化研究所

0+阅读 · 2021年7月7日

AI时代，如何让你的电脑比男朋友还贴心？

微信AI

0+阅读 · 2020年9月9日

基于动态因子图模型的城市道路场景理解

国家自然科学基金

1+阅读 · 2013年12月31日

面向多模态信息有效利用的机器学习方法研究

国家自然科学基金

5+阅读 · 2012年12月31日

基于词袋模型的多特征融合物体识别方法研究

国家自然科学基金

3+阅读 · 2012年12月31日

面向物联网的多网络多终端协同架构和控制机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于二维和三维数据融合的室内物体识别方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

融合多种表型相似性和基因相似性的疾病关联基因预测方法

国家自然科学基金

1+阅读 · 2011年12月31日

基于光电子/微电子混合集成的视觉芯片

国家自然科学基金

0+阅读 · 2011年12月31日

基于表观特征的目标人体识别研究

国家自然科学基金

1+阅读 · 2011年12月31日

面向智能视频监控的高度多摄像机信息融合

国家自然科学基金

2+阅读 · 2009年12月31日

带有大范围跟踪的增强现实头盔显示系统

国家自然科学基金

3+阅读 · 2008年12月31日

Parallel Newton-Krylov-BDDC and FETI-DP deluxe solvers for implicit time discretizations of the cardiac Bidomain equations

Arxiv

0+阅读 · 2022年4月20日

An averaged space-time discretization of the stochastic $p$-Laplace system

Arxiv

0+阅读 · 2022年4月19日

Optimal Coding Theorems in Time-Bounded Kolmogorov Complexity

Arxiv

0+阅读 · 2022年4月18日

I Cannot See Students Focusing on My Presentation; Are They Following Me? Continuous Monitoring of Student Engagement through "Stungage"

Arxiv

0+阅读 · 2022年4月18日

Positive definite functions on a regular domain

Arxiv

0+阅读 · 2022年4月17日

Latent Gaussian Model Boosting

Arxiv

0+阅读 · 2022年4月14日

Cross-Domain Few-Shot Graph Classification

Arxiv

13+阅读 · 2022年1月20日

Invariant Information Bottleneck for Domain Generalization

Arxiv

15+阅读 · 2021年12月10日

Cross-Domain Adaptive Clustering for Semi-Supervised Domain Adaptation

Arxiv

19+阅读 · 2021年4月19日

Unsupervised Cross-Modality Domain Adaptation of ConvNets for Biomedical Image Segmentations with Adversarial Loss

Arxiv

10+阅读 · 2018年4月29日

VIP会员