会员服务 ·

一副眼镜不能叫「元宇宙」！讯飞1024重磅发布虚拟人交互平台1.0

2021 年 10 月 25 日 新智元

新智元报道

编辑：桃子好困

【新智元导读】今年的1024全球开发者大会，科大讯飞重磅推出开放平台2.0版本，开放441项AI能力，并率先发起能够实现情感贯穿的虚拟人交互平台1.0。目的只有一个：打造未来属于每个人的人工智能！

每一个开发者背后都有各种奇思妙想。

「如果《三体》中的科幻场景能够实现，他们的生活就会被彻底改变。」

这是一名七年级少年开发者未来想要实现的愿望——物联网。

物联网若能完全实现，那么就相当于实现了《三体》里的场景，任何地方都可以显示图像、播放音频，甚至能操控，成为一个电脑。

这位来自合肥市第四十八中学方俊懿便亲身实践，用arduino单片机为货架制作了一个「数码管显示系统」，帮助爸爸公司的仓库分拣员分拣货物。

这位少年开发者仅依靠一个小小的单片机系统，一百行左右的代码，就让分拣货物变得更加轻松、方便。

除了七年级的开发者，我们身边还有千千万万开发者，他们汇聚一道洪流，只为了实现最初的梦想。

梦想的实现需要一个平台，讯飞开放平台2.0平台便是最好的机遇。

今天，2021年科大讯飞全球1024开发者节「AI共生·新征程」正式召开。

在这场AI开发者的人工智能盛会，科大讯飞董事长刘庆峰正式发布了讯飞开放平台2.0，讯飞虚拟人交互平台1.0。

开发者梦想种子在这里播种，等待听见花开的声音。

200万开发者「黑土地」来了

科大讯飞现在提供了400多项人工智能能力，给200多万人的开发者团队。

大会上，董事长刘庆峰正式发布讯飞开放平台的2.0战略。

对于开放平台1.0时代，科大讯飞把各种单项的人工智能能力提供给开发者，并且对合作伙伴进行各种培训交流，使他们能够更好的把这些能力用到各种应用里面去。

但是随着产业数字化的推进，传统的很多产业也非常需要人工智能。

开放平台2.0战略的核心是什么？

开放平台2.0最重要的是从二维升级到三维，原来的二维是科大讯飞和开发者，三维是科大讯飞，各个行业的龙头和开发者一起。

首先是由科大讯飞和行业龙头共同来打造一个行业的人工智能基线底座。这个底座是能够把行业的重要的一些专家知识融入进来。

即便有了数字底座，还不能完全去解决行业中的问题。

因为行业面对的问题是比较多元化，同时真正的把一个技术或是一个方案用到行业里面去，行业里面还需要跟不同的软硬件环境去适配，这样的话才能够形成完整的解决方案。

未来，讯飞将联合行业中最有资源最有平台能力的行业龙头共同来搭建行业的基线底座。

同时把众多场景开放出来，一方面定义场景开放点，面向广大的开发者，另外一方面让广大开发者可以把各种创意汇聚起来，通过吸取他们的创意，形成我们整个平台。

整个平台是跟开发者用合理的利益共享的模式提供给各行各业。

科大讯飞将用低代码和零代码的方式来提供，这样就可以让各个领域的开发者，各个行业的应用几乎不用了解核心技术，通过直接拖拽，直接可视化的逻辑处理，就可以解决一个又一个行业的关键问题。

为了落实2.0战略，刘庆峰现场提出了包括标准体系，测试平台、认证体系、培训平台、低代码开发平台，开发者大赛6大举措。

所以这次科大讯飞已经提出18个主要赛道，从教育、医疗、智慧城市到农业到环保等各个领域。

和去年相比，今年的开发者大赛可谓是异常火爆，参赛团队从9千多支一下子增加到了2万2千多支，比例达到了146%。

比赛的赛道也增加到了356%，达到了105个。

本次开发者大赛不仅有算法、应用以及各种类型的编程，甚至还有关于人工智能的辩论赛。

刘庆峰表示：「人工智能给生产生活带来的改变，给这个世界带来的温度都赋能在了开发者大赛之中。」

一副眼镜就叫「元宇宙」？

今年科技领域最火的概念莫过于「元宇宙」了。

但是实现元宇宙并不是仅仅依靠一副眼镜或者一身装备就可以实现的。

正如「头号玩家」中的所呈现场景那样，我们在另一个世界——元宇宙中，如何去和虚拟人实现无缝、有真正的情感的交流？

这也是至关重要的。

因为虚拟人是以情感贯穿的音色、语气、表情、嘴形、眼神、动作、衣品、环境等要素实现的真正像人一样的交互。

科大讯飞目前正在做的就是这件事。春晚拜年，新闻播报，讯飞的虚拟主持人我们最熟悉不过了。

我们可以实现虚拟人快速定义，自己设定虚拟主持人的形象，包括眼睛、嘴巴、表情等等，做完之后马上就可以捏出一个虚拟人。

当然讯飞也可以做3D虚拟人，可以实现微表情的动作。

然而，虚拟人的微表情是最难实现的，也是业界令人头痛的问题。

讯飞将来要用情感贯穿从文本语义到语气强调，再到面部表情等等的后台逻辑，让每个人能够在虚拟世界中感受到一个真实的助手，真实的合作伙伴。

因此，科大讯飞在全球1024开发者节上最先发起虚拟人交互平台1.0，其虚拟人的数量目前已经增加到54位。

这是一个多模感知平台，它不仅通过语音、手势、肢体语言，嘴型等各种能力来进行感知，同时还能测血压、心跳、脉搏等各种相关身体指数。

此外，虚拟人交互平台1.0还能够实现情感贯穿、多维表达、自主定制。

下围棋「懂」你，学习更「懂」你

刘庆峰表示，「人工智能其实还可以进一步，不光是刚才看到这些情感，其实它可以做到最精准的『懂』」。

这是最近在科大讯飞展馆中下围棋的机器人，它最大的能力是始终比你厉害那么一点点。

如果一个对手让你觉得高不可攀，是无法跟他学习。只有相较自己能力高一点，才能够成为一个真实的对弈围棋机器人。

AlphaGo当时需要一个人拿旗子进行对弈，而科大讯飞iFlyGo（飞狗）通过各种技术整合，是一个真实的对弈的机器人。

不仅有下围棋懂你的机器人，还有更懂你学习的讯飞智能学习机。

孩子可以在学习机上直接作答，作答过程中的数据，系统都会采集下来，用作后续的学习分析。

学习机依据这些答题数据以及知识点体系和课标的要求，给出了更精准的学情诊断，并基于最近发展区理论，为每个孩子给出了不同的更有针对性的学习路径。

让人懂你不易，让机器「懂」你难上加难，而科大讯飞却做到了这点。

这一切要归功于系统性‍创新。

从系统性创新，再看讯飞

刘庆峰表示，人工智要切实解决社会重大问题，必须要从单点应用突破到系统性创新。

当前，依靠单一技术已经无法解决问题，必须是一个复杂系统。

这当中，就需要系统性创新。

围绕系统性创新对AI科技树的成长推动，科大讯飞研究院院长胡国平在AI技术发布会上，提出实现系统性创新的三大关键路径：

一是重大系统性命题到科学问题的转化能力；

二是单点核心技术效果跨越应用鸿沟；

三是创新链条上各关键技术的深度融合，并将其转化为科学问题。

此外，科大讯飞还在四大领域取得了关键性的技术进展，包括端到端建模、无监督训练、多模态融合以及知识与算法的融合。

回看过往，2010年，讯飞首次推出了人工智能开放平台1.0，那时能提供的能力还只有3项。

到了2016年，讯飞提出了基于语音谱图和图像的相似性，成功将卷积神经网络应用于语音识别，提出DFCNN建模技术，将其拓展到图文识别任务上也取得了大幅提升。

现在，随着核心技术的进步和源头技术的创新，人工智能开放平台的能力已经达到了400多项。

以无监督训练来说，让机器能够在更少的数据和更少的人工标记下，还能自主学习到更多的知识，并且能实现更好的效果。

这，就是核心技术。

有了核心技术的提升，讯飞在最擅长的语音方面也有了质的飞跃。

以前，模仿林志玲的声音需要一周的时间，到后来一天就可以完成，再后来则需要三个小时。

现在，一句话足矣！

你说一句话，机器马上就能对这个声音进行模仿。

同样的，还是那一句话，机器也能识别出你的声音画像，大致猜出你的年龄、性格特点和喜好等等。

在语音识别和翻译方面，对于一个新的语种来说，现在用100小时的训就可以达到之前1万小时的效果。

目前，讯飞已经完成一套完整的多语种语音语言系统研发，包括60种语言的语音合成，69种语言的语音识别，56种语言的图文识别，在以及168种语言与中文的机器翻译。

效果如何呢？

和机器翻译界的老大哥Google相比，讯飞在35个语种的85%以上的人类交流场合中，都实现了超越，直取世界第一。

在过去的一年里，医疗助理已经看了2亿多个病人，给出了97万个修正诊疗，让安徽基层医生的合理诊断度从70分提到了80分。

不仅如此，讯飞的医疗助理在健康咨询上已经超过了96.3%的参加了国家考试的其他全科医生。

例如，通过非常简单的一种方式提前发现老人是否患有阿兹海默症。并且在发现之后还可以进行主动预防，推迟发病的时间，让老人们的晚年生活更加幸福。

今天，科大讯飞通过系统性的创新打造人工智能产业的新生态里面三个关键。

第一，科大讯飞继续坚持源头创新，持续推动人工智能技术的进步。

第二，从两方合作升级到三方合作，共创优质的行业解决方案。

第三，开放合作，共同迎接产业数字化的红利。

这些逻辑都将展现在科大讯飞的一个核心梦想：「打造未来属于每个人的人工智能。」

刘庆峰总结道，「我们的理念就是希望通过科大讯飞的源头技术创新和平台开放，跟所有的开发者一道来实现人工智能的最终梦想。帮助每个人，陪伴每个人，真正的让每一个人都站在人工智能的肩膀之上，来应对更伟大的全新时代到来。」

登录查看更多

相关内容

虚拟人

关注 4

元宇宙如何用区块链？韩国学者发布最新《元宇宙中的区块链》综述论文，涵盖108篇文献阐述区块链在元宇宙的五大技术方面

专知会员服务

79+阅读 · 2022年3月24日

《企业物联网平台技术白皮书（2022）》31页PDF，阿里云

专知会员服务

24+阅读 · 2022年3月23日

德勤中国《元宇宙综观——愿景、技术和应对》，50页pdf

专知会员服务

67+阅读 · 2022年3月8日

产业元宇宙白皮书（2021-2022）

专知会员服务

114+阅读 · 2022年2月18日

最新元宇宙白皮书：做虚实融合世界的赋能者

专知会员服务

110+阅读 · 2022年1月14日

产业元宇宙白皮书（2021-2022），32页pdf

专知

12+阅读 · 2022年2月18日

“AI+”赋能元宇宙，一文探讨智能交互的技术支撑

PaperWeekly

1+阅读 · 2022年1月28日

戴着眼镜算什么？元宇宙核心是AR世界

新智元

0+阅读 · 2021年12月31日

今天，黄仁勋摇滚真变身！英伟达抱紧元宇宙，全能阿凡达平台亮出3个虚拟人

THU数据派

0+阅读 · 2021年11月10日

不止于听！试试在元宇宙打工，讯飞听见发布智慧办公服务平台

新智元

0+阅读 · 2021年10月27日

基于语义分析的三维模型表面属性交互式编辑技术研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于空间感知的混合现实徒手自然交互技术研究

国家自然科学基金

1+阅读 · 2012年12月31日

自主虚拟人智能感知决策与真实感交互表现研究

国家自然科学基金

7+阅读 · 2012年12月31日

基于人机共建智慧平台的语义搜索引擎

国家自然科学基金

3+阅读 · 2011年12月31日

虚拟人的连续运动控制研究

国家自然科学基金

2+阅读 · 2011年12月31日

Enabling Dynamic and Intelligent Workflows for HPC, Data Analytics, and AI Convergence

Arxiv

0+阅读 · 2022年4月20日

Many Episode Learning in a Modular Embodied Agent via End-to-End Interaction

Arxiv

0+阅读 · 2022年4月19日

Artificial Intelligence for the Metaverse: A Survey

Arxiv

31+阅读 · 2022年2月15日

A Survey of Deep Reinforcement Learning in Recommender Systems: A Systematic Review and Future Directions

Arxiv

15+阅读 · 2021年9月8日

Deep learning for time series classification: a review

Arxiv

12+阅读 · 2019年3月14日

VIP会员