RTC+AI+5G，这届 RTC 大会有点意思

2019 年 11 月 2 日 InfoQ

这是一条时光长廊，通向 RTC 大会的现场。

在 10 月 24、25 日两天，3000 人次走过这条时光长廊，聆听了来自声网、W3C、搜狗、微软、阿里达摩院、字节跳动、Hulu、优酷、沪江 CCTalk、bilibili、数美科技、相芯科技、声网 Agora、Meetecho、AVS、北京大学、上海交大等公司、高校、组织机构的 100 余名技术领袖、音视频技术大咖、产品创新专家的精彩分享。

不得不说，无论是从议题设置、大咖邀请、场景布置、游戏暖场等环节里，都看出了这届 RTC 的“小心思”。

嗯！这届 RTC 有点意思！

1 亮点之一：峰会大咖云集，RTC 前沿趋势尽览

在 10 月 24 日上午的峰会上，由声网创始人兼 CEO 赵斌发表开场演讲。 “实时互联网是互联网企业必需的工具和功能。我们希望通过这样的大会让开发者使用实时音视频功能像使用水一样简单。”这是赵斌在接受媒体采访时描述的 RTC 大会在他心目中的定位。

声网创始人兼 CEO 赵斌

今年是 RTC 大会的第五年，整个会场里谈论 AI 和 5G 的参会者特别多。正如赵斌在演讲中介绍的：“我们看到 AI 在实时音视频里更广泛的应用，无论是 AI 降噪还是回声消除，甚至在网络带宽预测等方向上，都有着巨大的和普遍的使用场景，这是 AI 在实时音视频方面使用能力的觉醒，我们也开始加深在这方面的探讨。”

小编解读：从目前 AI 与 RTC 的应用来看，其主要结合点有：语音分析、语音机器人、计算机视觉、RTC 优化。声网近年来一直在积极推进教育、社交、游戏、IoT、医疗等行业的合作，并在不同行业应用中提供了 100 多个场景化解决方案，这个数量还在持续增加。

在教育行业的在线教育场景中，老师与学生互动效果关联着教学质量。因此，声网推出了支撑高清、稳定、高并发的互动音视频解决方案，并与 AirCourse 爱课、作业盒子等教育企业先后推出了“超级小班课“模式。一方面，老师大班直播授课时流畅、稳定；另一方面，到互动环节时，可无缝衔接小班助教，确保学生的被关注度与互动效果。

在 IoT 领域，声网则关注了智能硬件设备进行互动操作时，对于低功耗、稳定性的要求，推出智能硬件专用的低功耗 SDK，并集成于小天才手表、小米音响、亮亮视野等智能设备。赵斌认为，实时音视频是一种通用能力，而作为服务商，需要持续推动能力与具体场景碰撞，并通过技术上的改进与迭代实现与场景的深度融合。

声网首席科学家钟声分享了“实时视频技术的现状与未来”。在会后的采访中，他也提到：“去年 RTC 大会我也参加了，当时也做了一个报告，列出了几大挑战。今年当我重新审视一下去年的挑战以及这一年来声网做出的努力。从效果来说，在音视频领域不卡不糊不延时这方面，又取得了非常多的进步。随着人工智能时代的来临，再加上 5G 的兴起，那么 RTC+AI+5G 会是什么样？未来又会面临一些什么样的问题？这是我们一直在思考，并时刻做好准备去解决的问题。”

声网首席科学家钟声

在 AI 与 RTC 技术的融合方面，声网也正进行探索，视频“超分辨率”——通过深度学习来提高其分辨率，进而改善实时视频图像质量的技术就是其中之一。超分辨率主要应用于将传输过程中，因带宽及性能限制导致的低码率视频质量复原并提升分辨率。“声网已经解决了超分辨率应用中既要细节生成效果好、又要深度学习算法模型足够小，能在移动端设备上支持实时应用、还能抑制一定的编码失真噪声等技术难题。”

小编解读：超分辨率是计算机视觉里比较底层的一个问题，可以理解为将低分辨率、低清晰度的东西变成高分辨率、高清晰度的东西。现在超分辨率技术得益于深度学习的算法，尤其近几年生成对抗网络的兴起，能够根据内容假想出一些东西来。比如说一片草坪，有可能生成一些草尖出来，但其实本来的没有的。这些假的细节是符合人的视觉感受的。这就是现在超分辨率技术利用人工智能算法的主要场景。钟声提到，“我们在这方面也做了一些工作，我知道有一些公司或者是友商也在做类似的技术，目前是在云端或者在服务器端实现的，比如离线的处理等。但是对于声网而言，我们要做的是实时处理，相对而言挑战更高一点。”

同时，针对 RTC 行业内服务质量无法有效量化的问题，声网发布了“水晶球”产品，将其 RTC PaaS 服务的各项运行质量指标可视化展现给客户。声网提供 QoE、QoS 实时数据统计、用量及区域分布分析，问题调查工具及质量监控报警服务，帮助客户和开发者能够及时、快速判断声网实时 RTC 服务的业务运行状态和质量效果。

2 亮点之二：分论坛聚焦行业痛点，解读技术实战经验

本次大会上发布了多项最新研究成果，包括声网 Agora 技术 VP 高泽华宣布声网将开源抗丢包音频编解码器 SOLO，该编解码器兼容 WebRTC，可让实时音频交互获得更高质量的音质、更低的延时。

声网 Agora 技术 VP 高泽华

InfoQ 小编在之前采访高泽华的时候，也问到了他关于 RTC 未来发展的看法，他提到，“RTC 其实还处于高速发展中，在我看来，任何一个技术点都是值得深挖的。我举一个最简单的例子，虽然我们现在已经有 4 个摄像头了，但是我还是觉得拍的照片跟我人眼看到的不一样。技术的发展还有很大的空间，而这其中每一个环节都是一个挑战。”

除了声网的技术专家带来的分享之外，本届大会论坛内容还涵盖 RTC 技术与新一代信息技术结合的发展研究，如实时视频、实时音频、实时传输、视频内容检索与推荐、实时交互等层面与 AI 结合的落地应用；5G 对 RTC 技术的革新及面临的问题；基于多种实时识别和动态捕捉的能力；人机的实时交互将走向何处等内容。来自 W3C、微软小冰、优酷、相芯科技、声网、北京邮电大学等公司的技术大牛，从 5G、实时感官系统、智能图形技术、6DoF、实时传输技术等角度带领开发者们一起拓宽技术认知，看到下一代 RTC 技术的新趋势。

以优酷高级算法专家盛骁杰的分享为例，5G、8K 时代的加速到来，将极大地缓解视频传输带宽和终端解码能力的约束。而 6DoF 视频则在 360 度 VR 视频的基础上更进一步，将传统平面视频在分辨率维度的清晰度提升转化为高自由度的空间信息量的提升，并通过可交互式视频体验突破移动端显示分辨率对 5G 时代视频体验的约束，提供了更多的想象空间。正如盛骁杰在演讲结束时提到的：“5G、8K 和 AI ，包括异构计算能力的提升，未来将极大地改善 6DoF 视频在各个业务方面的瓶颈，使得用户的体验能够越来越好。”

优酷高级算法专家盛骁杰

3 亮点之三：精心的布置，充满趣味的 Workshop，让参会者体验升级

每年的 RTC 大会上都有一个「保留节目」，就是 Workshop。不同于黑客马拉松，Workshop 更像是一个技术新手的线下集训营，通过几个小时的集训，帮助想要学开发的小白能够快速实现从 0 到 1，完成简单的开发任务。

自 2015 年开始以来，WebRTC 标准之父、IETF 的参与者 Daniel C. Burnett 都亲自作为培训导师；分享的主题也紧贴开发需求，例如：WebRTC API 的应用、SRTP 在内的媒体协议、DTLS 及隐私保护、媒体流和音视频轨道新功能介绍、WebRTC 底层 API 接口介绍、WebRTC 的新发展……正因如此，每年的 Workshop 环节都让开发者格外兴奋，100 人的场子场场爆满。

而今年 RTC 大会的 Workshop 环节当然也没有让大家失望，来自 Janus 开源项目的作者 Lorenzo Miniero 、前新东方集团音频技术专家李超和声网 Agora 的音频算法工程师赵晓涵带来了 4 个主题的分享，包括：