腾讯云音视频技术开发实战沙龙:干货满满,收获颇多

2018 年 4 月 27 日 51CTO博客

近年来,得益于移动互联网的普及和智能终端设备的广泛应用,短视频、直播、在线教学等各类形式的音视频通信模式风靡大众,成为人们日常沟通的新模式。


音视频功能为用户带来了沟通的便捷性,也启发了应用平台基于音视频功能开拓业务模式的创新思路。


不可否认的是,使用起来很“普遍”的音视频通话功能或者是使用起来很“酷”的短视频功能,在底层技术开发上却有“千山万水”需要踏遍。


腾讯凭借在 QQ、腾讯视频等海量业务发展过程中,在音视频领域多年积累的核心技术与优势能力,集成了一体化的云视频解决方案。


为包括在线教育、视频社交、视频网站新媒体、广电网络电视等应用领域,提供囊括基础网站及数据,内容生产及分发,用户及内容运营的一揽子服务,可以说是音视频行业的领军人物。


对于音视频技术研发中的高门槛、重投入的痛点,腾讯云+社区推出了“音”你而来,“视”而可见--音视频技术开发实战沙龙活动。


在活动中, 腾讯视频云资深产品经理王奇,腾讯音视频实验室高级工程师张轲, OnVideo 视频创作平台 CTO 刘歧,腾讯高级产品经理董燚,腾讯视频云终端技术总监常青,进行了精彩演讲。


腾讯视频云产品全景


腾讯视频云高级产品经理王奇


2011 年毕业后,先后在华为、网宿及腾讯从事产品经理工作,先后负责无线网通信、直播、互动直播与实时音视频等产品的需求规划、市场分析、宣传推广工作,近距离的了解并提炼客户需求,以较合理的方式实现,对音视频行业的发展趋势有较深理解。


从视频行业的发展来看,从黑白到彩色电视,从线上点播视频到直播千播大战,从连麦互动到实时音视频沟通,视频一直在解决用户信息获取的痛点。


在未来娱乐的同时是否能结合社交,或者满足用户认同感和自我尊重的获得,将会是用户粘性能否提高的一个关键点。


信息获取方面,内容是最为重要的,短视频继直播之后崛起,不无道理;最后如何结合新的行业技术,从内容的产生到内容的消费,进行闭环,是腾讯云规划的一个重点。


十余年来,腾讯云为 QQ、微信、QQ 空间等业务提供互联网服务能力,为企业提供公有云、混合云、专有云、金融专区等云服务,包含 IaaS、PaaS、SaaS。


并提供万象优图、人脸识别、大数据分析、机器学习、音视频技术、安全防护等全球领先的互联网技术。


同时向不同垂直行业的客户(涵盖政务、电子商务、O2O 服务、游戏、视频直播以及互联网金融等)提供优质的行业解决方案。


作为腾讯连接互联网生态的重要桥梁和开放战略的重要组成部分,腾讯云坚信以高速(speed)、稳定(stability)、安全(security)为竞争核心的 3S 品牌理念,继续加强云基础设施投入,全力支持各行各业的合作伙伴在“互联网+”领域的实践,共建云端生态。


接下来,王奇主要对点播、直播、实时音视频、短视频,以及视频+AI 五个产品进行了详细介绍。

2018 腾讯云视频及通信产品矩阵图


点播


根据制作成本、播放方式,大致可以分为四类:PC 端的视频,如优酷、土豆、腾讯视频等;传统广电,如芒果 TV 和 CNTV;最近火爆的短视频;在 2015、2016 年特别火的直播应用,可以把直播的内容录制下来,转成点播。


腾讯云的点播支持 UGC 内容、版权视频、自媒体内容、直播录制。可以通过短视频的 SDK、WebSDK、本地上传、API 上传,传到云端,进行冷热存储和视频的媒资管理。


可以对点播的内容进行区分,如果不需要进行在线播放,就把它作为冷资源进行存储,不支持随时调用。


直播


直播平台的一个非常明显的趋势就是“直播+”。直播和点播的形式,本质是承载信息,随着基础网络设施的完善,视频必将承载更多的信息。


此外,“互动”、“广告”也是直播平台的两个趋势。


直播跟点播一样,是非常难的一个技术。它需要基础服务、音视频计算、直播加速网络、终端能力、社交互动系统。需要耗费大量的人力和时间。


腾讯云把这块基础的能力提取出来,为大家提供平台服务,只要手里有靠谱的主播,几周就可以快速上线。


目前,超过 80% 的 Top100 的直播平台用的是腾讯云的服务,这来源于腾讯云积累了十几年的音视频技术。


实时音视频


目前,腾讯云在 App 基础上提供了微信公众号和微信小程序,以及手机 QQ、谷歌浏览器等多端的通信能力,相当于在各个终端都可以进行通信。这就是腾讯云融合的视频通信能力。


腾讯云的实时音视频支持腾讯内部 80% 的音视频的需求。外部客户已经超过 400 家。


短视频


“抖音有的我们的 SDK 都有”。短视频是点播的一种。区别在于短视频提供了很多采集拍摄、剪辑拼接、特效制作、混音字幕、动态贴纸功能。


SDK 跟点播后台是无缝对接的,点播的所有功能:上传、转码、存储、分发等功能都是互通的。


视频+AI


视频+AI 涉及了非常多的与 AI 相关的功能,比如极速高清、智能字幕、语音识别等。


腾讯云 H5 双向音视频语音质量优化


腾讯音视频实验室 高级工程师张轲


张轲,2004 年参加工作,2011 年加入腾讯。现任职腾讯音视频实验室高级工程师,曾负责 QQ 自研音视频引擎 SPEAR 的设计,开发,运营等工作。


近年来专注于 QQ 语音通话,腾讯云实时 SDK,腾讯云 H5 双向音视频,游戏多媒体引擎 GME 等的 QOE 提升上。


CallStatus.io 公司中途中断;10% -15% 的用户反馈显示通话质量不好;有 7% 左右的大丢包;有 95% 左右的用户往返流失在 240 毫秒以下。


H5 双向音视频(T-H5)是腾讯云基于 QQ 十多年来在音视频通话技术上积累,结合腾讯浏览服务 TBS WebRTC 能力与腾讯实时音视频 SDK ,为客户提供多平台互通高品质视频通话能力的一款产品。


终端用户只需要在手机 QQ/微信/QQ 浏览器和其它所有接入了 TBS 的 APP 中,通过 H5 页面发起视频请求,即可轻松接入企业的实时视频服务。


H5 双向/多向音视频解决方案提供了三种差异化服务质量:

  • TBS 和 Chrom 等浏览器对通,支持 WeBRTC 规范的互通。

  • TBS 之间互通仍然是 WeBRTC 的互通,但可以做一些 WeBRTC 内核级别的 Bug FIX,以及一些高级扩展。

  • TBS 与 NativeSDK 互通,提供了差异化的通信质量。

服务器端实现 SFU/MCU---质量控制示意图


上图是后台音频质量控制系统示意图,在拓扑层面,提供 SFU 和 MCU 两种模式。并且通过三级决策机制来保障转发环节的质量。


张轲总结了 FEC 应用要点,设计一套好的 FEC 算法:

  • 抗丢包算法要纳入拥塞控制算法,必须是网络自适应的,这是非常重要的前提。

  • 如何在保证抗丢包能力的前提下减少冗余流量。

  • 如何最大化发挥各种 FEC 机制的优点:场景反馈。

  • FEC 算法,分组大小的选择,对流量、延时、抗丢包性能的影响均要考虑到,这是通用思考方法。

  • 动态冗余率机制,收敛速度。

  • FEC 效果评价。

  • 一对多场景,需要针对每路接收定制化 FEC 保护方案。


张轲表示,优化是永无止境的课题。WebRTC 从 M56 到前两天发布的 M66 版本,WebRTC 解决了 1000 多个 Bug。


在线音视频素材创作合法化实际应用


OnVideo 视频创作平台 CTO 刘歧


刘歧,2007 年毕业参加工作,一直从事图形图像及音视频流媒体相关工作,FFmpeg 官方代码开发者及顾问。


曾供职于蓝汛,高升,金山云任职为架构师/技术总监/资深技术专家,现创业开发在线多媒体创作平台,主要包括素材汇聚,音视频在线处理等等,《FFmpeg从入门到精通》作者。


OnVideo 致力于打造一个专业级的云端视频创作平台,人人都能上手并快速地创作专业级影片。


OnVideo 主要有以下几个功能:云端素材汇聚、素材裁剪与精编辑、多平台发布与运营、超高清视频生成、全球节点部署。

素材裁剪与精编


其中,云端素材汇聚包括:国内视频素材对接与处理、国外视频素材对接与处理、非常规类网站素材处理。


素材裁剪与精编可以对音视频进行:裁剪与拼接、转场特效、文字处理、模板定制、滤镜处理、调色处理等操作。


多平台发布与运营不仅可以与国内视频平台发布接口对接,还可以和国外视频平台发布接口对接。


超高清视频生成主要用到的是 Super-Resolution Using a Generative Adversarial Network(SRGAN)、Super-Resolution Convolutional NeuralNetwork (SRCNN)和腾讯云的明眸解决方案。OnVideo 已经在大陆、东南亚、欧美部署了节点。


音视频处理素材库各种各样,包含种类繁多,由于是 UGC 业务,PGC 与  UGC 技术方面存在着素材上传效率低下、格式兼容千奇百怪、Metadata 内容支持、拼接处理异常支持的等问题。


在业务反面又存在着用户视频素材涉黄涉恐、用户视频内容踩红线等问题。为了解决合法化和安全化问题,OnVideo 采用腾讯云平台进行相关的处理,解决了根本问题。


未来,OnVideo 将在自动编排视频、自动去 logo、AR 支持等方面继续努力。


小程序音视频典型应用场景剖析


腾讯视频云高级产品经理董燚


董燚,先后供职于乐视云、腾讯云。现为腾讯云小程序解决方案产品负责人。善于深入的探索行业,反复地尝试创新,实现行业落地。


小程序中运用实时音视频,是微信发展的大趋势。小程序为效率而生,音视频的融入将提供更快捷、更便利的服务模式。


首先,相较于 H5,小程序的体验更优。其次,由于有量的优势,小视频的价格更优。第三,小程序带来了更好的分享体验。


噪声消除、回声抑制、Qos 流控、丢包恢复等是自行实现音视频功能面临的困境。微信也对音视频提出了更加苛刻的要求。

微信将音视频所需的端能力进行封装,以小程序标签的形式提供给开发者


腾讯云提供底层音视频组件,助力微信生态。有了腾讯云的小程序解决方案,客户不用考虑整个音视频的处理技术,只需集中精力完成业务部分。


接下来,董燚分享了小程序音视频在教育、医疗等场景下的落地。

构建一个小程序音视频应用


简单极致,是腾讯云音视频小程序解决方案的产品理念。


董燚详细介绍了在线车险理赔的业务场景模式。保险理赔流程长,而且体验很差,而开发 App 性价比很低。


其中,有三个核心的流程:报案、查勘、赔付。报案首先要考虑的就是效率。在查勘过程中,图片容易伪造。保证实时通话交流更顺畅,可信度高,是重中之重。

微信小程序:车险理赔


一键报案、智能定损、坐席拍照、从根本上解决了内网穿透问题、硬件落地问题、引流转化问题。


在司法场景中也有着诸多痛点。首先对于法院来说,如果当事人在其他城市,需要往返奔波,时间、精力耗费巨大,而民商是简易程序、小额诉讼,当事人双方对判决结果不会有太大争议。


第二,对于检察院来说,律师办理阅卷、听取意见、律师会见等业务均需要律师到检察院现场提交预约申请,检察院将申请反馈给对应的经办人安排接待时间,而后通过电话或短信等的方式通知律师到现场办理业务。流程复杂,律师需要在路途上花费大量的时间。


第三,对于司法局来说,法律咨询有较强私密性,群众不愿轻易到现场寻求服务或者一个城市几十到几百名律师在呼叫中心每天接待群众电话咨询,成本消耗大。人民调解形式单一,以线下调解居多,不能够很好摆脱地域限制进行调解。

智慧司法:让信息多跑路,让群众少跑腿


上图是法院小程序的 Demo,当事人可以通过小程序完成注册、咨询引导、纠纷申请、提交审核、远程调解协议签收整个过程。


并通过智能语音识别自动记录所有笔录。纠纷类案件可快速、有效的处理完毕,让群众少跑腿。


当事人通过小程序可以完成诉前引导、立案、诉讼、庭审、文书送达全流程闭环,不必反复前往法院,极大节省了精力、时间。


全链路加密,每次均使用不同的非对称密钥,保障安全性。并通过智能笔录转写还原庭审全部内容,大幅减轻书记员工作量。


群众可以一键了解司法知识,发起法律咨询,全链路加密,确保隐私,使用便捷、易于推广,咨询律师不受地点限制,可以更广泛的调动律师资源、降低成本。


群众还可以通过小程序视频远程进行预约、申请在线视频调解,摆脱地域限制;有针对性地处理行业性、专业性的调解。


小程序可以通过真人身份核验确认律师身份,律师可不用到检察院,在线预约,在线与案件经办人“面对面”听取意见,不受恶劣天气影响,避免来回奔波。


整个核身过程包含身份证 OCR、唇语活体鉴别和人脸识别技术。人脸识别过程中,腾讯优图技术比对手机端自拍照和储存于公安部证件查询中心的身份证,以此保证用户身份的真实性与安全性。


董燚表示,出于政策合规性考虑,微信只对以下几个类目开放了小程序音视频能力:社交、教育、医疗、政务民生、金融,并且每一个类目,都要有很多相关资质要求。


小程序音视频技术实现以及在相关行业的实际应用


腾讯视频云终端技术总监常青


常青,2008 年毕业加入腾讯,一直从事客户端研发相关工作,先后参与过 PC QQ、手机 QQ、QQ 物联等产品项目。


目前在腾讯视频云团队负责音视频终端解决方案的优化和落地工作,帮助客户在可控的研发成本投入之下,获得业内一流的音视频解决方案,目前产品线包括:互动直播、点播、短视频、实时视频通话,图像处理,AI 等等。


常青的演讲从市场前景、原理剖析、技术演化、WebRTC、快速上手五方面进行展开。


音视频能力一直以来都是小程序上的一个短板,微信产品的市场定位是对用户的。这就有了比较高的要求。第一要开源;第二接口必须简单,一两个标签就能完成;第三是定制性强;第四,出了问题要方便检查。


2017 年 Q4, 腾讯视频云终端团队与微信团队一起合作,将腾讯视频云的技术积累以 SDK 的形式落地到了微信版本上,从而为小程序增加了直播和实时音视频能力。

标签 + 内核


在音视频解决方案里,把所有的问题都拆解成上行和下行,困难就迎刃而解了。


上行,就是把音视频的画面和声音送到云上去,要经过几个基本过程。第一个采集,比如图片或者声音的模拟信号,之后转成数字信号。


采集之后做基础处理和降噪处理。第二是编码。生成网络之后,把它传到服务器上去。


下行则相反。网络并不是永远都平稳,所以要在播放器上准备一个“应急仓库”,用以解决缓冲较大的问题。

技术演化路线图


如上图所示,从在线直播到远程遥控,到双向视频,再到多人视频,分别加入了 UDP 加速、延时控制、噪声消除、回声抑制、Qos、丢包恢复、房间管理、IM 系统等技术。

小程序 vs WebRTC


小程序和 WebRTC 各有千秋,但是如果把二者融在一起,就会有事半功倍的效果。

小程序 + WebRTC


最后,常青总结了使用腾讯云音视频解决方案快速上手的步骤:

  • 授权登录腾讯云。

  • 开通标签使用权限。

  • 开通腾讯云服务。

  • 安装小程序开发工具。

  • 下载 Demo。


此次沙龙活动现场火爆,有 200 余名音视频爱好者参加,体验区也吸引了众多的开发者,参会者纷纷表示干货颇多,收获满满!

登录查看更多
0

相关内容

腾讯云是腾讯公司倾力打造的面向广大企业和个人的公有云平台,提供云服务器、云数据库、云存储和CDN等基础云计算服务,以及提供游戏、视频、金融、微信、电商、O2O,旅游等行业解决方案。
【2020新书】实战R语言4,323页pdf
专知会员服务
98+阅读 · 2020年7月1日
商业数据分析,39页ppt
专知会员服务
157+阅读 · 2020年6月2日
华为发布《自动驾驶网络解决方案白皮书》
专知会员服务
122+阅读 · 2020年5月22日
大数据安全技术研究进展
专知会员服务
90+阅读 · 2020年5月2日
专知会员服务
121+阅读 · 2020年3月26日
《人工智能2020:落地挑战与应对 》56页pdf
专知会员服务
195+阅读 · 2020年3月8日
【阿里技术干货】知识结构化在阿里小蜜中的应用
专知会员服务
96+阅读 · 2019年12月14日
【大数据白皮书 2019】中国信息通信研究院
专知会员服务
133+阅读 · 2019年12月12日
视频大脑:视频内容理解的技术与应用
AI前线
13+阅读 · 2019年4月18日
视频内容理解在Hulu的应用与实践
AI前线
12+阅读 · 2019年2月16日
40+一线大厂AI落地案例指南|年终干货总结
InfoQ
8+阅读 · 2018年11月18日
大伽「趣」说AI:腾讯云在多个场景中的AI落地实践
人工智能头条
4+阅读 · 2018年8月1日
Clustered Object Detection in Aerial Images
Arxiv
5+阅读 · 2019年8月27日
Neural Response Generation with Meta-Words
Arxiv
6+阅读 · 2019年6月14日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
Arxiv
8+阅读 · 2018年5月21日
Arxiv
3+阅读 · 2017年12月14日
VIP会员
相关VIP内容
【2020新书】实战R语言4,323页pdf
专知会员服务
98+阅读 · 2020年7月1日
商业数据分析,39页ppt
专知会员服务
157+阅读 · 2020年6月2日
华为发布《自动驾驶网络解决方案白皮书》
专知会员服务
122+阅读 · 2020年5月22日
大数据安全技术研究进展
专知会员服务
90+阅读 · 2020年5月2日
专知会员服务
121+阅读 · 2020年3月26日
《人工智能2020:落地挑战与应对 》56页pdf
专知会员服务
195+阅读 · 2020年3月8日
【阿里技术干货】知识结构化在阿里小蜜中的应用
专知会员服务
96+阅读 · 2019年12月14日
【大数据白皮书 2019】中国信息通信研究院
专知会员服务
133+阅读 · 2019年12月12日
相关论文
Clustered Object Detection in Aerial Images
Arxiv
5+阅读 · 2019年8月27日
Neural Response Generation with Meta-Words
Arxiv
6+阅读 · 2019年6月14日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
Arxiv
8+阅读 · 2018年5月21日
Arxiv
3+阅读 · 2017年12月14日
Top
微信扫码咨询专知VIP会员