在本教程中,我们主要关注的是 Kotlin/Native,我们只会粗略地介绍一下如何开发视频层。您可以参阅这篇名为《如何用不到 1000 行代码编写一个视频播放器》的优秀教程,以了解如何用 C 语言实现它。如果您的兴趣点在于比较 C 语言的编码与 Kotlin/Native 编码的不同之处,我建议您从本教程开始。
理论上,每一个视频播放器的工作都相当简单:读入带有交错的视频帧和音频帧的输入流,解码并显示视频帧,同时与音频流同步。通常,这一工作由多个线程完成,执行流解码、播放视频和音频。要准确的做到这些,需要线程同步和特定的实时保证,如果音频流没有被及时解码,播放声音听起来会很不稳定,如果视频帧没有及时显示,影像看起来会很不流畅。
Kotlin/Native 不鼓励您使用线程,也不提供在线程之间共享 Kotlin 对象的方法。然而,我们相信在 Kotlin/Native 中并发的软实时编程很容易实现,所以我们决定从一开始就以并发的方式来设计我们的播放器。来看看我们是怎么做到的吧。
Kotlin/Native 计算并发性是围绕 workers 构建的。Worker 是比线程更高级的并发性概念,不像对象共享和同步,它允许对象传输,因此每一时刻只有一个 workers 可以访问特定对象。这意味着,访问对象数据时不需要同步,因为多个访问永远不能同时进行。workers 可以接收执行请求,这些请求可以接受对象并根据需要执行任务,然后将结果返回给需要计算结果的人。这样的模型确保了许多典型的并发编程错误 (例如对共享数据的不同步访问,或者由未排序的锁导致的死锁) 不再出现。
让我们看看,它是如何转化为视频播放器架构的。我们需要对某些容器格式进行解码,比如 avi、.mkv 或者 .mpg,它对交叉音频和视频流进行多路分解、解码,然后将解压缩的音频提供给 SDL 音频线程。解压后的视频帧应与声音播放同步。为了达到这个目标,worker 概念的出现也便是理所当然的了。我们为解码器生成一个 worker,并在需要的时候向它请求视频和音频数据。在多核机器上,这意味着解码可以与播放并行进行。因此,解码器是一个来自 UI 线程和音频线程的数据生成器。
无论何时我们需要获取下一个音频或视频数据块时,我们都依赖于全能的 schedule() 函数。它将调度大量的工作给特定的 worker 执行,以便提供输入参数和返回 Future 实例,这些可能被挂起,直到任务被目标 worker 执行完。Future 对象可能被销毁,因此产生的对象将直接从 worker 线程返回到请求程序线程。
Kotlin/Native 运行时理论上讲是线性的,所以当运行多个线程时,需要在做其他操作之前调用函数 konan.initRuntimeIfNeeded(),我们在音频线程回调中也是这样做的。为了简化音频播放,我们将音频帧重新采样到两个通道,并以每秒 44100 个样本的形式对 16 位整数流进行标识。
视频帧可以被解码成用户需要的大小,当然它会有个默认值,同时它的位深度依赖于用户桌面默认设置。还请注意下 Kotlin/Native 特有的操作 C 指针的方法,即:
private val resampledAudioFrame: AVFrame =
disposable(create = ::av_frame_alloc, dispose = ::av_frame_unref).pointed
...
with (resampledAudioFrame) {
channels = output.channels
sample_rate = output.sampleRate
format = output.sampleFormat
channel_layout = output.channelLayout.signExtend()
}
我们声明 resampledAudioFrame 作为由 FFMPEG API 调用 avframealloc() 和 avframeunref() 创建的 C 程序中的一次性资源。然后,我们将它所指向的值设置成它所期望的字段。需要注意的是,我们可以将 FFMPEG(如 AV_PIX_FMT_RGB24) 声明的定义作为 Kotlin 的常量。但是,由于它们没有类型信息,并且默认情况下是 Int 类型的,如果某个字段具有不同的类型 (比如 channellayout),那便需要调用适配器函数 signExtend()。这是编译器的内在特性,它会插入适当的转换中。
在设置完解码器后,我们开始播放流程。这没有什么特别的,只是检索下一个帧,将它呈现给纹理,并在屏幕上显示这个纹理。至此,视频帧便被渲染了。音频线程回调是由音频线程回调处理的,它从解码器中获取下一个采样缓冲区,并将其反馈给音频引擎。
音频 / 视频同步是必须要保证的,它可以确保我们没有太多的未播放的音频帧。真正的多媒体播放器应该依赖于帧时间戳,我们只计算它,但永远不会使用。这里有一个有趣的地方:
val ts = av_frame_get_best_effort_timestamp(audioFrame.ptr) *
av_q2d(audioCodecContext.time_base.readValue())
它展示了如何使用 api 接收 C 语言的结构体。它是在 libavutil/rational.h 中声明的:
static inline double av_q2d(AVRational a){
return a.num / (double) a.den;
}
因此,要通过值传递它,我们首先需要在字段上使用 readValue()。
总结来说,多亏了 FFMPEG 库,我们才用较少的代价便实现了一个支持多种输入格式的简易音频 / 视频播放器。这里我们还讨论了 Kotlin/Native 中基于 C 语言的互操作性相关的基础知识,以及更容易使用和维护的并发方法。
https://blog.jetbrains.com/kotlin/2018/02/application-development-in-kotlinnative/#comment-45396
移动开发前线
「移动开发前线」是 InfoQ 旗下关注移动开发技术的垂直社群。投稿请发邮件到 editors@cn.infoq.com,注明“移动开发前线投稿”。
视频、3D、机器学习、算法工程化、IOT、智能硬件等新的命题正在被提出,丰富的内容生态以及内容形式在给传统开发的模式和线上的稳定性带来了新的挑战,而怪物级 APP 的移动开放生态也使得越来越多的移动开发者开始围绕着生态进行开发。QCon 北京 2018 会挑选部分话题来给大家分享,希望大家能够看到新移动技术的发展方向。
大会现 8 折报名中,看最佳理论和实践结合的体验,有任何问题欢迎咨询购票经理 Hanna,电话:15110019061,微信:qcon-0410。