学界 | 通过流量识别加密视频内容：以色列学者提出神经网络攻击模型

2017 年 6 月 16 日 机器之心

选自GitHub

作者：Roei Schuster等

机器之心编译

参与：李泽南、Smith、吴攀

深度学习在数据特征识别上的能力强大，目前已成为计算机视觉、图像处理、语音识别、自然语言处理等领域的流行方法。最近，研究人员又尝试将深度学习应用到了网络攻击中。利用视频流量分析，以色列特拉维夫大学和康奈尔大学的研究者们开发的新算法只需在电脑或手机浏览器中加入几行 JavaScript 代码，就能在这台设备连接到 Wi-Fi 后通过流量数据识别出用户观看的视频内容，而识别准确率接近 100%。

电视剧《黑镜》中的又一项技术被科学家们部分实现了

目前，研究人员的算法已经可以识别目标用户在 Netflix、Youtube、亚马逊视频等平台上观看的视频内容，他们可以通过网络在远程完成这项工作，只需用户（或者相同局域网内的其他用户）浏览经过适当制作的网站。这种方法无需直接访问食品本身，也不用访问正在播放视频的设备，研究人员表示，从路由器、网络服务供应商到网站都可以通过这种方式窥探人们的隐私。

论文：Beauty and the Burst: Remote Identification of Encrypted Video Streams

论文链接：https://beautyburst.github.io/beautyburst.pdf

美是在观察者眼中产生的，因此，为了获得我们观察到的东西，我们需要四处搜集我们所喜爱的东西。时至今日，很多我们观察到的东西是以互联网上的视频形式出现的，而且我们对电影、电视节目、新闻、社交媒体视频的选择往往揭露了我们的个性、喜好、社会经济状况和心情。很多机构都渴望开发这些信息：广告商家、保险机构、定价商或者去惩罚那些访问不良信息的人。

网络传输加密技术给这些监控设置了障碍，但是我们知道网络传输分析，只能检查网络传输的规模和时序，而对于传输的内容，通常需要进行归纳分析。怎样对加密的视频进行有效的流量分析？对于潜在的对手而言，这又有多容易呢？

我们提出了一种非常有效的方法，它有关攻击者（attacker）如何用直接和间接的方法对目标用户观看的视频内容进行分析的（通过像 Netflix 和 YouTube 这样的流媒体）。我们考虑了三类攻击情景：

路径攻击（On-path attacks），最简单的方法，包括一个可以被动监控用户流量的对手。这包括互联网服务供应商，恶意 Wi-Fi 接入点、代理、VPN、路由器等。它们可以对完全精确地看到单个数据包，并且通过我们的方法，它们可以辨认出用户正在观看的加密视频是什么。

跨站攻击（Cross-site attacks），攻击者的唯一一次访问就是通过受害者的浏览器来发送 javascript 代码（如下图）。这是一个相当危险的方法：现在，那些对用户访问习惯有着浓厚商业兴趣的操作者无处不在，那些不受信任的 Javascript 代码通常出自他们之手。浏览器可能会在一个被限制的环境中运行这些代码，来防止其搜寻个人信息。但我们的研究展示了这种限制是失败的：攻击者可以通过一个旁路通道（side channel）来访问网络视频传输：他会用自己的数据来冲毁网络连接，然后在网络阻塞的时候去测量其波动。几分钟后，他们就可以对视频进行推断性的分析。

跨设备攻击（cross-device attacks）：这是一种更强大的识别流量模式的方法。比如，一个在自己的电视上观看 Netflix 视频的用户可能会被碰巧运行在其本地网络中的某台电脑上的一个浏览器中的 JavaScript 代码攻击（参见下图）。这种攻击也依赖于归纳和测量该流媒体设备和 PC 在共同网络连接上的拥塞（congestion）。

为了基于记录的流量模式识别视频，我们使用了深度学习技术，并使用几种领先的流媒体服务上的电影内容训练了一个人工神经网络系统。这种神经网络视频分类器的训练过程类似于用户将视频传输到其流媒体设备（或软件）的过程，并且连接到相似的流媒体服务。当被训练识别数十个标题时，我们的 YouTube 检测器实现了 0 负例，回调为 0.988，而 Netflix 检测器的负例率为 0.0005，回调为 0.93.

Q&A

对于这项技术，研究者们还对一些人们关心的问题进行了解答。

Q1：哪些流媒体服务会被探测？

A：我们测试了四种热度最高的在线视频服务：Netflix、YouTube、Amazon Video 和 Vimeo，发现所有这些都很容易受到我们的视频识别技术的影响。通常，流媒体服务使用 MPEG-DASH 标准运行在 HTTP（S）上，而 MPEG-DASH 的分段机制让信息泄露变得简单。具体原因将在 Q6 中讨论。以上所有四种服务在测试中都具有危险性：YouTube 直接使用标准方式，而 Amazon Video、Netflix 和 Vimeo 使用了非常接近的变体。

Q2：流量信息如何泄露？

A：从恶意 WiFi 接入点、代理、路由器、公司网络、国家级网关和 ISP 都可以用来获取用户观看视频习惯的信息。无线网关可以使用这些信息来屏蔽受监控的内容，即使它们已被加密。

用户访问的所有网络内容提供商（包括广告、分析提供者和社交网络）也可能通过利用我们的侧信道攻击来破坏用户隐私。

Q3：VBR 与视频内容的关系？

A：使用可变比特率压缩（VBR）编码可以让视频在给定质量的前提下存储空间最小。这种方式高度依赖于视频内容。例如：视频鬣蜥与蛇之间多动作场景需要高比特率来表示。下图展示了视频在不同场景中比特率的波动。

示例视频：https://www.youtube.com/watch?v=Rv9hn4IGofM

Q4：什么是流量突发特征？它与视频内容有什么联系？

A：在 MPEG-DASH 视频流中，服务器上的视频会被分割为小段传送到客户端处。这就导致在播放中流量会呈现间歇性突发增长。

为了说明它与视频内容本身有什么关系，我们使用一段鬣蜥的视频：其中存在低比特率和高比特率交织的片段。（下图）左侧显示数据包大小延时间轴的变化，右侧图显示流量突发的情况（第一个突发流量是缓冲）。

Q5：这种视频识别是如何工作的？

A：这种自动视频比对是通过机器学习算法来完成的。通常，在线播放的视频都会被分割为多个小块以便下载，同时可被其他会话探知从而避免重复下载。尽管如此，我们还需要在加密协议层中引入一种非常稳定的方式来避免噪音和失真。通过使用侧信道攻击（如本研究中的 JavaScript 攻击方式），我们可以对流媒体服务的内容或缓冲进行间接测量。

深度神经网络（多层级的人工神经网络）在多种特征识别任务中已被证明是非常有效的。它的设计理念让计算机可以识别各种抽象的概念：那些人类可以直观体会，但难以表达的概念。因此，深度学习算法是目前计算机视觉、图像处理、语音识别、自然语言处理等领域的流行方式。在本研究中，我们构建了一个深度卷积神经网络架构来探测网络流量中视频数据信息的特征。深度学习方法可以形成准确的抗噪声探测器，即使在侧信道执行任务时也是有效的。

Q6：为什么这些信息会泄露？我能防止这样的事发生吗？

A：流媒体信息泄露的根本原因在于感知视频片段所需的信息量取决于片段的内容。例如：几乎静止的自然场景，或脱口秀的视频中，图像是几乎静态的，它可以被压缩为体积很小的数据。流媒体服务利用了这个特点，通过可变比特率（VBR）压缩方案来减少发送的数据量。因此，流量大小是和数据内容相关的。

我们当然可以弃用 VBR 编码，或降低自适应码率来改变视频的压缩率，但这样做明显会降低效率（提高了观看成本，也会导致网路堵塞，视频观看卡顿）。

如果客户端的缓冲视频的持续时间接近于常数（或呈随时间变化的仿射函数），则 VBR 的特性是在流量中可解的。因此，人们可以尝试通过不断更改缓冲区大小来规避被观察的可能，尽管这也降低了网络效率，并增加了视频播放缓冲延迟的几率。

Q7：这种攻击会被探测到吗？

A：这种单向攻击是完全被动式的，它无法被探测，无论是对于用户，还是对于基于网络的监视器而言。

在我们的实验中，旁接模式的攻击对于观察者而言是无法察觉的：流媒体播放并没有受到干扰，虽然因为攻击的存在，流量的使用略有增多。这是因为上游路由器会尝试在多个数据流之间公平分配带宽：在我们的例子中它们是视频和攻击者。由于视频流通常只需要用到全部带宽的不到一半，所以播放仍然顺利。此外，在传输视频片段时，路由器通常会给视频更高的动态优先级（即队列顶部）而不会侵占攻击者的带宽。攻击者引起的额外流量会影响到用户网络的总流量使用情况。