将通信带宽降低至十万分之一，NeurIPS 2022论文提出新一代协作感知方法

2022 年 10 月 8 日 机器之心

机器之心专栏

机器之心编辑部

在这篇 NeurIPS2022 论文中，来自上海交通大学、上海人工智能实验室、南加州大学的研究者提出新一代通信高效的协作感知方法，可将带宽占用降低为十万分之一。

盲人摸象的寓言启示着我们，个体对世界的感知具有不可避免的局限性，有效的协作是打开视野和格局的重要途径。因此，协作感知应运而生：多个集 “感 - 传 - 算” 于一生的智能体分布式地交换关键信息，提升彼此的感知能力，从根本上解决遮挡、远距离等个体难以克服的感知问题。相关技术方法将 AI 和通信技术高度整合，对车路协同，无人集群等群体智能应用有着深刻影响。

协作感知助力无人机集群的超视距探测。

然而，如何最大限度利用有限的通信资源，凝练精简且重要的感知信息，在众多智能体中选择紧密的合作伙伴，并充分融合合作伙伴分享的信息，是协作感知的关键问题。

为了突破这一瓶颈，上海交通大学、上海人工智能实验室联合南加州大学在 NeurIPS 2022 上发表论文，提出新一代通信高效的协作感知方法，相比于之前的主流方法，在达到相同 3D 目标探测能力的前提下，可将带宽占用降低为十万分之一！

论文链接：https://arxiv.org/abs/2209.12836

代码链接：https://github.com/MediaBrain-SJTU/Where2comm

协作感知的效果：感知超视距、通信超高效

基于清华和百度在 CVPR 2022 上提出的全球首个车路协同数据集 DAIR-V2X，研究者对比了单体感知和协作感知在 3D 目标探测任务的效果，如下面的动图所示（绿框为真值，红框为探测）。左图展示了单辆无人车的探测效果，受限于传感器的探测范围和物理遮挡，左侧路口的多量车难以被有效探测，右图展示了一个路边单元和一辆无人车协作探测的效果，基于本文提出的Where2comm方法，实现了超视距的感知。由此可见，协作感知通过同一场景中多智能体之间互通有无，分享感知信息，使得每一个智能体都能够获得对整个场景更为准确全面的理解。

Where2comm在真实车路协同数据集DAIR-V2X上实现超视距感知

为全面展示本文所提出的 Where2comm 的优异性能，研究者在四个数据集上对其进行验证，包括无人飞机集群数据 CoPerception-UAVs, 车路协同仿真数据集 OPV2V, V2X-SIM，以及车路协同真实数据集 DAIR-V2X。对比的基线方法包括基本的单体探测（NoCollaboration），基于边界框的后融合（LateFusion），When2com(CVPR 2020)，V2VNet(ECCV 2020)，DiscoNet(NeurIPS 2021)，V2X-VIT(ECCV 2022)。

Where2comm在四个数据集上实现感知-通信权衡的大幅提升

他们发现，为达到同样的探测效果，Where2comm（红线）所需要的通信带宽消耗在CoPerception-UAVs，OPV2V，V2X-SIM，DAIR-V2X四个数据集上分别减少了 5128 倍，十万倍，55 倍，以及 105 倍。值得注意的是，之前的基线方法都是针对某个特定通信量进行了有针对性的模型训练，因此每个方法在通信量 - 探测效果的图中是一个单点。而 Where2comm 可以自动调整和适应各个通信量，因此是一条曲线。由此可见，Where2comm 实现了感知效果与通信消耗的有效权衡，能自适应资源多变的通信环境，且在达到相同的感知效果的同时，极大地降低了通信消耗。

进一步地，他们引入了多轮通信的机制。可以看到增加通信轮数，能稳定地进一步提升感知效果与通信消耗的权衡，保障协作感知系统内的协作者们无后顾之忧地积极参与协作。

Where2comm在多轮通信下的感知效果与通信消耗的权衡

通信高效协作感知方法的核心思想：挖掘感知信息空间分布的异构性

Where2comm 为何能稳定地获得如此大的性能提升？这得益于充分挖掘了感知信息的空间异构性和稀疏性。以目标检测为例，每个智能体更为关注空间中包含目标的前景区域，大量背景信息则无关紧要，因此感知信息在空间分布上存在显著的异构性。同时，信息的重要程度可通过包含前景目标的可能性来度量。受此启发，Where2comm 在多智能体间传递空间上稀疏但关键的信息，以此来实现更好的感知效果和通信消耗的权衡，同时通过多轮通信向其他智能体请求补充信息，以执行高效和互利的协作。

通过无人机2传递的稀疏但有效的信息（图h），无人机1在被建筑遮挡的视角盲区内得以实现有效感知

优化问题定义

Where2comm 背后的设计思路是基于一个基本的数学优化。考虑一个有 N 个智能体的场景，研究者将和分别设为第 i 个智能体对场景的观察以及感知的监督信息，则协作感知的目标是：在带宽 B 和通信轮次 K 的约束下，实现所有智能体的感知性能的最大化。

其中 g(⋅,⋅)感知性能的度量指标,Φ是参数为θ的感知网络, 是第 i，j 智能体之间传递的消息，k 是通信轮次。Where2comm 希望在优化的过程中能够让模型在不同的通信条件下都能够实现最优性能，同时，每个智能体都同时作为支持者和请求者参与协作过程。后续的方法设计正是针对这一优化问题的具体解法。

主框图介绍

Where2comm系统框图

Where2comm 的整体系统包括编码器，空间置信度生成器，空间置信度感知的协作通信，协作信息融合以及检测解码器组成。研究者着重介绍空间置信度生成器，基于空间置信度图的通信以及协作信息融合三个部分。

空间置信度生成器：空间置信度图反映的是不同空间位置处的信息对感知任务的重要程度。直觉上说，对于一个感知任务而言，具有待检测物体的区域显然比背景区域更为重要。协作中，有物体的区域可以帮助恢复由于视角受限等原因丢失的物体，同时可以将背景区域的感知信息移除以节省宝贵的通信带宽。因此，研究者可以用检测置信图来生成空间置信图，有高概率存在物体的空间区域则获得更高的置信度评分。

基于空间置信度图的信息打包 (协作什么内容)：基于空间置信度图可以高效地构建协作数据包，其包含两个部分：空间请求图和稀疏但有效的特征。空间请求图用于高效地有针对性地向外界请求有效信息，而发送的特征则是接收者需要且当前智能体拥有的特征信息。

基于空间置信度图的通信图构建 (谁和谁协作)：在第一轮协作中，由于系统中的智能体均不清楚其余协作者的存在，为了激活协作过程，首先需要建立一次全连接的通信。每个智能体都需要将信息广播至希望参与协作的智能体。后续的通信轮次将根据每个智能体的请求图和自身的空间置信度图来判断是否需要进一步通信。只有双方有有效的信息需求时才构建通信。

基于空间置信度图的信息融合 (怎么融合协作信息)：每个智能体利用 multi-head attention 操作，在每个空间位置上融合来自其他协作者的信息包，来更新自身的感知信息，实现更全面更有效的感知。

总结与展望

Where2comm 聚焦在协作感知的感知关键的空间区域选区中，在未来，这种思路可以被广泛应用于时域的关键帧选取等诸多方面。同时，也期待更多特征维度压缩以及 Emergent communication 的工作可以针对协作感知场景进行特殊设计，进一步减少带宽占用，提升感知效率以及通用型和鲁棒性。

声纹识别：从理论到编程实战

《声纹识别：从理论到编程实战》中文课上线，由谷歌声纹团队负责人王泉博士主讲。目前，课程答疑正在持续更新中。

课程视频内容共 12 小时，着重介绍基于深度学习的声纹识别系统，包括大量学术界与产业界的最新研究成果。

同时课程配有 32 次课后测验、10 次编程练习、10 次大作业，确保课程结束时可以亲自上手从零搭建一个完整的声纹识别系统。

点击阅读原文，了解更多课程内容。