We present an end-to-end binaural impulse response generator (BIR) to generate plausible sounds in real-time for real-world models. Our approach uses a novel neural-network-based BIR generator (Scene2BIR) for the reconstructed 3D model. We propose a graph neural network that uses both the material and the topology information of the 3D scenes and generates a scene latent vector. Moreover, we use a conditional generative adversarial network (CGAN) to generate BIRs from the scene latent vector. Our network is able to handle holes or other artifacts in the reconstructed 3D mesh model. We present an efficient cost function to the generator network to incorporate spatial audio effects. Given the source and the listener position, our approach can generate a BIR in 0.1 milliseconds on an NVIDIA GeForce RTX 2080 Ti GPU and can easily handle multiple sources. We have evaluated the accuracy of our approach with real-world captured BIRs and an interactive geometric sound propagation algorithm.
翻译:我们提出了一个端到端的双向脉冲反应生成器(BIR), 以实时生成真实世界模型的可信声音。 我们的方法是使用一个新的神经网络型 BIR 生成器(Sceene2BIR) 用于重建的 3D 模型。 我们提出一个图形神经网络, 使用 3D 场景的材料和地形信息, 并生成一个场景潜伏矢量。 此外, 我们使用一个有条件的基因对抗网络( CGAN) 来生成现场潜载矢量的 BIR 。 我们的网络能够处理重建的 3D 网形模型中的洞或其他文物。 我们向生成器网络展示一个高效的成本功能, 以包含空间音效。 鉴于源和听众的位置, 我们的方法可以在 0.1 毫秒的 NVIDIA GeForce RTX 2080 Ti GPU 上生成一个BIR, 并且可以很容易地处理多个源。 我们用真实世界捕获的 BIR 和交互式几何声音传算法评估了我们的方法的准确性。