场景流估计是描述时间上连续观测之间的三维运动的任务。本论文旨在为构建具有两个重要特性的场景流估计器奠定基础:一是可扩展性,即它们能够通过更多数据和计算资源提升性能;二是灵活性,即它们能够在多种领域和运动模式中开箱即用,而无需大量的超参数调整。为此,我们解决了该领域中现有方法和评估协议的关键局限性。首先,我们提出了ZeroFlow,这是一种可扩展且完全无监督的方法,利用测试时优化的优势生成高质量的伪标签,然后用于高效训练前馈网络。这种蒸馏流程显著提高了计算效率,在不依赖昂贵的人工标注的情况下,以数量级更快的推理速度实现了最先进的精度。接下来,我们发现了标准评估指标中的一个系统性缺陷,揭示了先前的场景流方法始终无法捕捉到小型或缓慢移动物体(如行人或骑行者)的运动。为了解决这一问题,我们引入了桶归一化端点误差(Bucket Normalized Endpoint Error),这是一种新的类别感知和速度归一化的评估协议,能够更准确、更全面地衡量估计器的质量,特别是强调对关键小型物体的性能。我们通过提出TrackFlow展示了新评估方法的有效性。TrackFlow是一种出奇简单但有效的基线方法,它利用了高质量3D检测器的性能。尽管TrackFlow在现有指标上勉强达到最先进的性能,但在我们改进的评估指标上,可以清楚地看出TrackFlow远远强于其他竞争对手。最后,我们提出了EulerFlow,这是一种无监督方法,通过在整个观测序列上估计常微分方程(ODE),而不仅仅是两个连续观测,从而显著重新定义了场景流估计。EulerFlow在多样化场景中提供了非常强大的流估计,其简单的ODE公式能够在新领域中开箱即用,并实现了包括长时3D点跟踪在内的新兴能力。总的来说,这些贡献代表了在可扩展、灵活和鲁棒的场景流估计方面的重大进展,为未来研究和实际部署奠定了基础,适用于从自动驾驶到机器人等多种应用中的运动理解。