Global and local relational reasoning enable scene understanding models to perform human-like scene analysis and understanding. Scene understanding enables better semantic segmentation and object-to-object interaction detection. In the medical domain, a robust surgical scene understanding model allows the automation of surgical skill evaluation, real-time monitoring of surgeon's performance and post-surgical analysis. This paper introduces a globally-reasoned multi-task surgical scene understanding model capable of performing instrument segmentation and tool-tissue interaction detection. Here, we incorporate global relational reasoning in the latent interaction space and introduce multi-scale local (neighborhood) reasoning in the coordinate space to improve segmentation. Utilizing the multi-task model setup, the performance of the visual-semantic graph attention network in interaction detection is further enhanced through global reasoning. The global interaction space features from the segmentation module are introduced into the graph network, allowing it to detect interactions based on both node-to-node and global interaction reasoning. Our model reduces the computation cost compared to running two independent single-task models by sharing common modules, which is indispensable for practical applications. Using a sequential optimization technique, the proposed multi-task model outperforms other state-of-the-art single-task models on the MICCAI endoscopic vision challenge 2018 dataset. Additionally, we also observe the performance of the multi-task model when trained using the knowledge distillation technique. The official code implementation is made available in GitHub.
翻译:全球和地方关系推理使现场理解模型能够进行人样的场景分析和理解。 场景理解有助于更好地进行语义分解和物体对物体的交互探测。 在医疗领域, 强健的外科现场理解模型可以进行外科技能评价自动化、 实时监测外科医生的性能和手术后分析。 本文引入了一个全球通用的多任务外科手术现场理解模型, 能够进行仪器分解和工具- 问题互动探测。 在这里, 我们将全球关系推理纳入潜伏互动空间, 并在协调空间引入多尺度的地方(邻居)推理, 以改善分解。 利用多任务模型设置, 通过全球推理, 视觉- 图像- 图像的注意网络的性能得到进一步提高。 将分解模块中的全球互动空间引入了图表网络, 使其能够检测基于节点至节点和工具- 互动推理的相互作用。 我们的模型降低了计算成本, 与两个独立的单一任务模型相比, 共享共同模块对于实际应用是不可或缺的。 利用视觉- 图像- 图像- 图像- 模型 的多任务- 运行 多任务- 的多任务- 的多任务- 工具- 的多任务- 工具- 拟议- 运行 的多任务-, 在常规- 常规- 常规- 常规- 常规- 常规- 常规- 常规- 常规- 常规- 常规- 常规- 常规- 常规- 常规- 常规- 常规- 的多任务- 常规- 常规- 常规- 常规- 模型-, 常规- 常规- 常规- 常规- 常规- 常规-, 常规- 常规- 常规- 常规- 常规- 常规- 格式- 格式-,,,, 常规- 常规- 常规- 常规- 常规- 常规- 常规- 常规- 常规- 常规- 常规- 常规- 常规- 常规- 常规- 常规- 常规- 常规- 常规-, 常规- 常规- 常规- 常规- 常规- 常规- 常规- 常规- 常规- 常规- 常规- 常规- 常规- 常规- 常规-