Automatic surgical phase recognition plays a vital role in robot-assisted surgeries. Existing methods ignored a pivotal problem that surgical phases should be classified by learning segment-level semantics instead of solely relying on frame-wise information. This paper presents a segment-attentive hierarchical consistency network (SAHC) for surgical phase recognition from videos. The key idea is to extract hierarchical high-level semantic-consistent segments and use them to refine the erroneous predictions caused by ambiguous frames. To achieve it, we design a temporal hierarchical network to generate hierarchical high-level segments. Then, we introduce a hierarchical segment-frame attention module to capture relations between the low-level frames and high-level segments. By regularizing the predictions of frames and their corresponding segments via a consistency loss, the network can generate semantic-consistent segments and then rectify the misclassified predictions caused by ambiguous low-level frames. We validate SAHC on two public surgical video datasets, i.e., the M2CAI16 challenge dataset and the Cholec80 dataset. Experimental results show that our method outperforms previous state-of-the-arts and ablation studies prove the effectiveness of our proposed modules. Our code has been released at: https://github.com/xmed-lab/SAHC.
翻译:自动外科阶段识别在机器人辅助外科手术手术中起着关键作用。 现有方法忽视了外科手术阶段应当通过学习分层语义而不是仅仅依赖框架信息来分类的关键问题。 本文展示了从视频中进行外科手术阶段识别的分层高度一致性网络( SAHC ) 。 关键理念是提取高层次语义一致性部分, 并用它们来完善由模糊框架造成的错误预测。 为了实现这一点, 我们设计了一个时间级级级网络, 以生成高等级的高级片段。 然后, 我们引入了一个等级分层关注模块, 以捕捉低层次框架和高层次部分之间的关系。 通过将框架及其相应部分的预测通过一致性损失来规范化, 网络可以生成语义一致性- 一致性部分, 并随后纠正由模糊的低层次框架造成的错误分类预测。 我们用两个公共外科视频数据集来验证SAHC, 即 M2CAI16 挑战数据集和 Choloc80数据集。 实验结果表明, 我们的方法在先前的州- 州- 州/ 国 国 国 国 国/ 国 国 国/ 国 国 国 国 国 国 国 国 国 国 国/ 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 法 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国 国