Purpose: The goal of this work is to use multi-camera video to classify open surgery tools as well as identify which tool is held in each hand. Multi-camera systems help prevent occlusions in open surgery video data. Furthermore, combining multiple views such as a Top-view camera covering the full operative field and a Close-up camera focusing on hand motion and anatomy, may provide a more comprehensive view of the surgical workflow. However, multi-camera data fusion poses a new challenge: a tool may be visible in one camera and not the other. Thus, we defined the global ground truth as the tools being used regardless their visibility. Therefore, tools that are out of the image should be remembered for extensive periods of time while the system responds quickly to changes visible in the video. Methods: Participants (n=48) performed a simulated open bowel repair. A Top-view and a Close-up cameras were used. YOLOv5 was used for tool and hand detection. A high frequency LSTM with a 1 second window at 30 frames per second (fps) and a low frequency LSTM with a 40 second window at 3 fps were used for spatial, temporal, and multi-camera integration. Results: The accuracy and F1 of the six systems were: Top-view (0.88/0.88), Close-up (0.81,0.83), both cameras (0.9/0.9), high fps LSTM (0.92/0.93), low fps LSTM (0.9/0.91), and our final architecture the Multi-camera classifier(0.93/0.94). Conclusion: By combining a system with a high fps and a low fps from the multiple camera array we improved the classification abilities of the global ground truth.


翻译:目的 : 这项工作的目标是使用多相机视频对开放手术工具进行分类, 并辨别每只手持有的工具。 多相机系统有助于防止在开放手术视频数据中出现隔离。 此外, 多相机系统结合多种观点, 如覆盖整个操作字段的上视图相机和侧重于手动和解剖的近距离相机, 可能会提供更全面的外科工作流程视图。 然而, 多相机数据聚合带来了新的挑战: 一个工具可以在一个相机中看到, 而不是另一个。 因此, 我们定义全球地面真相为正在使用的工具, 不论它们能见度如何。 因此, 多相机系统外的工具应该被长时间记住, 而系统能迅速对视频中的变化作出反应。 方法: 参与者( n= 48) 进行了模拟的打开的肠子修理。 高视图和近距离相机。 YOLOv5 用于工具和手检。 一个高频LSTM, 以每秒30个立方( fps) 和低频LSTM, 以40个第二窗口显示的LS- 090; 将F- RIS 的图像用于空间、 高端、 高端系统、 高端和高端的F- 和F- RIS 的系统。 用于空间、 高端、高端、高端、高端、高端、高端、低端、低端、低端、低端、低端、低端、低V、低V、LO/ 和低频、低V、LLO、低、低、低、低距离、低、低、低距离、低距离、直、低、低、低距离、低、低、低、低、低、低、低距离、低、低、低距离、低、低、低、低、低、低、低、低、低距离、低、低、低、低、低、低、低、低、低、低、低、低、低、低、低、低、低、低、低、低、低、直路、低、低、低、低、低、低、低、低、低、低、低、低、低、低、低、低、低、低、低、低、低、低、低、低、低、低、低、低、低、低、低、低、低、低、低

0
下载
关闭预览

相关内容

基于深度学习的视频目标检测综述
专知会员服务
81+阅读 · 2021年5月19日
专知会员服务
123+阅读 · 2020年9月8日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
开源书:PyTorch深度学习起步
专知会员服务
50+阅读 · 2019年10月11日
2019年机器学习框架回顾
专知会员服务
35+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
CCF A类 | 顶级会议RTSS 2019诚邀稿件
Call4Papers
10+阅读 · 2019年4月17日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
视觉机械臂 visual-pushing-grasping
CreateAMind
3+阅读 · 2018年5月25日
(OpenCV/Keras)用手势控制的计算器
机器学习研究会
3+阅读 · 2018年3月4日
【推荐】树莓派/OpenCV/dlib人脸定位/瞌睡检测
机器学习研究会
9+阅读 · 2017年10月24日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
【推荐】图像分类必读开创性论文汇总
机器学习研究会
14+阅读 · 2017年8月15日
Hand-Object Interaction Reasoning
Arxiv
0+阅读 · 2022年1月13日
Arxiv
3+阅读 · 2021年10月14日
Arxiv
12+阅读 · 2021年6月21日
VIP会员
相关VIP内容
基于深度学习的视频目标检测综述
专知会员服务
81+阅读 · 2021年5月19日
专知会员服务
123+阅读 · 2020年9月8日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
开源书:PyTorch深度学习起步
专知会员服务
50+阅读 · 2019年10月11日
2019年机器学习框架回顾
专知会员服务
35+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
相关资讯
CCF A类 | 顶级会议RTSS 2019诚邀稿件
Call4Papers
10+阅读 · 2019年4月17日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
视觉机械臂 visual-pushing-grasping
CreateAMind
3+阅读 · 2018年5月25日
(OpenCV/Keras)用手势控制的计算器
机器学习研究会
3+阅读 · 2018年3月4日
【推荐】树莓派/OpenCV/dlib人脸定位/瞌睡检测
机器学习研究会
9+阅读 · 2017年10月24日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
【推荐】图像分类必读开创性论文汇总
机器学习研究会
14+阅读 · 2017年8月15日
Top
微信扫码咨询专知VIP会员