本书介绍了用于视频理解的深度学习技术。在深度学习基础部分,作者涵盖了机器学习流程和符号表示、用于空间和时间特征学习的2D和3D卷积神经网络。对于动作识别,作者首先介绍了经典的图像分类框架,然后详细阐述了基于图像和基于剪辑的2D/3D CNN网络如何用于动作识别。对于动作检测,作者详细讲解了滑动窗口、基于提议的检测方法、单阶段和双阶段方法、空间和时间动作定位,并介绍了相关数据集。在视频字幕生成部分,作者展示了基于语言的模型以及如何进行视频字幕生成的序列到序列学习。对于无监督特征学习,作者讨论了从有监督学习转向无监督学习的必要性,并介绍了如何设计更好的替代训练任务来学习视频表示。最后,本书介绍了诸如对比学习和基于变换器的掩码图像/视频建模等最新的自训练流程。本书提供了前瞻性的研究方向,旨在促进深度学习领域的视频理解研究成果的发展。
背面书评
本书介绍了用于视频理解的深度学习技术。在深度学习基础部分,作者涵盖了机器学习流程和符号表示、用于空间和时间特征学习的2D和3D卷积神经网络。对于动作识别,作者首先介绍了经典的图像分类框架,然后详细阐述了基于图像和基于剪辑的2D/3D CNN网络如何用于动作识别。对于动作检测,作者详细讲解了滑动窗口、基于提议的检测方法、单阶段和双阶段方法、空间和时间动作定位,并介绍了相关数据集。在视频字幕生成部分,作者展示了基于语言的模型以及如何进行视频字幕生成的序列到序列学习。对于无监督特征学习,作者讨论了从有监督学习转向无监督学习的必要性,并介绍了如何设计更好的替代训练任务来学习视频表示。最后,本书介绍了诸如对比学习和基于变换器的掩码图像/视频建模等最新的自训练流程。本书提供了前瞻性的研究方向,旨在促进深度学习领域的视频理解研究成果的发展。 * 提供视频理解的深度学习技术概述; * 涵盖动作识别、动作定位、视频字幕生成等重要主题; * 介绍最前沿和最新的视频理解技术。
关于作者
吴祖轩于2020年获得马里兰大学计算机科学博士学位。他目前是复旦大学计算机科学学院的副教授,并曾任职于Facebook AI研究科学家。他的研究兴趣包括深度学习和大规模视频理解。由于其研究成果卓越,他曾获得2022年AI 2000最具影响力学者奖、2019年微软研究院博士奖学金(全球仅10人)和2017年Snap博士奖学金(全球仅10人)。 姜育刚是复旦大学计算机科学学院的长江学者特聘教授。他的研究主要集中在多媒体、计算机视觉和稳健与可信赖的人工智能领域。作为上海智能视觉计算协同创新中心主任和复旦视觉与学习实验室(FVL)的负责人,他领导了一支致力于稳健与可信视觉分析的研究团队。他在顶级期刊和会议上发表了大量论文,引用次数超过25000次,H指数为79。他的研究成果对移动视觉搜索/识别和高速铁路基础设施的缺陷检测等应用产生了重大影响。他的工作获得了众多奖项,包括首届2014年ACM中国新星奖、2015年ACM SIGMM新星奖、多项最佳论文奖,以及来自中国自然科学基金会、教育部和上海市政府的各种荣誉。他拥有香港城市大学的计算机科学博士学位,并曾在哥伦比亚大学工作三年,之后于2011年加入复旦大学。他是国际模式识别学会(IAPR)和IEEE的当选会士。