图像分类、目标检测与跟踪、姿态估计、人脸识别和情感估计在解决计算机视觉问题中都起着重要的作用。
本书将重点介绍这些和其他深度学习架构和技术,以帮助您创建使用Keras和TensorFlow库的解决方案。您还将回顾多种神经网络架构,包括LeNet、AlexNet、VGG、Inception、R-CNN、Fast R-CNN、Faster R-CNN、Mask R-CNN、YOLO和SqueezeNet,并通过最佳实践、技巧、捷径和陷阱了解它们如何与Python代码一起工作。所有代码片段都将被分解并进行详细讨论,以便您可以在各自的环境中实现相同的原则。
使用深度学习的计算机视觉提供了一个全面而简洁的指南,将DL和CV结合在一起,实现自动化操作,减少人工干预,提高能力,并降低成本。
你会:
不久前,计算机视觉还只是科幻小说的专属内容,但现在,即使不是在整个社会,也正迅速成为各行各业的普遍现象。人类视觉是人类感官中最珍贵的一种,在模仿人类视觉这一领域取得的进展令人惊叹。直到1957年,拉塞尔·基尔希才扫描出了世界上第一张照片——他儿子的黑白照片。到20世纪80年代末,西罗维奇和柯比的工作帮助人脸识别成为一种可行的生物识别技术。尽管存在隐私问题和法律挑战,但Facebook在2010年将人脸识别技术纳入其社交媒体平台时,使这项技术无处不在。
这本书试图解释计算机视觉问题的深度学习和神经网络的概念。我们正在详细研究卷积神经网络,以及它们的各个组成部分和属性。我们正在探索各种神经网络架构,如LeNet, AlexNet, VGG, R-CNN, Fast R-CNN, Faster R-CNN, SSD, YOLO, ResNet, Inception, DeepFace,和FaceNet的细节。我们还在开发实用的解决方案,以解决二值图像分类、多类图像分类、目标检测、人脸识别和视频分析的用例。我们将使用Python和Keras作为解决方案。所有的代码和数据集被检入GitHub repo快速访问。在最后一章中,我们将学习深度学习项目中的所有步骤——从定义业务问题到部署。我们还在处理在制定解决方案时面临的重大错误和问题。在这本书中,我们提供了训练更好的算法的技巧和技巧,减少训练时间,监测结果,并改进解决方案。我们也分享代表性的研究论文和数据集,你应该使用它们来获得进一步的知识。
这本书把这个主题分成三部分。在第1章到第4章,本书描述了神经网络的本质和揭秘他们如何学习。并指出了不同的架构及其历史意义。实践者在拥有所有所需资源的情况下,可以体验到LeNet优雅的简单性、AlexNet提高的效率以及流行的VGG Net。在第5至7章,从业人员运用简单而强大的计算机视觉应用,如训练算法来检测物体和识别人脸。在进行视频分析时,我们遇到了渐变消失和爆炸的困扰问题,以及如何在ResNet架构中使用跳过连接来克服它。最后,在第8章中,我们回顾了完整的模型开发过程,从正确定义的业务问题开始,系统地推进,直到模型在生产环境中部署和维护。