现在投身于计算机视觉是否明智？

会员服务 ·

现在投身于计算机视觉是否明智？

2019 年 8 月 23 日 CVer

点击上方“CVer”，选择加"星标"或“置顶”

重磅干货，第一时间送达

编辑：Amusi

https://www.zhihu.com/question/317440183

本文仅作为学术分享，如果侵权，会删文处理

现在投身于计算机视觉是否明智？

周围很多大佬都去深造或者工作做CV相关方向。然而看到一种言论，说现在学CV无异于48年加入国民党，求问此话怎讲。

PS 本人本科毕业正要工作，有图像处理算法岗位offer。水平很菜，对计算机视觉方向很有兴趣（也许是跟风，且自动驾驶等等领域的确很容易让人产生兴趣）。

假设侥幸拿到CV相关offer（或者machine learning/deep learning岗位）那么是否应该果断加入。（因为图像处理算法可能相对传统一些）

作者：匿名用户
https://www.zhihu.com/question/317440183/answer/683203621

有多少人工就有多少AI，我相信各位真正的从业者是最清楚这点不过的，论文满分的模型现实情况下基本没法直接跑模型了事，必需跟随大量的数据和集成工作。目前AI饱和主要在于产业市场还没有起来，但是一旦其需求大起来，对应的人才要求也会变多。至于未来市场怎样，就不是我等工程师能预测的了。但按照《人类简史》中的说法，现代社会经济建立于对未来的信用上，现代经济要继续发展，必须有新的技术可以推动生产，至于这个技术是物联网，5G，AI，AR，基因工程中的一个还是多个，也不好说

以下是原答案

有一段时间在一家创业公司做CV，当时碰壁很多，人脸市场由巨头把持，基本不太可能与其竞争，我们当时打算做遥感AI，农业AI，后来发现处于数据精度问题，基本无法落地，后来整个组不得不转型做大数据外包。当时我的想法是，CV真的是泡沫。

后来到了国内某设备商做算法，发现CV可以用的地方不要太多了，降噪，定位，超分……CV从来不是单单指人脸这一块，哪一块都可以做，而它们又有相通之处，可以入的方向还是很多的。

之前和某些明星公司也有接触，可以说，实在的落地效果和竞赛榜单有天囊之别，在榜上刷的接近完美的指标，落地下来不足50%也是常有的事情，外界环境稍微差一点，算法效果非常恐怖，更别说性能……实际上算法领域如何在工程界落地，还有很长的路要走。实际调优的过程，的确和经验积累有关。有的时候因为算法流程的设计，有经验的工程师能够很快发现哪个流程有问题需要改进，这些慕课上是不会告诉你的。个人认为，CV本质上考察的是对系统的了解程度，对数据的了解程度，从来不是某个特定的算法。

如果能做到对系统了然于心，对性能优化（这也是必须根据设备考虑的问题）有深入了解，这样的人才是真的很缺。

作者：CPAPCF
www.zhihu.com/question/317440183/answer/794570674

说48年加入国民党只因把cv限制在了2D分类/检测/跟踪任务里。这些传统任务确实早在16年甚至更早就接近problem solved，任务明确数据标准方法成熟。现在刷榜也只有微小提升。画地为牢当然没搞。

且不说什么concept extraction/self-awareness/vision+language那套纯炼丹的玄学意识流，vision的共同问题是什么？是从图像分析信息，那能从图像里分析光照/材质/光源位置性质吗？能从图像里分析物理系统做受力分析判断受力点支撑面吗？能从图像分析物体运动状态吗？能从图像分析物体内部结构预测应力形变吗？

再从方法来说，纯炼丹就一定最好吗？vision传统的geometry理论和物理基础规则为什么要弃之不顾拿去让炼丹从头approximate？

然后从输入的角度看，双目做过吗？多目会有提升吗？单目能做吗（btw, 单目+纯炼丹是邪路）？别的sensor呢？比如MRI扫描信号？电子显微镜扫描信号？雷达？雷达阵列？声纳？

我只是举了一些非常片面的例子，但哪怕把上面这些暴力排列组合一下这都多少可能性了？

宏观来说，vision在工业上的应用绝不会停止也从没有停止。举个例子，我们今天能在超市里买到的整齐又便宜的红苹果和盒装鸡蛋，哪怕薯片，更不用说pcb和芯片制造，都是靠70-80年代开发的vision系统，才得以实现大规模流水线生产，然后降低成本和普及。vision内部流派可能会起起伏伏，跟不上市场需求的会很快暴死。但只要有外部市场demand，只要有资本家拿钱提出问题，就总有人能为钱做出解决方法，vision就绝不可能停止发展。ps，炼丹可能会死但vision绝不会死 :)

作者：Encoder
https://www.zhihu.com/question/317440183/answer/684387715

视觉是人类最重要的感觉，人类认识外界信息的80%来自视觉，视觉的认知机制也最复杂。因此，计算机视觉（computer vision），也就是利用各种成像系统代替人类的视觉器官作为输入手段，通过分析图像生成关于成像物体和场景的描述，使得计算机像人那样观察和理解世界，以具有自主适应环境的能力，始终是人工智能的一个重要组成部分。

计算机视觉已经走过了半个世纪的风风雨雨，从借用信号处理的概念、将图象视作“二维信号”而进行分析，到逐步发展出一套包含预处理、特征提取、目标追踪、三维重建等等方向在内的完整的领域，再到机器学习、深度学习方法的广泛运用，可以说，无论是过去、现在还是未来，计算机视觉领域都有大量的工作可以做，有大量的难题需要突破，也有大量的激动人心的宝藏、尚待我们去发掘。刷脸支付、无人驾驶、无人机航拍、手术机器人等等我们耳熟能详的应用，都与计算机视觉息息相关。

Faster R-CNN 用于目标检测，see https://arxiv.org/pdf/1506.01497.pdf

是否投身于计算机视觉的科研和工作，当然首先有赖于自己的兴趣。另一方面，“全民AI”“全民CS”甚至“全民CV”的确是造成了计算机视觉方向人才供过于求的情形，大量的学生和从业者的涌入，很有可能会造成内卷的情况；人才饱和、甚至所谓的“泡沫破灭”也并不是不会发生。然而从普遍意义上说，在人工智能时代的浪潮中，作为计算机相关专业的学生，无论是选择继续科研还是进入工业界，计算机视觉都仍然是一个既有广泛的应用前景（钱景），又容易激发兴趣、引人入胜的方向。

题主的担心其实也有道理，因为，尽管智能化这个大的趋势是不会变的，但是在这个大趋势的过程中，起伏依然是不可预知的，甚至也是不可避免的。经济学告诉我们，过度扩张就会带来收缩，过热就可能在未来遇冷，这是行业本身调节的结果，也是行业健康发展的保证。越是站在浪潮之巅，越要保持冷静清醒。作为CV领域的研究者和从业者，我们要准备好应对未来几年可能出现的转冷局面，应对可能出现的CV行业人才饱和、就业困难的窘境。我想主要的还是要做好以下几点。

第一，传统算法不可偏废。

举几个例子：

尽管基于深度学习的特征提取方法取得了很大的成功，但传统的特征提取算法，例如Harris角点，SIFT, SURF等等，仍是需要认真学习的。
图像预处理的方法，包括图像的滤波、分裂、归并、分割以及形态学处理等等，也可以与深度学习方法相结合，例如dilated CNN就可以看做形态学操作与CNN的结合。
SVM, KNN等等经典的机器学习算法在CV中的应用也不可忽视。

传统的计算机视觉和机器学习算法依然在很多场景下有用武之地，这些算法不仅在工程上有稳健的性能，而且相比于深度学习算法，在数学上也有更清晰的解释。因此，深入理解这些经典算法的思想，对于我们改进既有算法和提出新算法，也是很有启发性的。

第二，重视数学、重视编程。

我们需要有一批不满足于import cv2, import torch, import torchvision，不满足于机械调参，不满足于堆砌网络结构的研究者，能够提出一套严密的指导性的理论，改善目前深度学习中以试凑调参为主来达到目标的训练方式。我们需要思考能否在底层实现上做出改进或提出新的算法，而非简单地将既有算法排列组合。在数学和编程方面的积累，尽管需要下苦功夫，也不一定能够立竿见影，但是最终一定会惠及你未来的发展，无论在科研还是工作上，都能让你行稳致远。

第三、推动CV真正落地。

许多行业都积累了大量的图像信息，需要借由计算机来辅助甚至部分代替人脑对图像进行处理和解释，都有用计算机代替人去“看”的刚需。从图像预处理、图像特征提取及分割，到物体的几何模型与图像特性表达，再到对物体和周围环境的理解，都有广泛的应用场景。我们要避免空对空的灌水，要让CV更好地从实验室走入千家万户，真正应用于实际的生产生活的场景之中，真正拉动经济社会各个部门、各个方面的发展，真正成为我们每个人生活中不可或缺的一部分。

总之，投身于计算机视觉不失为明智之选，面对竞争的关键不在于踯躅犹疑，而在于增强自身的竞争力。计算机视觉的舞台足够广阔，将计算机视觉的理论与应用相对接、算法与工程相融合、精确与快速相平衡、简洁与清晰相印证、优美与实用相增益，始终激励着一批又一批有热情、有韧劲、有定力、有决心、有才华的研究者，扎扎实实地做出成果，特别是让计算机视觉更好地与各行各业相结合，真正助力经济社会发展，也使得我们的生活更加便捷。

作者：JohnMason
https://www.zhihu.com/question/317440183/answer/688971077

不邀自来。

计算机视觉方面的现状：工程师很多，研究人才稀缺

这可能是现在计算机方面的整体情况，大部分领域都是这样，研究人才稀缺。

那么造成这种情况的原因是因为：

1、相对其他行业来讲资薪较高。

2、热度高，人气盛。

3、入门相对其他方面来讲较容易。

如果拿到CV相关的offer，可以考虑按照这样的方式来：

1、学习有关类的编程（python、Cpp）。

2、大概有一定的基础后可以开始考虑框架（TensorFlow、Keras、Caffe、PyTroch等），具体的框架可以自己进行比较。

3、学习关于《机器学习》、《深度学习》的知识。

4、可以尝试做一些简单的项目。

5、确定方向，阅读该方面的论文，实现该论文的网络结构。

但是，入门相对来说比较简单，而且工程师的人才过剩。缺少的是相关的研究人才。如果想要进入研究方面，需要一定的数学知识和逻辑基础。在数学和逻辑之上要多阅读论文，讲最新论文中的结构复现，理解其中的原理。

重磅！CVer学术交流群成立啦

扫码添加CVer助手，可申请加入CVer-目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测和模型剪枝&压缩等群。一定要备注：研究方向+地点+学校/公司+昵称（如目标检测+上海+上交+卡卡）