会员服务 ·

【机器视觉】视觉AI和工业4.0之间还有多远的差距？机器视觉的工业机器人定位系统！药品检测之机器视觉典型应用。

2019 年 2 月 4 日 产业智能官

最先进的计算机视觉｜AI和工业4.0之间，还有多远的差距？

来源：阿里云信息服务

行业级最先进的计算机视觉技术

如今，人工智能在工业领域有着蓬勃发展趋势，因为自动化以及优化仍是数字革命的主要焦点。
在本文中，我们将回顾近几年在AI社区中那些令人兴奋的最先进的计算机视觉技术，这些技术被认为是工业就绪的，而且对工业用例产生重大而又实际的影响。
其中一些技术对性能的提升达到了令人难以置信的程度，超越了人类能达到的性能水平，从而超出了大多数行业所期望的精度和可靠性标准。
在基本的计算机视觉任务（例如图像分类）中取得的惊人进步，使得可靠地结合多种技术来创建新的复合技术从而实现之前从未在工业环境中探索过的全新用例成为可能。
话虽如此，这些新技术已经证明其结果可与那些只能通过非常密集的硬件专用系统才能获得的精度和可靠性结果相媲美。虽然在实现这些专用系统和安装与之相关的硬件方面存在实际的困难和限制，但相机是很容易买到的，从而极大地扩大了用例范围。
AI赋能的计算机视觉系统使得有可能跨入到一个新的领域，加速了工业4.0，真正数字化和物理现实增强的进程。
在我们深入了解计算机视觉领域的最新进展之前，让我们先介绍一些基本概念以及深度学习和计算机视觉这方面的历史事件。

计算机视觉是什么？

计算机视觉是一门科学，旨在使计算机能够理解并从图形和视频中洞悉信息。计算机视觉，即自动执行视觉任务的能力，例如从图形或视频中提取和分析有用的信息。

机器学习和深度学习的关系！

机器学习是算法和统计模型的科学研究，它依赖于数据驱动的方法来做决策而不是基于规则的方法。给定大量高质量数据并通过改进算法，机器学习系统能够逐步提高其在特定任务上的性能。
深度学习是机器学习的子类，完全侧重于一组可描述为网络的数学算法。它们起初受到人脑中发现的生物神经网络的启发，同样，人工神经网络具有数百万个人工突触，数学上由数百万个简单的线性代数方程表示。

深度学习驱动计算机视觉

自2012年深度学习神经网络一直是计算机视觉的主要关注点是有理由的。由深度学习驱动的计算机视觉系统的优点是它们具有更高准确性，更灵活，且对大量的光线条件变化，视点，尺度，方向，与背景融合，类内差异，变形以及视觉遮挡等情况具有更高容忍度。但最重要的是，它们启发了新的用例。
早期的计算机视觉模型依赖于原始像素数据作为机器学习模型的输入。然而，单独的原始像素数据不足以包含图像中对象的千变万化。
深度学习驱动的计算机视觉基于深度神经网络可在训练阶段自动提取和创建特定任务的特征，然后将其用于执行计算机视觉任务。

下图突出了深度学习和计算机视觉近6年历史中最重要的一些事件。

2012年引入深度神经网络所带来的突破使得图像分类误差减少了约10%（从2011年的25.8%降至2012年的16.4%）。
2015年最先进的算法在图像分类方面的表现超过了人类水平（5.1%，Russakovsky et al.）,准确率为3.57%。
总体而言，深度神经网络的引入导致图像分类误差减少10倍（从2011年的25.8%将至2017年的2.3%）。

值得注意的是，上述结果是在ImageNet数据集上实现的，其中20,000个类别具有典型类别，例如“气球”或“草莓”，由数百个低分辨率469x387像素图像组成。计算机视觉系统应用于具有较少类别，较少变化和较多数量的较高分辨率图像的特定任务时，其准确度可以高达99.9%。这使得完全独立自信地运行一个系统成为可能。

详细了解计算机视觉技术

现在我们已经介绍了基础知识，我们可以更详细地了解这些技术了。

图像分类

在本节中，我们将介绍图像分类，这是将一组固定类别中的一个标签分配给图像的任务。这是计算机视觉中的核心问题之一，尽管其简单，但其具有各种各样的实际应用。许多其它看似不同的计算机视觉任务（例如图像字幕，目标检测，关键点检测和分割）可以简化为图像分类，其它任务利用全新的神经网络架构。以下视频片段说明了一个非常简单的分类事例。

图像关键字和字幕

该技术处于计算机视觉和自然语言处理（NLP）这两AI中最有趣领域的交点。关键字是用于描述照片或图像元素的单词。关键字是对照片添加描述性术语的过程。

图像字幕是指基于图像中的对象和动作从图像或视频生成文本描述的过程。在下图中可以看到这方面的一个例子。

目标检测

目标检测是一种计算机视觉技术，用于识别和定位图像或视频中的对象。这通常通过带边框标记的框包围对象来完成。目标检测是自动驾驶汽车背后的关键技术，使它们能够识别其他汽车或区分行人与灯柱。它还可以用于各种应用，例如工业检测和机器人视觉。由于ImageNet竞赛，仅2010年至2014年间，定位误差（从42.5%降至25.3%）就减少了1.7倍。下面的视频片段显示了该技术的实时实施结果，用于检测城市中发现的与一辆自动驾驶视觉系统相关的车，人以及其他常见物体。

关键点检测和姿态估计

关键点被视为图像有趣或重要部分的特征。它们是图像中的空间位置或点，定义图像中有趣的内容或突出的内容。关键点之所以特殊，是因为它使得跟踪修改后的图像中的相同关键点成为可能，其中图像或图像中的对象会发生旋转、收缩/膨胀或变形。

姿态估计是计算机视觉中的一个普遍问题，其目的是检测物体的位置和方向。这通常意味着检测对象的关键点位置。这种技术可以用来创建一个非常精确的二维/三维模型，描述对象关键点的位置，然后可以用来创建一个数字孪生兄弟。

例如，在姿态估计问题中，可以检测到常见的方形家居对象的角点，从而可以深入了解对象在环境中的三维位置。

同样的方法也可以用于检测人体姿势，人体上的关键点如肩膀、肘部、手、膝盖和脚都会被检测到。

语义分割

下一种技术称为语义分割（也称为对象掩蔽），它解决了计算机视觉领域的一个关键问题：直观地分离图像中的物体。从大的图像上看，语义分割为完全理解场景铺平了道路。这是非常有用的，因为它使计算机能够精确地识别不同物体的边界。场景理解作为一个计算机视觉的核心问题，其重要性在于从语义分割中所获得的知识使得越来越多的应用程序的健壮性得以提升。在下面所示的自动驾驶汽车示例中，它帮助汽车识别道路和其他物体的准确位置。

图像到图像转化

下面提到的技术属于图像到图像转化的范畴。对于下面的技术，网络通过提高质量而不是提取见解或得出结论来增强图像和视频。

超分辨率：

此任务的目标是在同时提高细节级别的同时提高图像的分辨率。一个非常深的神经网络最近在图像超分辨率方面取得了巨大的成功。放大倍数适用于2倍放大，如下图所示。

超分辨率图像残留的密集网络（Zhang等人,2018日三月）

夜视

在弱光下成像是一项挑战。短曝光图像会产生噪声，长曝光时间会导致动态模糊。后者通常也不切实际，尤其是对于手持摄影。人们已经提出了各种去噪、去模糊和增强技术，但它们的效果在极端条件下是有限的，例如夜间高速摄影。为了提高目前的标准，研究人员引入了一种基于深度网络端到端训练的低光图像处理技术。该网络直接利用原始传感器数据，取代了许多传统的图像处理技术。这可以在下面的图像中清楚地看到，暗噪声图像得到了显著的增强。

在黑暗中学会看东西（Chen等人，2018年五月）

Super SloMo

视频插值旨在在两个连续帧之间生成中间帧。这些人工生成的画面与原始图像有着不可区分的视觉特征。这项技术是放大摄像系统性能的理想方法。对多个数据集的实验结果表明，深度学习方法比现有的方法具有更好的一致性。这项技术的结果可以在下面的视频剪辑中看到，在原始帧之间添加7个中间帧来创建平滑的慢动作视频。

Super SloMo:视频插值多中间帧的高质量估计（Jiang等人,2018年7月）

在本文中，我们研究了许多计算机视觉技术，这些技术是由最近几个月开发的深入学习提供动力的，并且已经展示了令人难以置信的结果，并准备在行业中实施。这些技术处于技术的前沿，通过提高速度、准确性、可靠性和灵活性，表现出明显的优于以前的技术。

创新的关键驱动因素是近年来人工智能研究论文的数量激增，特别是在计算机视觉领域，使充分利用技术进步来改善工业运营的最新趋势变得更加重要。

谢谢你的阅读！希望，你学到了一些新的和有用的关于最先进的计算机视觉技术的东西，这些技术已经为工业上的实际应用做好了准备。

基于机器视觉的工业机器人定位系统！

来源：程控教育王老师

建立了一个主动机器视觉定位系统,用于工业机器人对零件工位的精确定位。

采用基于区域的匹配和形状特征识别相结合的图像处理方法,该方法经过阈值和形状判据,识别出物体特征。经实验验证,该方法能够快速准确地得到物体的边界和质心,进行数据识别和计算,再结合机器人运动学原理控制机器人实时运动以消除此误差,满足工业机器人自定位的要求。

1. 引言

目前工业机器人仅能在严格定义的结构化环境中执行预定指令动作，缺乏对环境的感知与应变能力，这极大地限制了机器人的应用。利用机器人的视觉控制，不需要预先对工业机器人的运动轨迹进行示教或离线编程，可节约大量的编程时间，提高生产效率和加工质量。

Hagger 等人提出通过基于机器人末端与目标物体之间的误差进行视觉反馈的方法；Mezouar 等人提出通过图像空间的路径规划和基于图像的控制方法。国内这方面主要应用于焊接机器人对焊缝的跟踪。

本文利用基于位置的视觉伺服思想，以六自由度垂直关节型喷涂机器人为载体，提出一种基于机器视觉的工业机器人自定位控制方法，解决了机器人末端实际位置与期望位置相距较远的问题，改善了喷涂机器人的定位精度。

2. 视觉定位系统的组成

机器人视觉定位系统构成如图 1 所示，在关节型机器人末端安装喷涂工具、单个摄像机，使工件能完全出现在摄像机的图像中。系统包括摄像机系统和控制系统：

（1）摄像机系统：由单个摄像机和计算机（包括图像采集卡）组成，负责视觉图像的采集和机器视觉算法；

（2）控制系统：由计算机和控制箱组成，用来控制机器人末端的实际位置；经 CCD 摄像机对工作区进行拍摄，计算机通过本文使用的图像识别方法，提取跟踪特征，进行数据识别和计算，通过逆运动学求解得到机器人各关节位置误差值，最后控制高精度的末端执行机构，调整机器人的位姿。

图1 喷涂机器人视觉定位系统组成

3. 视觉定位系统工作原理

3.1 视觉定位系统的工作原理

使用 CCD 摄像机和1394 系列采集卡，将视频信号输入计算机，并对其快速处理。首先选取被跟踪物体的局部图像，该步骤相当于离线学习的过程，在图像中建立坐标系以及训练系统寻找跟踪物。学习结束后，图像卡不停地采集图像，提取跟踪特征，进行数据识别和计算，通过逆运动学求解得到机器人各关节位置给定值，最后控制高精度的末端执行机构，调整机器人的位姿。工作流程如图2 所示。

图 2 视觉定位系统软件流程图

3.2 基于区域的匹配

本文采用的就是基于区域的相关匹配方法。它是把一幅图像中的某一点的灰度领域作为模板，在另一幅图像中搜索具有相同（或相似）灰度值分布的对应点领域，从而实现两幅图像的匹配。在基于区域相关的算法中，要匹配的元素是固定尺寸的图像窗口，相似准则是两幅图像中窗口间的相关性度量。当搜索区域中的元素使相似性准则最大化时，则认为元素是匹配的。

定义P (i, j) P 是模板图像中一点，取以P (i, j) P 为中心的某一邻域作为相关窗口K ，大小为(2w +1)，假设K 在原始图中，水平方向平移Δu ，垂直方向平移Δu 后，K 所覆盖下的那块搜索区域叫做子图S k ，若K 和S k 相同，则它们的差为零，否则不为零。由此定义K 和S k 的相关函数为：

当D(K, S k )达到最小，K 与S k 达到最佳匹配。

3.3 图像的特征提取

工作台上的工件与工作台背景在颜色方面具有很大的差别，即工件呈现为黑色，将这一信息作为识别工件的重要特征。

工件的边缘处灰度有急剧的变化，可以以此判断出工件的边界点。采用扫描线的方法，扫描方向上灰度剧变的像素点就是边界点。最后，通过最小二乘法把找到的边界点拟合出圆周，并计算出圆心位置。

3.4 实验与分析

实验目的是通过机器视觉，快速识别出工件的特征（这里是圆孔的圆心）。

（1）首先在原始图像（图3）选取被跟踪工件的局部图像作为模板图像template(图4)。

（2）以局部图像template 为模板，在原始图像中进行基于区域的匹配，并以template 的左

下角为原点，建立坐标系。然后定义一个搜索区域ROI(region of interest)，根据要提取的特征选择区域的形状，这里选择环形区域。搜索区域必须包含全部目标特征。在ROI 中提取工件的特征，如图3 所示。

图 3 圆心识别

该步骤相当于离线学习的过程。每次使用前只需要学习一次即可。通过离线学习，系统得到ROI 与工件的相对位置关系，以便实时识别中工件出现偏移、翻转等，ROI 都可以准确出现在合适位置。

（3）离线学习后，视觉系统经过区域匹配、阀值分割和边缘提取等步骤找到需要识别的特征（这里是圆孔的圆点），如图4 所示。

图4 实时识别

（3）离线学习后，视觉系统经过区域匹配、阀值分割和边缘提取等步骤找到需要识别的特征（这里是圆孔的圆点），如图4 所示。

3.5 结果分析如下：

（1）识别率分析：第一步通过离线学习，训练提取形状特征。第二步使用离线学习得到的坐标关系，实时跟踪工件，得到需要跟踪的形状特征信息。只要离线学习恰当，目标特征就准确识别并且得到相关信息。

（2）实时处理结果分析：图像采集卡的采集速度是25 帧/s，每幅图采集时间为40ms。摄像头采集一幅图像需要20ms，该图像处理的速度为10ms/幅。通过程序优化，在采集的同时进行图像处理，而且图像处理的速度比采集的时间要短，就避免了图像的失真和抖动。在物体运动不超过极限速度时，能够较准确地找到圆心的位置。

4. 空间坐标的获取

由一幅图像得到的信息是二维信息，程序中使用的坐标是以像素为单位的，机器人在空间运动需要将图像的信息换算成三维空间坐标。其计算过程如下：

（1）以工件上圆孔的圆心为机器人定位基准，A(X ,Y, Z)圆心的世界坐标。当圆心与视觉图像的中心重合时，机器人定位完成。

（2）标定摄像机，得到投影矩阵ce M ，即图像中两个像素间的距离与世界坐标系的转换关系。

（3）摄像机拍摄图像后，经过特征识别得到圆心在图像中坐标a(x, y)，计算出与图像中心的偏移量Δx、Δy。

（4）以A(X ,Y, Z)为基准，按照下式计算机器人末端的世界坐标B(X ',Y ', Z')：其中，Mc是摄像机与机器人末端的坐标转换参数。

注意，本文使用单目视觉，所以这里假设 Z 坐标不变；如果使用双目视觉，就可以通过立体视觉计算出Z’。

5. 误差分析与补偿

本项目的喷涂机器人是六自由度的旋转关节操作臂，与Unimation PUMA560相似，关节4、5、6 的轴线相互垂直，且相交与一点。应用参考文献3 的方法计算如下：

（1）通过机器视觉可以得到机器人末端的空间位置坐标B(X ',Y ', Z')。

（2）确定机器人的连杆参数表，如下表：

（3）运用DH 法计算各关节的转角θi ：

6. 结论

本文描述了基于机器视觉的工业机器人定位系统，该系统将基于区域的匹配和形状特征识别结合，进行数据识别和计算，能够快速准确地识别出物体特征的边界与质心，机器人控制系统通过逆运动学求解得到机器人各关节位置的转角误差，最后控制高精度的末端执行机构，调整机器人的位姿以消除此误差。从而解决了机器人末端实际位置与期望位置相距较远的问题，改善了喷涂机器人的定位精度。该方法计算量小，定位准确，具有工程实用性。本系统是使用 C#在Visual Studio 2003 环境中编写。

药品检测之机器视觉典型应用

来源：图像处理与机器视觉

随着科技与经济的发展，机器视觉技术已经成为检测行业主导潮流，如瓶盖检测、产品表面残缺检测等。在生产线上，要消耗大量的人力，靠人来做此类测量和判断，经常会因疲劳、个人之间的差异等人为因素，产生误差和错误，而机器不受外界客观因素的影响，更高效、快捷地完成任务。

相比传统检测方法，机器视觉系统具有以下优点：

1、非接触测量，对于观测者与被观测者都不会产生任何损伤，从而提高软件系统的可靠性，提高自动化效率。替代人工检测，数据更精准，更稳定，在人工无法工作的环境下工作，保障生产进行。从生产成本上看，企业可以节省人工成本，提高产品合格率，缓解用工荒等问题。

2、具有较宽的光谱响应范围，比如使用人眼看不见的红外测量，扩展了人眼的视觉范围。它们使机器设备具有多样性、灵活性和可重组性，当需要改变生产过程时，对机器视觉来说"工具更换"仅仅是软件的变换而不是更换昂贵的硬件。当生产线重组后，视觉系统往往可以重复使用。

3、长时间稳定工作，人类难以长时间对同一对象进行观察，而机器视觉则可以长时间地大批量重复作测量、分析和识别任务。视觉系统可以使人们免受疲劳之苦，因为没有人工操作者，也就没有了人为造成的操作变化，多个系统可以设定单独运行。

基于机器视觉的检测系统的技术优势，业界将其引入药品检测系统。这种系统不仅能够检测药品的细节特征，比如大小、形状、表面特征，还可以用于药品的体积计算或是药品流水线运输装置的自动检测。

比如通过相机从一个特定的角度来接收激光，将信号传送到计算机中进行分析，通过药品表面的三维伪色彩检测图示揭示药品表面的特征，有效地反应出药片的高度等信息，如药片是否破碎，损坏，或药片在挤压成型后是否留有残余物质等。

在药片的一些标准特征被电脑计算存储后，任何不符合特定标准的药片都会被检测系统中的定制软件识别出来，视为不合格产品。如目前许多口服的片剂都采用特殊设计的糖衣以延缓药物在人体内被人身体吸收的时间，采用机器视觉系统，可以检测药片是否包裹着糖衣以及糖衣的大小是否标准。这样，糖衣包装过程就可以被精准、定量的控制；否则，药物在人体内的释放量就无法准确的控制。

如果有的药片只需要测量其表面的信息，一个照相机就完全可以满足。然而，有的情况下，普通的基于二维相机的检测系统很难探测出药品的缺陷，就需要测量出完整的药品三维信息，这时，就需要用两个相机从不同角度投射向物体来采集信息。

三维轮廓数据被传送到计算机中后，通过机器视觉图像处理软件，以三维立体的形式表现出来，人们通过不同的图像处理模块来完成不同特定的缺陷分析。包括检测药片的形状轮廓、表面以及其他特性的功能，无论药品表面是否有异物存在，模块都可以对药片的体积进行计算。

通过机器视觉检测系统，用三维的方法测量药品缺陷，比普通的二维检测技术要精确的多。在每个药品生产环节中出现的失误，都可能导致用户使用后出现一系列健康问题，从而给用户以及企业都造成损失。因此制药企业不断发展日益成熟的机器视觉系统，用以避免这种潜在的问题。

工业互联网

产业智能官 AI-CPS

加入知识星球“产业智能研究院”：先进产业OT（工艺+自动化+机器人+新能源+精益）技术和新一代信息IT技术（云计算+大数据+物联网+区块链+人工智能）深度融合，在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的机器智能认知计算系统；实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链。