【工业互联网】工业互联网对制造业推进作用、案例、反思

2018 年 8 月 23 日 产业智能官

工业互联网：对制造业推进作用

工业互联网与大数据的出现给我国工业的升级和发展带来了很大的机遇和挑战。随着工业互联网与大数据的进一步融合，新技术，新模式，新业态将层出不穷。若要在这种新时代中迅速发展，占据主要的优势，必须要对工业互联网与大数据有更深入的认识。本文主要在工业互联网与大数据的发展，应用及关键技术等方面作了进一步的研究。文章最后通过一个实例阐述了工业互联网与大数据对制造业的影响。

1、前言

大数据的概念是1997年左右提出的，至今已经约有20年的发展，在中国，大数据也推进了5年之久.从我们围绕工业信息化特别是在工业企业建立了一批具有大数据能力的企业来看，工业大数据的意义十分重大。当下，随着互联网与工业领域的全面融合，衍生出了一种新型的工业形态一工业互联网。工业互联网与大数据正前所未有地改变着工业的产业组织形态和生产方式。本文在第二节描述了工业互联网与大数据的发展；第三节叙述了工业互联网与大数据的应用；第四节主要研究了工业互联网与大数据的关键技术；第五节通过实例介绍了工业互联网与大数据在生产制造中的应用；第五节对前面的叙述做了总结，并展望工业互联网与大数据的未来。

2、工业互联网与大数据的发展

工业互联网将人和机器连接起来，将为制造商和客户带来前所未有的数据、信息和解决方案。工业互联网可以为制造业企业建立交流的平台，打破买方和卖方之间的“封闭”，使买卖双方的交易透明化，同时有利于降低交易成本。在1990年John Romkey 和 Simon Hackett将烤箱与网络连接生产出了第一台互联网烤面包机。1991年Interop在烤面包机上增加了一个小的机器人将一小片面包放入烤箱里面，因此诞生了一个完整的自动化机器。20世纪末期联网能够让计算机之间相互通信的大型主框架计算机、软件和“数据信息包”。而网络的开放性和灵活性是为革命的爆炸性增长奠定基础的关键要素。在二十一世纪的今天，工业互联网与大数据相融合，为加快生产力，减少低效和浪费，以及改善人类工作经验开辟了新的领域。

大数据这个词语被创造出来是在20世纪90年代，在2000年的时候第一次在学术论文上有人将它提出，在2003年的时候在FrancisX.Diebolt在《宏观经济测量和预测的大数据动态因子模型》一书中正式将大数据这个词语进行诠释和应用。在2005年的时候，当前最火爆的Hadoop项目就已经被创建，之所以在10多年后大数据和Hadoop项目才受到热捧和关注主要是因为当时的数据还不够大。在现如今的世界，随着互联网、移动互联网、IOT、智能设备的发展，你举目四望会发现整个世界每秒都在生产海量的数据，我们所有的世界空间、所有的行为路径都在被数据给描述，我们都在生产数据又依赖于数据。研究机构Gartner对大数据给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。大数据是从不同领域和资源产生的，包括巨大、复杂、结构复杂、半结构、非结构及隐藏的数据集。大数据特征可以被归类为6V（Volume,Velocity, Variety, Veracity ,Viability and Value），将这些要素连接并组合在一起，将会给各企业和经济体提供新的机会。

工业互联网和大数据的无缝结合是当今世界的主流技术，工业互联网将传感器和其他先进的检测仪器嵌人到机器阵列中，从简单到高度复杂。这就使得可以收集和分析大量的数据，用于改善机器的性能，同时不可避免地提高了与之相连的网络和系统的效率。数据本身，也可以变得“智能化”，即能够立刻知道它需要到达哪些用户处。许多工业互联网与大数据的实践都证明，各种各样的新的创新能够给企业和全球经济带来巨大利益。就像工业革命一样，工业互联网与大数据革命正在以动态的方式展开，而我们现在正处在转折点上。

3、工业互联网与大数据的应用

工业互联网与大数据的应用渗透到了工业企业产业链的各个环节，条形码、二维码、RFID、工业传感器、工业自动控制系统、工业物联网、ERP、CAD/CAM/CAE/CAI等技术在工业企业中得到广泛应用。我国的工业企业也进入了互联网工业的新的发展阶段，工业企业所拥有的数据也日益丰富。工业企业中生产线处于高速运转，由工业设备所产生、采集和处理的数据量远大于企业中计算机和人工产生的数据，从数据类型看也多是非结构化数据，生产线的高速运转则对数据的实时性要求也更高。因此，工业大数据应用所面临的问题和挑战并不比互联网行业的大数据应用少，某些情况下甚至更为复杂。本文将从以下四个方面阐述工业互联网与大数据在工业中的应用。

3.1开放式产品设计

互联网可以融合不同领域，大规模的参与者进行产品的协同开发。客户与工业企业之间的交互和交易行为将产生大量数据，挖掘和分析这些客户需求数据，能够帮助客户参与到产品的需求分析和产品设计等创新活动中，为产品创新作出贡献。如图1所示，系统的模型是根据用户要求定制产品的模型图。首先，用户根据自己的喜好设计产品或通过Web页面提供个性化产品的关键参数。然后，Web服务器将用户的信息提交给工业云，它解析产品数据和关键参数。同时，将这些数据通过有线或无线网络传送这传送到工业机器人，工人和控制器。生产系统根据这些产品开始创建数据，在产品的制造过程中，各种各样的相关的数据被传输到云和相邻节点用于管理和优化。

图1 用户参与定制产品模型图

在2016年12月07日的南京世界智能制造大会上，海尔公司也展示了大规模定制解决方案。海尔以智能制造云平台COSMO为核心，集用户的交互、营销、研发，模块商的采购、制造、物流、服务于一体的全流程制造模式。举例来说，一个用户提出了“想要一个智能吸尘器”需求，在将创意草图提交到COSMOPlat平台的子系统众创汇后，经过30名发烧友众创交互设计，得到了1700多名用户支持。依托COSMOPlat平台，海尔并联生态圈同步启动，用户通过APP定制下单、参与虚拟设计、对生产过程和物流过程全程可视、通过U+APP进行体验反馈，持续迭代，满足了用户定制体验。

3.2产品故障诊断与预测

产品把传感器、处理器、存储器、通信模块、传输系统融入到各种产品中，使得产品具备动态存储、感知和通信能力，实现产品的可追溯、可识别、可定位。目前互联网汽车、工程机械、智能家电等是产品智能化的热点领域。工业互联网与大数据通过网络与企业管理平台连接，企业管理平台可以运用无线网络、视频远程故障诊断等信息服务系统，远程监控设备的运转情况，并基于工业大数据实现故障预警，有针对性地提供维修等服务，实现“服务型制造”。

在马航MH370失联客机搜寻过程中，波音公司获取的发动机运转数据对于确定飞机的失联路径起到了关键作用。我们就拿波音公司飞机系统作为案例。在波音的飞机上，发动机、燃油系统、液压和电力系统等数以百计的变量组成了在航状态，这些数据不到几微秒就被测量和发送一次。

3.3工业生产链的应用

现代化工业制造生产线安装有数以千计的小型传感器，来探测温度、压力、热能、振动和噪声。因为每隔几秒就收集一次数据，利用这些数据可以实现很多形式的分析，包括设备诊断、用电量分析、能耗分析、质量事故分析（包括违反生产规定、零部件故障）等。

在生产工艺改进方面，在生产过程中使用这些大数据，就能分析整个生产流程，了解每个环节是如何执行的。一旦有某个流程偏离了标准工艺，就会产生一个报警信号，能更快速地发现错误或者瓶颈所在，也就能更容易解决问题。利用大数据技术可以对工业产品的生产过程建立虚拟模型，仿真并优化生产流程，当所有流程和绩效数据都能在系统中重建时，这种透明度将有助于制造商改进其生产流程。如图2所示为一个工厂的工业链的综合模型。

图2工业链综合模型

此工厂通过工业大数据将传感驱动的机器，车间，工厂，企业，供应链和正在使用的产品连接在一起，实时监控分析工厂的全部运转状况。在能耗分析方面，在设备生产过程中利用传感器集中监控所有的生产流程，能够发现能耗的异常或峰值情形，由此便可在生产过程中优化能源的消耗，对所有流程进行分析将会大大降低能耗。

3.4供应链的分析与优化

当前，大数据分析已经是很多电子商务企业提升供应链竞争力的重要手段。比如通过电子商务平台提前分析和预测各地商品需求量，从而提高配送和仓储的效能，保证了次日货到的客户体验。RFID等产品电子标识技术、物联网技术以及移动互联网技术能帮助工业企业获得完整的产品供应链的大数据，利用这些数据进行分析，将带来仓储、配送、销售效率的大幅提升和成本的大幅下降。

以海尔公司为例，海尔公司供应链体系很完善，它以市场链为纽带，以订单信息流为中

心，带动物流和资金流的运动，整合全球供应链资源和全球用户资源。在海尔供应链的各个

环节，客户数据、企业内部数据、供应商数据被汇总到供应链体系中，通过供应链上的大数

据采集和分析，海尔公司能够持续进行供应链改进和优化，保证了海尔对客户的敏捷响应。

4、工业互联网与大数据的关键技术

中国可以通过拥抱“工业互联网与大数据”，拥抱这一轮正在改变全球经济的数字创新来应对这个挑战。工业互联网与大数据领域已经涌现了大量的新技术，包括数字技术和物理技术、大数据与大机器的融合等。本节将从5个方面对新的机遇与挑战所面临的关键技术进行阐述。

4.1超级计算与大数据采集技术

超级计算终端就是能够将一些新的智能化设备所采集的大量的数据能够准确实时的分析及应用。这些产品的核心都是有一个强大的芯片。随处可及的超级智能终端，正在突破摩尔定律的芯片所赋予我们的想象空间。

大数据采集的重点是突破分布式高速高可靠数据爬取或采集、高速数据全映像等大数据收集技术；突破高速数据解析、转换与装载等大数据整合技术；设计质量评估模型，开发数据质量技术。针对大数据源的智能识别、感知、适配、传输、接入等是需要攻克的关键技术。

4.2数据预处理驱动机器工作自动化

大数据预处理主要完成对机器已接收数据的辨析、抽取、清洗等操作。因为获取的数据可能具有多种结构和类型，数据抽取过程可以将这些复杂的数据转化为单一的或者便于处理的构型，便于快速分析处理。大数据并不全是有价值的，有些数据并不是我们所需要的内容，而另一些数据则是错误的干扰项，因此要对数据通过过滤“去噪”从而提取出有效数据。机器通过数据处理后可以实现常规的互联网信息交互，模式识别、人工智能、机器学习等。

举个例子，GE有个风电部门，我们把传感器安装在每一个风机叶片上，通过对风机转速、风力、温度、湿度、环境等近百种数据的采集、分析，风机能够自己进行涡轮叶片转速的调整，不需要把数据传输到数据系统，通过浆片的角度调整能够增强风力，能够增加风力4%。

4.3工业互联网的数据存储、安全及标准制定

工业互联网数据存储与管理要用存储器把采集到的数据存储起来，建立相应的数据库，并进行管理和调用。但是在工业互联网逐渐兴起之后，真的要在企业包括跨企业之间获得普及，数据安全问题必须解决。通过数据管理驱动的重大设备，基础设施，即便像智能家居、智能汽车这样的领域，都会存在巨大的安全隐患和隐私隐患。2014年10月至2015年9月，美国发生了295起入侵关键基础设施的黑客攻击案件，如机场、隧道和炼油厂等。在世界各地，还有许多攻击事件未被曝光。对于传统互联网安全软件而言，工业安全领域依旧是一个盲点。

对于工业互联网方面的标准制定，应该讲现在是全球主要工业企业，乃至国家之间竞争的焦点。世界许多企业和国家都意识到它的高度重要性。譬如在上世纪的近四十年的时间里，德国每年3.3%的GDP增长中，标准的贡献率占到了0.9%，仅次于资本投入，而且比国内创新和直接购买技术来的更加重要。因此掌握标准话语权是我们在未来进行战略布局非常关键的一步。

4.4分析挖掘数据改变机器人工业流程

大数据分析技术主要改进已有数据挖掘和机器学习技术。目前中国工业中机器人用量较大，但是一些核心技术在日本和欧洲的公司手里的。国外公司在机器人开发的竞争当中采取新型策略，关键部件对中国企业采取高价措施，使得中国企业生产成本居高不下。

如果要打破这种瓶颈，我们必需要分析和挖掘机器人所涉及的大数据。数据挖掘涉及的领域比普通的领域（如数据统计）更为宽广，因为它主要倾向于回答比较重要的没有规律的问题。根据数据挖掘对象可分为关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库以及环球网Web。数据挖掘的流程图如图3所示：

图3 数据挖掘流程图

4.5分析应用大数据是达到人与机器融合

在工业互联网时代，脑机接口技术给我们提供了巨大的想象空间，人类不仅可以和机器产生互动，并且有可能控制机器。在人与机器互动的过程中，机器还可能读懂人类的意念，从而和人类发生深层次的融合。针这种复杂的结合关系，必须应用大数据技术整合很多更加全面的信息数字系统，或者是虚拟系统，将和物理世界之间产生高度的互动和相互的关联。

在这一方面，微软迈出了关键的一部。最近微软宣布和 Autodesk Fusion 360 合作，想把 Hololens 用于工业设计、机械设计和其他产品开发的领域，具体来说就是用来给设计师们构建立体模型时使用。比起普通显示器上的2D、3D模型，Hololens 能够更直观地用全息影像把设计作品的尺寸、信息呈现出来，对于设计师团队来说能够提高沟通效率，更好地消除交流障碍。而对于开发工程师来说，全息影像提供更简便的反馈，准确地将信息传达给设计师。如图4所示为Hololens所展示的增强现实视觉效果。

图4 增强现实效果图

5、实例介绍

本节主要内容为一个基于工业互联网与大数据的制造企业的系统模型及关键技术。根据下述应用的实例深入了解工业互联网与大数据在制造领域的技术应用。

5.1基于工业互联网的制造系统模型

在工业互联网与生产模式之间存在数据传递的接口环境，比如，传感器与驱动器、局域网、应用程序和网络安全软件。如图5所示为一个基于工业互联网的制造系统模型。工业互联能够通过传感器状态控制设备的状态，并通过驱动器能够实时调整设备的工作。图6描述了在制造过程中发动机组件的配置文件和刀具的旋转运动。因此工业互联网可以在线仿真、监控生产制造过程中各部件的状态并给控制器发送信号实时调整设备的制造过程。

图5工业互联网制造系统模型

图6 生产过程监控及复杂事件：工件和切削刀具的仿真文件

所有工业互联网系统间交换的数据扩展到由仿真模型支持的云制造环境中：个体云、团体云和公共云。

5.2大数据的形成及形式

结构化与非结构化数据如图7所示，结构化数据随时间变化的制造过程的数据，设备间互联形成的数据及供应链相关的数据，非结构化数据指社会网络数据、客户服务数据及市场数据。大数据处理工具必须能够对大数据进行实时分析，这样才能及时解决随时间发生的问题降低制造成本。

图7结构化与非结构化数据

通过工业互联网与大数据的结合可以实时处理在生产制造过程中的突发问题。图8所示为实时处理生产制造问题的模型，在生产制造过程中有时会用到适当的数学算法去预测和解决可能出现的问题。生产制造车间里面的内部事件、外部事件、接口因素和环境模式的数据统一通过互联网集成到数据处理的云平台上，云平台根据一定的算法分析数据形成一套解决方案并对解决的问题进行实时监控。对生产制造进行周期性的问题分析，找出大数据中的规律，从而预测可能发生的问题，为生产制造避免可能发生的损失。

图8 实时处理生产问题模型

所有预测和需要解决的问题都是分析工业互联网所采集的大数据实现的。如文献描述了在生产制造过程中预处理事件的过程，即调查分析大数据解决将实时发生的问题和可能发生的问题。

6、总结与展望

工业互联网与大数据革命已经展开。我国很多企业开始逐渐将互联网技术应用在工业生产，尽管如此，我们目前还远低于工业互联网应用极限；基于工业互联网的数字技术还没有将全部潜力充分实现与全球产业系。当工业互联网的三大要素智能设备、智能系统和智能决策与机器、设备、机组和网络整合在一起的时候，工业互联网的全部潜能就会体现出来。生产率提高、成本降低和废物排放的减少所带来的益处将带动整个工业经济发展。

通过以上对工业互联网与大数据的调查与研究，我们可以预测工业互联网与大数据可以给我们的工业发展带来颠覆性的改变。未来20年最有可能改革制造领域的首先是半导体、先进材料、添加制造技术、生物制造等等，我们说未来工厂要从数字化制造到数字化工程。我们未来的工业可以实现整个工厂的数字化，甚至延伸到产业链的外部，包括供应链。

工业互联网应用案例：大规模真实工业场景的神经网络控制系统在谷歌上线

AI 科技评论按：即便深度学习和其它机器学习方法近几年已经取得了不小的发展，但是把它们直接应用在真实工业场景中、让它们直接控制工业系统还未曾见到。深度学习本身缺乏鲁棒性、面对新状况难以预测行为等一些特性固然是重要的掣肘之处，如何让算法逐步提高控制范围、协调与人类的协作方式也是难题。DeepMind 和谷歌最近就做出了新一步尝试，取得了不小的成功，然后在 DeepMind 博客上进行了介绍。AI 科技评论编译如下。

我们人类社会面对的许多紧迫问题中，有许多问题还在变得越来越复杂，所有人都急切地想要找到好的解决方法。对于 DeepMind 和谷歌来说，他们相信如果人类可以把 AI 作为探寻新知识的工具加以利用，找到解决方法就会容易得多。

2016 年时，DeepMind 和谷歌联手开发了一个基于 AI 的动作推荐系统，向负责维护、调节冷却系统的数据中心运营人员推荐不同状况下的应对方法，它让谷歌当时已经具有很高能源效率的推荐系统数据中心向前更进了一步。他们的出发点也很简单，为了应对全球气候变化，大型能耗场所的一点点小改进也能在在减少能源消耗、减少二氧化碳排放方面有重大影响。

最近，DeepMind 把这个系统升级到了一个全新的级别上：不再像原来的系统那样向人类推荐一些动作，然后由人类去完成，AI 系统现在会直接控制数据中心的冷却系统，当然了它也仍然受到数据中心运营人员的专业监控。这是首个基于云的控制系统，已经在多个谷歌的数据中心中安静地运行、持续地节省能源。

工作方式

每隔 5 分钟，这个基于云的 AI 会从数据中心的数千个传感器中采集数据，获得数据中心冷却系统的状态快照，然后把它输入深度神经网络。这个网络会预测各种可能的操作的不同组合会如何影响数据中心的能量消耗。然后 AI 就会就会在满足鲁棒安全性限制的条件下判断出一组能够最小化能源消耗的动作。这些动作的判断结果接下来会被发回给数据中心，由本地的控制系统验证并执行。

这种系统运行的想法其实来自于在数据中心使用原来那个 AI 推荐系统的操作人员。他们告诉 DeepMind 的研究人员们，虽然系统给他们教了一些最新最好的操作技巧，比如让冷却介质覆盖更多的设备，而不是更少，但是实现这些推荐操作其实需要花费非常多的操作精力和长期规划。所以他们自然地就很想知道，能不能不需要人来出力就达到类似的能源节省效果。

现在他们就可以很高兴地宣布，答案是能。谷歌的一位数据库操作人员表示：「我们希望可以节省能源，同时也降低操作人员的工作强度。自动化的系统就可以让我们以更高的频率执行更细粒度的行动，同时出的错误还更少。」

兼顾安全性和可靠性

谷歌的数据中心里一般都有上千台服务器，它们支撑着谷歌搜索、Gmail、YouTube 等用户们每天都会使用的服务。确保这些服务可以可靠、高效地运行是最关键的一件事。DeepMind 和谷歌一起设计 AI 智能体以及背后的控制界面时，都是带着安全、可靠的思维从头设计的，还使用了 8 种不同的机制确保系统能够总是能够按照预期行动。

他们使用的方法里，其中一种较为简单的是估计不确定性。对于总计上亿个可能的动作中的每一种，AI 智能体都需要计算自己认为这是一个好的动作的信心。估计出来信心太低的动作就不去考虑了。

另一个方法是两层验证。AI 计算出的最优行动首先需要根据一个内置的、由数据中心运营人员们制定的安全限制清单做检查。计算的结果通过检查、从云端发送到实际的数据中心之后，当地的控制系统还会再次把指令根据自己的一套安全限制清单再检查一遍。这种冗余设计的检查流程确保了系统的运行总是在当地的限制之内的，操作人员们也总是对操作的边界有完全的控制。

最重要的是，谷歌的数据中心总是会受到人类的完全控制的，人类随时可以选择退出 AI 控制模式。这时候，控制系统会自动从 AI 控制无缝地切换到基于现代自动化工业使用的基于现场规则的以及启发式设计的控制系统。

他们设计的其它安全机制如下图：

连续监控、自动错误重启、平滑切换、两层验证、不间断通讯、不确定性估计、规则与启发式设计的备用控制系统、人类指令优先

越用越节省能源

相比于原来的动作推荐系统需要操作人员自己检查以及实施推荐的动作，新的 AI 控制系统是自己直接实现这些动作的。DeepMind 和谷歌的研究人员在开发它时也有有意识地把系统的优化边界设定到了一个更窄更小的策略中，让它把安全和可靠作为首要目标，也就是说对于节约能源的目标来说，它需要在过于节约导致的不稳定风险和优化不足的低反馈之间找到平衡。

虽然只上线了几个月时间，这个系统已经可以稳定地节约平均 30% 左右的能源，而且他们还期待系统未来可以改善更多。这是因为随着数据更多，系统的优化判断能力也会变得更强，如下图。随着技术越来越成熟，DeepMind 和谷歌的研究人员未来也会把系统的优化边界设置得宽松一些，来达到更好的能源节约效果。

这个 AI 直接控制的系统时不时找到一些新的方法管理冷却系统，有一些方法甚至让数据库操作人员觉得惊讶。与这个系统紧密协作的一位谷歌数据中心运营人员就惊讶道：「这个 AI 会利用冬天外面比较冷的特点，产生比平时更冷的冷却水，然后减少了给数据中心降温所需的能源消耗。规则是不会自己变得越来越好的，但是 AI 可以啊。」

对于已经安全运行、独立运行、降低能耗的 AI 直接控制系统，DeepMind 和谷歌都觉得非常激动。不过，在数据中心中使用这样的系统才仅仅是个开始。在长远的未来，他们认为还有很多的潜力把这样的技术运用在其他工业场景中，也就可以在更大的规模上帮助对抗气候变化。

via deepmind.com，AI 科技评论编译

工业互联网应用反思：人做决策换成算法决策就公平了吗？

《哈佛商业评论》(Harvard Business Review)最近发表了一篇文章《不想被偏见左右？那就用算法！》作者是亚历克斯·p·米勒。这篇文章谈到，人类常常做出有带有偏见性的决定（确实如此），所以他认为更多的地使用算法代替人类做决定是一个不错的选择。

「如何提高算法的公平性」是机器学习领域经常谈及的话题，但是直接认为算法的偏见就是比人类少，马上引起了不少反对之声。在 AI 科技评论编译的这篇文章里，Rachel Thomas 就逐项提出了自己的反驳。

他认为米勒忽略了许多重要的相关因素，包括:

算法实现的时候通常不会设计一个用来申诉的途径（因为很多人误以为算法是客观、精准且不会出错的）
在许多情况下，算法的使用范围比人类的决策者规模大得多，所以会把完全相同的偏见也散播到同样大的范围中去（算法之所以吸引人，一部分原因就是因为使用成本低）
算法的使用者可能不理解概率或置信区间（即使已经注明），并且在实际操作中可能也不愿去推翻算法的决定（即便这在技术上是完全可行的）
与其只关注这些不置可否的选择，不如好好考虑如何将人类和机器的优势相结合，以便创造出更好的、偏见更少的决策工具。

米勒在《不想被偏见左右？那就用算法！》中承认，「算法革命」的批评者是在担心「算法在运用时会不透明、带有偏见，成为无法解释的工具」，但他在自己的文章中却只提到了「偏见」，而忽略了「不透明」和「无法解释」（以及它们和「偏见」之间的化学反应）。

人机结合才是最优方案

媒体总是通过人类和机器的对比来证明 AI 的进步，比如我们常会看到媒体报道，谁才是某项任务的冠军。若考虑到大多数算法一般都是用来做什么的，这种比较其实并不科学，同时这样评价人工智能也十分狭隘。因为在所有案例中，算法都有人类的参与，尤其是在搜集数据、制定决策、实现方式、解读结果及因人而异的理解等方面，都会受到人类的左右。

多数从事人工智能医学应用的研究人员，事实上并不打算用机器来完全取代医生，他们只想利用人工智能来帮助医生，使他们的决策能更加准确和效率，并提高医疗质量。要知道，史上最强的从来不是人与机器中的一个，而是并肩协作的人类与计算机组成的团队。

米勒（正确地）认为，人类是非常有偏见的，然后他对比了几种现有的并不完善的改善方案，想从里面挑出不那么糟糕的一种。但他却并未提出实质性的思考：怎样才能减少偏见，作出更好的决策呢？（也许是通过一些人与算法的结合？）我想，这个问题更值得考量。

人机决策方式根本不同

算法在实际中运用范围很广，因而也会出现许多相同的偏见，但这种偏见却会被认为是正确或客观的结果。米勒的研究中，把它们拿来做了完全并列的对比，但他没有注意到实际使用中的区别。

凯茜•奥尼尔(Cathy O 'Neil)在《摧毁数学的武器》(Weapons of Math Destruction)中写道，她所批评的那类算法更倾向于祸及穷人。它们专注于处理相对便宜而又大规模的任务，当然，价格低是它的优势。相反，富人却常倾向于选择「人」。要知道，大公司或者贵族学校常倾向于内部推荐或面对面的面试，而不会像财力不足的企业那样使用机器进行群体筛选。佼佼者往往会动用人力，而机器常被派遣去做相对初级的选拔。

凯茜在书中举了的一个例子，有一位患双相情感障碍的大学生，他想在暑假里找一份装杂货的工作。但由于他申请的每一家便利店都在使用相同的心理测量软件来筛选求职者，因此他被每家便利店都拒绝了。这体现出算法的另一隐患：即使人类经常有类似的偏见，但并不是所有的人都会做出相同的决定。如有可能，他也许能找到一个即使知道他的心理疾病仍然愿意雇佣他的老板。

许多人宁愿相信算法做出的决策，也不愿信任人类的决定。事实上，设计算法的研究者们可能对概率和置信区间有更多的了解，但真正使用这些算法的普通大众却不会注意到这一点。即使给了他们推翻算法决策的权力，在实际操作他们也不一定愿意这样做。

算法的解释也值得重视

很多关于算法偏见的案例，其实都缺乏有意义的解释或申诉过程。这看似是算法决策过程中的特殊趋势，也许是因为人们错误地认为算法就是客观的，所以没必要允许对结果进行申诉。与此同时，正如上文所说的那样，算法决策系统本来是为了削减成本，如果要允许申诉的话，这功夫就白费了。

凯茜·奥尼尔(Cathy O’neil)还提到，有位深受学生、家长和校长喜爱的老师，却莫名被算法开除了。她永远都没办法知道算法是因为什么原因而开除她的！如果有一种相对快捷、简单的方式来让她提出申诉，甚至即便只是让她确切知道这和什么因素有关，这故事就不会那么令人扼腕了。

有一个软件在美国一半以上的州使用着，它会决定每个人接受的医疗保健服务应该有多少。根据 The Verge 的调查，这种软件在阿肯色州实施后，许多患有严重残疾的人医疗保健骤然大幅削减。比如，一位患有脑瘫的女性 Tammy Dobbs，她本需要一个帮助来帮助她完成起床，上厕所，吃东西等日常生活行为的人，但其受助时间却突然减少到每周 20 个小时。没有任何人能向她解释为什么医疗保健服务一下子变少了。最终，经过法院调查，是该软件的算法错了，因此对糖尿病或脑瘫患者产生了负面影响。然而，像 Tammy Dobbs 类似的许多病人依然生活在恐惧之中，总担心他们的福利又会莫名其妙地被削减。

这个算法的创造者是一位教授，他从这个软件中赚取版税。然而在被问及此事时，他却认为这是别人的责任。我们可不能推卸自己的技术问题给别人。

2000 年代中期，科罗拉多州使用了一个单独的计算机系统来确定公共福利，结果被发现有超过 900 条的错误规定被输入到了里面，导致了一系列问题。比如，孕妇无法享受医疗补助。律师们通常很难发现这些漏洞，因为这些内部工作机制就像商业秘密一样受保护。所以说，医疗保健、雇佣/解雇、刑事司法和其他会对人们的生活造成重要改变的领域的决策系统，应该创建出一个快速且易于操作的申诉机制。这些令人不安的事故中，如果有一种简单高效的方法来纠正算法的错误就好了。犯错是难免的，正因如此，有一个严密的系统来发现和纠正这些错误是不可或缺的。

复杂的现实世界的系统

当我们谈及人工智能时，我们需要考虑的是在这个现实世界中复杂的系统。《哈佛商业评论》中提到的研究将决策看成孤立的行为，并没有考虑所处的环境。就好比判断一个人是否会坦白其他罪行，这种决定并不能孤立做出，还需要结合复杂的法律系统。我们有必要了解研究领域所处的真实环境是如何交互运作的，同时别忽略那些可能会受到影响的人。

在美国的一些法庭上，对于审前保释、量刑和假释有关的判决，都使用了 COMPAS 算法。在 ProPublica 的一项中调查发现，白人被告人的结果误报率是 24%（这里的误报是说，算法判断这个人释放时是「高危」的，但此后并没有二进宫），而黑人被告的误报率高达 45%。后来的研究发现，COMPAS 事实上还不如一个简单的线性方程精确。(你可以在普林斯顿计算机科学学院教授 Arvind Narayanan 的《21个关于公平的定义》中找到更多关于公平的定义，https://www.youtube.com/watch?v=wqamrPkF5kk )。

克里斯蒂安•林（Kristian Lum）是一名统计学博士，也是人权数字分析集团（Human Rights Digital Analysis Group）的首席数据科学家。她与纽约法律援助协会（NY Legal Aid Society）的律师、前公设辩护人伊丽莎白•本德（Elizabeth Bender）以及一名被捕却无辜的男子，特伦斯•威尔克森（Terrence Wilkerson）一起组织了一个研讨会。他们一起分享了关于法律体系中所存在的漏洞的应对经验，为围绕 COMPAS 的辩论提供了宝贵的讨论素材。 Bender 分享说，纽约市的无力负担保释费用、也尚未经过审判的被捕公民都会被关押监禁在 Rikers Island，政府付费的公共辩护人去那里见他们的时候来回各需要两个小时，但是实际面见需要法律服务的那个人的时间才不到 30 分钟，假如守卫们动作麻利、守时的话（但往往不是这样的）。威尔克森详细介绍了这些无力缴纳保释金的无辜被捕者有多么经常同意签署认罪协议，只为了他们可以更快地出狱。请不要忘了，这些都是发生在一群从来没有上过法庭的人身上！这个圆桌讨论是一个阐明现实世界与复杂系统之间关系的绝好例子，真希望更多的统计学家和计算机科学家能像他们学习。

由此可见，算法也许会加剧潜在的社会问题，比如法院和监狱系统啦，跟种族偏见挂钩的保释金使用啦等等。所以我们有责任去了解算法可能会接触的系统以及它们可能会遇到的问题。

反对偏见不是反对算法

大多数对算法偏见持反对意见的人，都只是在反对不公平的偏见，而不是反对算法本身。米勒说，这些批评算法不公平的人「很少问他们分析的系统在没有算法的情况下运行得有多好」，这表明那些反对者可能并不知道人类带有多少偏见，或就只是单纯排斥算法。在我开始撰写有关机器学习偏见的文章之前，我就花了大量时间研究和撰写有关人类的偏见（特别是关于它们如何与科技行业相关的研究）。

当我在 twitter 上分享有关偏见的算法时，常会遭到反驳，认为我是反算法/科技人士。我有数学的博士学位，我曾做过量化分析师、数据科学家和软件工程师，并创建了一个免费的在线计算线性代数课程，且与别人合作创立了 fast.ai ，它有面向程序员的深度学习实操课程，并通过算法的巧妙运用赢得了斯坦福大学的计算机视觉速度测试。

我不是唯一这样的人：大多数直言不讳批评带有偏见的算法的人，都有计算机科学、数学或统计学博士学位，且持续活跃在他们的领域里。只要看看 Faireness Accountability and Transparency Conference 的一些发言者就懂了。好比普林斯顿大学的计算机科学教授 Arvind Narayanan，他是 Kaggle 社交网络挑战赛的冠军，也是一门流行的加密货币课程的老师，他依然公开反对过算法偏见。

所以，我希望有关偏见算法的讨论不要总是拘泥在这种无足轻重的地方，而要深入问题的本质。

via fast.ai， AI 科技评论编译