2018年2月25日,在平昌冬奥会闭幕式“北京8分钟”表演中,由沈阳新松机器人自动化股份有限公司研发的智能移动机器人与轮滑演员进行表演。 新华社记者 李钢/摄
2018年5月3日,中国科学院发布国内首款云端人工智能芯片,理论峰值速度达每秒128万亿次定点运算,达到世界先进水平。 新华社记者 金立旺/摄
2017年10月,在沙特阿拉伯首都利雅得举行的“未来投资倡议”大会上,机器人索菲亚被授予沙特公民身份,她也因此成为全球首个获得公民身份的机器人。图为2018年7月10日,在香港会展中心,机器人索菲亚亮相主舞台。 ISAAC LAWRENCE/视觉中国
2018年11月22日, 在“伟大的变革——庆祝改革开放40周年大型展览”上,第三代国产骨科手术机器人“天玑”正在模拟做手术,它是国际上首个适应症覆盖脊柱全节段和骨盆髋臼手术的骨科机器人,性能指标达到国际领先水平。 麦田/视觉中国
如同蒸汽时代的蒸汽机、电气时代的发电机、信息时代的计算机和互联网,人工智能正成为推动人类进入智能时代的决定性力量。全球产业界充分认识到人工智能技术引领新一轮产业变革的重大意义,纷纷转型发展,抢滩布局人工智能创新生态。世界主要发达国家均把发展人工智能作为提升国家竞争力、维护国家安全的重大战略,力图在国际科技竞争中掌握主导权。习近平总书记在十九届中央政治局第九次集体学习时深刻指出,加快发展新一代人工智能是事关我国能否抓住新一轮科技革命和产业变革机遇的战略问题。错失一个机遇,就有可能错过整整一个时代。新一轮科技革命与产业变革已曙光可见,在这场关乎前途命运的大赛场上,我们必须抢抓机遇、奋起直追、力争超越。
概念与历程
了解人工智能向何处去,首先要知道人工智能从何处来。1956年夏,麦卡锡、明斯基等科学家在美国达特茅斯学院开会研讨“如何用机器模拟人的智能”,首次提出“人工智能(Artificial Intelligence,简称AI)”这一概念,标志着人工智能学科的诞生。
人工智能是研究开发能够模拟、延伸和扩展人类智能的理论、方法、技术及应用系统的一门新的技术科学,研究目的是促使智能机器会听(语音识别、机器翻译等)、会看(图像识别、文字识别等)、会说(语音合成、人机对话等)、会思考(人机对弈、定理证明等)、会学习(机器学习、知识表示等)、会行动(机器人、自动驾驶汽车等)。
人工智能充满未知的探索道路曲折起伏。如何描述人工智能自1956年以来60余年的发展历程,学术界可谓仁者见仁、智者见智。我们将人工智能的发展历程划分为以下6个阶段:
一是起步发展期:1956年—20世纪60年代初。人工智能概念提出后,相继取得了一批令人瞩目的研究成果,如机器定理证明、跳棋程序等,掀起人工智能发展的第一个高潮。
二是反思发展期:20世纪60年代—70年代初。人工智能发展初期的突破性进展大大提升了人们对人工智能的期望,人们开始尝试更具挑战性的任务,并提出了一些不切实际的研发目标。然而,接二连三的失败和预期目标的落空(例如,无法用机器证明两个连续函数之和还是连续函数、机器翻译闹出笑话等),使人工智能的发展走入低谷。
三是应用发展期:20世纪70年代初—80年代中。20世纪70年代出现的专家系统模拟人类专家的知识和经验解决特定领域的问题,实现了人工智能从理论研究走向实际应用、从一般推理策略探讨转向运用专门知识的重大突破。专家系统在医疗、化学、地质等领域取得成功,推动人工智能走入应用发展的新高潮。
四是低迷发展期:20世纪80年代中—90年代中。随着人工智能的应用规模不断扩大,专家系统存在的应用领域狭窄、缺乏常识性知识、知识获取困难、推理方法单一、缺乏分布式功能、难以与现有数据库兼容等问题逐渐暴露出来。
五是稳步发展期:20世纪90年代中—2010年。由于网络技术特别是互联网技术的发展,加速了人工智能的创新研究,促使人工智能技术进一步走向实用化。1997年国际商业机器公司(简称IBM)深蓝超级计算机战胜了国际象棋世界冠军卡斯帕罗夫,2008年IBM提出“智慧地球”的概念。以上都是这一时期的标志性事件。
六是蓬勃发展期:2011年至今。随着大数据、云计算、互联网、物联网等信息技术的发展,泛在感知数据和图形处理器等计算平台推动以深度神经网络为代表的人工智能技术飞速发展,大幅跨越了科学与应用之间的“技术鸿沟”,诸如图像分类、语音识别、知识问答、人机对弈、无人驾驶等人工智能技术实现了从“不能用、不好用”到“可以用”的技术突破,迎来爆发式增长的新高潮。
现状与影响
对于人工智能的发展现状,社会上存在一些“炒作”。比如说,认为人工智能系统的智能水平即将全面超越人类水平、30年内机器人将统治世界、人类将成为人工智能的奴隶,等等。这些有意无意的“炒作”和错误认识会给人工智能的发展带来不利影响。因此,制定人工智能发展的战略、方针和政策,首先要准确把握人工智能技术和产业发展的现状。
专用人工智能取得重要突破。从可应用性看,人工智能大体可分为专用人工智能和通用人工智能。面向特定任务(比如下围棋)的专用人工智能系统由于任务单一、需求明确、应用边界清晰、领域知识丰富、建模相对简单,形成了人工智能领域的单点突破,在局部智能水平的单项测试中可以超越人类智能。人工智能的近期进展主要集中在专用智能领域。例如,阿尔法狗(AlphaGo)在围棋比赛中战胜人类冠军,人工智能程序在大规模图像识别和人脸识别中达到了超越人类的水平,人工智能系统诊断皮肤癌达到专业医生水平。
通用人工智能尚处于起步阶段。人的大脑是一个通用的智能系统,能举一反三、融会贯通,可处理视觉、听觉、判断、推理、学习、思考、规划、设计等各类问题,可谓“一脑万用”。真正意义上完备的人工智能系统应该是一个通用的智能系统。目前,虽然专用人工智能领域已取得突破性进展,但是通用人工智能领域的研究与应用仍然任重而道远,人工智能总体发展水平仍处于起步阶段。当前的人工智能系统在信息感知、机器学习等“浅层智能”方面进步显著,但是在概念抽象和推理决策等“深层智能”方面的能力还很薄弱。总体上看,目前的人工智能系统可谓有智能没智慧、有智商没情商、会计算不会“算计”、有专才而无通才。因此,人工智能依旧存在明显的局限性,依然还有很多“不能”,与人类智慧还相差甚远。
人工智能创新创业如火如荼。全球产业界充分认识到人工智能技术引领新一轮产业变革的重大意义,纷纷调整发展战略。比如,谷歌在其2017年年度开发者大会上明确提出发展战略从“移动优先”转向“人工智能优先”,微软2017财年年报首次将人工智能作为公司发展愿景。人工智能领域处于创新创业的前沿。麦肯锡公司报告指出,2016年全球人工智能研发投入超300亿美元并处于高速增长阶段;全球知名风投调研机构CB Insights报告显示,2017年全球新成立人工智能创业公司1100家,人工智能领域共获得投资152亿美元,同比增长141%。
创新生态布局成为人工智能产业发展的战略高地。信息技术和产业的发展史,就是新老信息产业巨头抢滩布局信息产业创新生态的更替史。例如,传统信息产业代表企业有微软、英特尔、IBM、甲骨文等,互联网和移动互联网时代信息产业代表企业有谷歌、苹果、脸书、亚马逊、阿里巴巴、腾讯、百度等。人工智能创新生态包括纵向的数据平台、开源算法、计算芯片、基础软件、图形处理器等技术生态系统和横向的智能制造、智能医疗、智能安防、智能零售、智能家居等商业和应用生态系统。目前智能科技时代的信息产业格局还没有形成垄断,因此全球科技产业巨头都在积极推动人工智能技术生态的研发布局,全力抢占人工智能相关产业的制高点。
人工智能的社会影响日益凸显。一方面,人工智能作为新一轮科技革命和产业变革的核心力量,正在推动传统产业升级换代,驱动“无人经济”快速发展,在智能交通、智能家居、智能医疗等民生领域产生积极正面影响。另一方面,个人信息和隐私保护、人工智能创作内容的知识产权、人工智能系统可能存在的歧视和偏见、无人驾驶系统的交通法规、脑机接口和人机共生的科技伦理等问题已经显现出来,需要抓紧提供解决方案。
趋势与展望
经过60多年的发展,人工智能在算法、算力(计算能力)和算料(数据)等“三算”方面取得了重要突破,正处于从“不能用”到“可以用”的技术拐点,但是距离“很好用”还有诸多瓶颈。那么在可以预见的未来,人工智能发展将会出现怎样的趋势与特征呢?
从专用智能向通用智能发展。如何实现从专用人工智能向通用人工智能的跨越式发展,既是下一代人工智能发展的必然趋势,也是研究与应用领域的重大挑战。2016年10月,美国国家科学技术委员会发布《国家人工智能研究与发展战略计划》,提出在美国的人工智能中长期发展策略中要着重研究通用人工智能。阿尔法狗系统开发团队创始人戴密斯·哈萨比斯提出朝着“创造解决世界上一切问题的通用人工智能”这一目标前进。微软在2017年成立了通用人工智能实验室,众多感知、学习、推理、自然语言理解等方面的科学家参与其中。
从人工智能向人机混合智能发展。借鉴脑科学和认知科学的研究成果是人工智能的一个重要研究方向。人机混合智能旨在将人的作用或认知模型引入到人工智能系统中,提升人工智能系统的性能,使人工智能成为人类智能的自然延伸和拓展,通过人机协同更加高效地解决复杂问题。在我国新一代人工智能规划和美国脑计划中,人机混合智能都是重要的研发方向。
从“人工+智能”向自主智能系统发展。当前人工智能领域的大量研究集中在深度学习,但是深度学习的局限是需要大量人工干预,比如人工设计深度神经网络模型、人工设定应用场景、人工采集和标注大量训练数据、用户需要人工适配智能系统等,非常费时费力。因此,科研人员开始关注减少人工干预的自主智能方法,提高机器智能对环境的自主学习能力。例如阿尔法狗系统的后续版本阿尔法元从零开始,通过自我对弈强化学习实现围棋、国际象棋、日本将棋的“通用棋类人工智能”。在人工智能系统的自动化设计方面,2017年谷歌提出的自动化学习系统(AutoML)试图通过自动创建机器学习系统降低人员成本。
人工智能将加速与其他学科领域交叉渗透。人工智能本身是一门综合性的前沿学科和高度交叉的复合型学科,研究范畴广泛而又异常复杂,其发展需要与计算机科学、数学、认知科学、神经科学和社会科学等学科深度融合。随着超分辨率光学成像、光遗传学调控、透明脑、体细胞克隆等技术的突破,脑与认知科学的发展开启了新时代,能够大规模、更精细解析智力的神经环路基础和机制,人工智能将进入生物启发的智能阶段,依赖于生物学、脑科学、生命科学和心理学等学科的发现,将机理变为可计算的模型,同时人工智能也会促进脑科学、认知科学、生命科学甚至化学、物理、天文学等传统科学的发展。
人工智能产业将蓬勃发展。随着人工智能技术的进一步成熟以及政府和产业界投入的日益增长,人工智能应用的云端化将不断加速,全球人工智能产业规模在未来10年将进入高速增长期。例如,2016年9月,咨询公司埃森哲发布报告指出,人工智能技术的应用将为经济发展注入新动力,可在现有基础上将劳动生产率提高40%;到2035年,美、日、英、德、法等12个发达国家的年均经济增长率可以翻一番。2018年麦肯锡公司的研究报告预测,到2030年,约70%的公司将采用至少一种形式的人工智能,人工智能新增经济规模将达到13万亿美元。
人工智能将推动人类进入普惠型智能社会。“人工智能+X”的创新模式将随着技术和产业的发展日趋成熟,对生产力和产业结构产生革命性影响,并推动人类进入普惠型智能社会。2017年国际数据公司IDC在《信息流引领人工智能新时代》白皮书中指出,未来5年人工智能将提升各行业运转效率。我国经济社会转型升级对人工智能有重大需求,在消费场景和行业应用的需求牵引下,需要打破人工智能的感知瓶颈、交互瓶颈和决策瓶颈,促进人工智能技术与社会各行各业的融合提升,建设若干标杆性的应用场景创新,实现低成本、高效益、广范围的普惠型智能社会。
人工智能领域的国际竞争将日益激烈。当前,人工智能领域的国际竞赛已经拉开帷幕,并且将日趋白热化。2018年4月,欧盟委员会计划2018—2020年在人工智能领域投资240亿美元;法国总统在2018年5月宣布《法国人工智能战略》,目的是迎接人工智能发展的新时代,使法国成为人工智能强国;2018年6月,日本《未来投资战略2018》重点推动物联网建设和人工智能的应用。世界军事强国也已逐步形成以加速发展智能化武器装备为核心的竞争态势,例如美国特朗普政府发布的首份《国防战略》报告即谋求通过人工智能等技术创新保持军事优势,确保美国打赢未来战争;俄罗斯2017年提出军工拥抱“智能化”,让导弹和无人机这样的“传统”兵器威力倍增。
人工智能的社会学将提上议程。为了确保人工智能的健康可持续发展,使其发展成果造福于民,需要从社会学的角度系统全面地研究人工智能对人类社会的影响,制定完善人工智能法律法规,规避可能的风险。2017年9月,联合国犯罪和司法研究所(UNICRI)决定在海牙成立第一个联合国人工智能和机器人中心,规范人工智能的发展。美国白宫多次组织人工智能领域法律法规问题的研讨会、咨询会。特斯拉等产业巨头牵头成立OpenAI等机构,旨在“以有利于整个人类的方式促进和发展友好的人工智能”。
态势与思考
当前,我国人工智能发展的总体态势良好。但是我们也要清醒看到,我国人工智能发展存在过热和泡沫化风险,特别在基础研究、技术体系、应用生态、创新人才、法律规范等方面仍然存在不少值得重视的问题。总体而言,我国人工智能发展现状可以用“高度重视,态势喜人,差距不小,前景看好”来概括。
高度重视。党中央、国务院高度重视并大力支持发展人工智能。习近平总书记在党的十九大、2018年两院院士大会、全国网络安全和信息化工作会议、十九届中央政治局第九次集体学习等场合多次强调要加快推进新一代人工智能的发展。2017年7月,国务院发布《新一代人工智能发展规划》,将新一代人工智能放在国家战略层面进行部署,描绘了面向2030年的我国人工智能发展路线图,旨在构筑人工智能先发优势,把握新一轮科技革命战略主动。国家发改委、工信部、科技部、教育部等国家部委和北京、上海、广东、江苏、浙江等地方政府都推出了发展人工智能的鼓励政策。
态势喜人。据清华大学发布的《中国人工智能发展报告2018》统计,我国已成为全球人工智能投融资规模最大的国家,我国人工智能企业在人脸识别、语音识别、安防监控、智能音箱、智能家居等人工智能应用领域处于国际前列。根据2017年爱思唯尔文献数据库统计结果,我国在人工智能领域发表的论文数量已居世界第一。近两年,中国科学院大学、清华大学、北京大学等高校纷纷成立人工智能学院,2015年开始的中国人工智能大会已连续成功召开四届并且规模不断扩大。总体来说,我国人工智能领域的创新创业、教育科研活动非常活跃。
差距不小。目前我国在人工智能前沿理论创新方面总体上尚处于“跟跑”地位,大部分创新偏重于技术应用,在基础研究、原创成果、顶尖人才、技术生态、基础平台、标准规范等方面距离世界领先水平还存在明显差距。在全球人工智能人才700强中,中国虽然入选人数名列第二,但远远低于约占总量一半的美国。2018年市场研究顾问公司Compass Intelligence对全球100多家人工智能计算芯片企业进行了排名,我国没有一家企业进入前十。另外,我国人工智能开源社区和技术生态布局相对滞后,技术平台建设力度有待加强,国际影响力有待提高。我国参与制定人工智能国际标准的积极性和力度不够,国内标准制定和实施也较为滞后。我国对人工智能可能产生的社会影响还缺少深度分析,制定完善人工智能相关法律法规的进程需要加快。
前景看好。我国发展人工智能具有市场规模、应用场景、数据资源、人力资源、智能手机普及、资金投入、国家政策支持等多方面的综合优势,人工智能发展前景看好。全球顶尖管理咨询公司埃森哲于2017年发布的《人工智能:助力中国经济增长》报告显示,到2035年人工智能有望推动中国劳动生产率提高27%。我国发布的《新一代人工智能发展规划》提出,到2030年人工智能核心产业规模超过1万亿元,带动相关产业规模超过10万亿元。在我国未来的发展征程中,“智能红利”将有望弥补人口红利的不足。
当前是我国加强人工智能布局、收获人工智能红利、引领智能时代的重大历史机遇期,如何在人工智能蓬勃发展的浪潮中选择好中国路径、抢抓中国机遇、展现中国智慧等,需要深入思考。
树立理性务实的发展理念。任何事物的发展不可能一直处于高位,有高潮必有低谷,这是客观规律。实现机器在任意现实环境的自主智能和通用智能,仍然需要中长期理论和技术积累,并且人工智能对工业、交通、医疗等传统领域的渗透和融合是个长期过程,很难一蹴而就。因此,发展人工智能要充分考虑到人工智能技术的局限性,充分认识到人工智能重塑传统产业的长期性和艰巨性,理性分析人工智能发展需求,理性设定人工智能发展目标,理性选择人工智能发展路径,务实推进人工智能发展举措,只有这样才能确保人工智能健康可持续发展。
重视固本强基的原创研究。人工智能前沿基础理论是人工智能技术突破、行业革新、产业化推进的基石。面临发展的临界点,要想取得最终的话语权,必须在人工智能基础理论和前沿技术方面取得重大突破。我们要按照习近平总书记提出的支持科学家勇闯人工智能科技前沿“无人区”的要求,努力在人工智能发展方向和理论、方法、工具、系统等方面取得变革性、颠覆性突破,形成具有国际影响力的人工智能原创理论体系,为构建我国自主可控的人工智能技术创新生态提供领先跨越的理论支撑。
构建自主可控的创新生态。我国人工智能开源社区和技术创新生态布局相对滞后,技术平台建设力度有待加强。我们要以问题为导向,主攻关键核心技术,加快建立新一代人工智能关键共性技术体系,全面增强人工智能科技创新能力,确保人工智能关键核心技术牢牢掌握在自己手里。要着力防范人工智能时代“空心化”风险,系统布局并重点发展人工智能领域的“新核高基”:“新”指新型开放创新生态,如产学研融合等;“核”指核心关键技术与器件,如先进机器学习技术、鲁棒模式识别技术、低功耗智能计算芯片等;“高”指高端综合应用系统与平台,如机器学习软硬件平台、大型数据平台等;“基”指具有重大原创意义和技术带动性的基础理论与方法,如脑机接口、类脑智能等。同时,我们要重视人工智能技术标准的建设、产品性能与系统安全的测试。特别是我国在人工智能技术应用方面走在世界前列,在人工智能国际标准制定方面应当掌握话语权,并通过实施标准加速人工智能驱动经济社会转型升级的进程。
推动共担共享的全球治理。目前看,发达国家通过人工智能技术创新掌控了产业链上游资源,难以逾越的技术鸿沟和产业壁垒有可能进一步拉大发达国家和发展中国家的生产力发展水平差距。在发展中国家中,我国有望成为全球人工智能竞争中的领跑者,应布局构建开放共享、质优价廉、普惠全球的人工智能技术和应用平台,配合“一带一路”建设,让“智能红利”助推共建人类命运共同体。
来源:《求是》2019/04
作者:谭铁牛 中央人民政府驻香港特别行政区联络办公室副主任、中国科学院院士
智慧城市是什么?国内一直没有一个清晰的定义。业内各方从自身角度出发都做过一些尝试,但目前还没有形成一个共识。为了尽可能更准确地定义「智慧城市」,机器之心决定推出「智慧城市深度访谈」系列。
我们希望通过多角度转述业内专家的观点,呈现出一个目前中国在「智慧城市」领域的发展现状及所遇困难的全貌,以供各方参考。
我们认为,智慧城市不应是高房大瓦与电子版「千里眼顺风耳」的简单堆砌。而应从体验出发,在软性环境中体现出一个城市对居民的人文关怀。
要做到这一点,第一步便是能感知市民的整体真实需求。其中,让机器理解人的语言以及「数据打通」的能力必不可少。
撰文 | 周海聃
编辑 | 樊晓芳
作为机器之心「智慧城市深度访谈」的第一站,我们有幸采访了一家在自然语言处理以及大数据领域已有多年项目经验,并有自己独特工程化思考的上市公司。与人们的印象不同,神州泰岳通过多年的兼并重组,已经陆续发展出人工智能、物联网板块,成为了一家多板块综合性企业。
本次访谈的嘉宾,神州泰岳人工智能研究院院长晋耀红博士,与 AI 大数据副总裁张瑞飞,共同向我们介绍了神州泰岳与众不同的基于语言学知识构建的 NLP 语义分析平台,及以「数据高速通道」取代「动迁式」做法的智慧城市大数据新思路,还介绍了神州泰岳如何通过工程化的思路,让人工智能算法真正结合到实际智慧公安场景中的经验。
以下为对话原文,机器之心做了不改变原意的整理:
需求驱动的语义分析工程特色
机器之心:神州泰岳人工智能聚焦自然语言处理技术,业界对神州泰岳人工智能业务最起初的认识也是从「DINFO-OEC 非结构化文本分析挖掘平台」这个语义分析产品开始的,该平台是如何设计并建设起来的?
晋耀红:我之前在中科院主要做「HNC(Hierarchical Network of Concepts)概念层次网络理论」的研究,这是一套涉及词语、句子到篇章之间的关系全框架理论。
当时希望设计一套语义网络把语义给符号化,比如「高兴」和「伤心」是一对反义词,但把这对词直接输入到计算机,计算机是无法理解这对词之间的反义关系,我们希望通过用符号的语言描述让计算机能理解这种关系。
后来在北师大时做的国家课题——「针对海量文本的知识表示和计算」,也是基于 HNC 理论上的扩充研究,是十二五国家 863 项目中中文信息处理语义相关的唯一课题。
再后来创办了中科鼎富,做企业以后才发现一个个零散算法的研究,在面对客户的具体需求时是远远不够的,对方更希望直接看到产品在他们的业务场景下能产生什么效果。后来在市场上慢慢打开局面的方法,就是推出「DINFO-OEC 语义分析平台」。
DINFO 为「鼎富」的英文名,OEC 代表「Ontology-Element-Conception」,「OEC 模型」是由本体树、要素树和概念树三棵树组成。我们希望由本体树、要素树直接描述业务,由概念树来对剩下的复杂语言的语义进行处理。
OEC 平台主要做两件事:1、把零散的算法按一定规则集成起来;2、根据业务建模,即把客户的业务知识系统性地通过符号化处理表达出来,平台底层算法自动把数据进行整理。平台的定位就是把信息系统性地分类整理出来,将非结构化信息转结构化,根据算法自动把信息进行分类、提取标签。
比如在处理投诉业务的客服场景,客服系统接收到的是一条条非结构化的投诉文本信息,OEC 平台能将投诉的「对象」、「内容」、「重要性」等结构化信息从文本中分析出来。一条投诉文本可能有 1000 字,客服想要看的可能就是几个信息点,比如建议、表扬,还是投诉等标签化的信息。
目前平台底层中与 NLP 相关的算法有 200 多个。最简单的如 word2vec 这些训练的工具,在平台底层都有集成。训练的时候可以自行选择 SVM、LSTM 等算法。平台在金融、公安业务中的分类、提取功能的正确率和召回率都能达到 95% 以上。
机器之心:目前神州泰岳的 OEC 语义分析平台在业内有竞品吗?
晋耀红:我们在业界暂时没有竞品。
在算法技术路线上,我们更强调对语言本身的理解,坚持以本体论为框架,把人的语言学知识符号化,局部结合机器学习的算法。从我们在中科院期间研究的 HNC 概念层次网络理论到现在的 OEC 平台,其实都是以本体论为核心。
我们在这个技术路线下,希望在更高、更抽象的层次,用本体论的思想把理解相关的根本性的知识解决掉,剩下的适合交给算法的局部再交给算法处理。
国内其他一些跟 NLP 相关的公司,目前主要还是在算法层面希望做的更精细。受到深度学习的影响,目前国内其他公司研究的重点更多是 seq2seq 的这类跟语音相关的问题。输入的是语音的 sequence,输出的是文字流的 sequence,对句子与句子之间语义关联性,以及篇章中段落之间的关联性关注要少一些。
这种方法适用性可能会更好一些,但最根本的问题是没有真正的理解语言。单独基于深度学习的算法,在测试集上看上去效果很好,但是实际落地的场景中基本很少看到。因为在实际落地的场景中,训练的语料库往往没有那么大。
机器之心:所以称神州泰岳 NLP 技术「自成一派」的原因主要还是在选择以本体论为核心的语义理解技术路径上。能否再具体介绍一下你们的技术研发方法论?
晋耀红:NLP 对于语义领域的研究现有两大学派:一派坚持用一定的语言学知识为基础的研究方法;另一派是纯计算机的,主张完全用计算机算法来拆解语言之间的关系,包括用统计学习、机器学习、深度学习等方法。这两派暂时没有孰优孰劣之分,要靠实践来检验。
我们跟很多纯计算机学派的研究者也是朋友,他们的观点主要是,不管语言里是什么都标注出来。但这有点像大海捞针,需要考量背后的计算力及付出的代价。基于语言学的研究者则希望教会计算机人类语言的规则和知识。在这一点上,两个派别不能达成一致。
神州泰岳作为一家商业化运营的公司,主要服务企业客户,目的是在有限的时间内有效解决问题,不参加学术研究路线之间的争论。
我们从历史工程项目中总结的经验出发,把已有的人类语言学的知识,通过语义库告诉机器。在多年的积累下,我们的语义库已积累了 80000 余个语义概念,主要是中文词,包括上位词、下位词、同义、转义等等,通过语义对一个词在特定语境下的概念进行描述。
语义库是人对常识知识和语言知识的积累和表示,所以我们希望把它符号化。目前我们有一个由 30 余人的语义库团队在做语义符号化的工作,他们大部分是语言学背景的。
除此之外,还有语料库,主要对客户的文本数据进行标注,从中提取和分析出来其中包括的语言知识。前段时间神州泰岳跟北师大联合发布的 Chinese Word Vector 语料库,这个语料库生成的 word2vec 基础资源机器可以直接使用。
从语料到语义存在一个知识的提炼过程,语义库和语料库是一个相辅相成的关系。
把人的语言学知识告诉机器的做法,一个最明显的优势是在应用场景下可以做到冷启动。比如公安、客服系统,用已有的语义分析框架使系统先启动起来。虽然也许一开始效果并不一定特别理想,假设准确率是 50%,但这部分准确的语料就可以作为标注语料,作为算法学习的样本,去做扩充,然后做一定的泛化。这样形成一个良性循环,不断的逼近客户要求。
目前很多深度学习应用场景下,需要足够的语料来训练。假如光训练预料就需要 1 个月,这 1 个月也许客户就没有耐心了。有些客户就是想要两天时间内就看到效果。另外很多客户数据也不可公开,无法准备出符合要求规模的数据去让机器训练。
张瑞飞:80-90% 的客户都有这样的问题,比如中国电信,客服的动单分类有 2000 多项。电信自己整理了 3 个多月,每一个分类下的数据都很少,但电信也不可能在每一个细分小类都帮助我们训练出那么大量的数据,提供给机器学习算法训练。
实践过程中很多场景都有这个数据冷启动的问题。晋博士提出的方法是在没语料的情况下能产生一定效果,然后在效果上进行优化迭代。
晋耀红:再比如,我们最近在给工信部做一个公文写作的研究课题,其中一个模块就用到深度学习的方法来对句子进行复述,把表达方式上弄得更丰富一些。但我们发现公文的语料就很少,我们把所有工信部的公文全部搜集起来才 18000 篇。18000 篇对于公文来说已经很多了,但是对于机器 seq2seq 的算法还是很少,这样用深度学习训练出来的算法还不可用。
所以我们就结合人的经验知识,让机器在 18000 篇里面自动学习每一种公文类型,或者每一个发文对象写作的规范或者写作的格式。利用学习的结果去摘取或者自动写一些句子,所以在这种场景中我们还是把人的知识结合起来。
工程经验帮助平台完善底层算法
机器之心:在面对自然语言理解的问题时,很多训练语料都需要人工提前标注。但也是因为语言的范畴很大,语义特征定义起来很困难。那语义模型的泛化能力的根本,是否取决于人们花多少时间去标注出多大规模的语料?
晋耀红:这里面其实涉及两大类知识。
第一类是需要人工定义,用于理解基本词汇语义的「常识性知识」。比如我们这个对话的场景下,很多关于人工智能的知识都算是常识,开始对话前对话双方就都理解了,这就建立在双方都互相了解一些特定词汇的概念的基础上。在我们这个平台模型里,主要体现在常用词汇的语义和语义关联性,比如「高兴」和「伤心」这两个词在各个行业场景中的意思基本不会变。这类常识性语义的知识基本靠人工来构建。目前我们已经构建了 80000 多个资源的语义库,覆盖了大部分的中文词汇。
另一类是可以人工给的,但也可以通过人工标注让机器自动学的「非常识性知识」。比如特定领域的分类体系,需要人工给定义,机器可以进行一定程度的学习,但主要还是靠人工。但也有一些领域可以通过语料标注来自动学的。比如司法领域里,一些收集不全的专业法律术语就可以通过算法、语料让机器自动学习。
张瑞飞:深度学习的方法要有泛化的能力,一定需要数据去驱动。
举一个实际情况例子,我们对 A 市公安案事件的学习,模型对案件分类、要素提取的准确率,直接用深度学习的方法可能能到 70-80%,但是一放到 B 市、C 市公安案事件,准确率就会降到 50% 以下。因为比如一些 B 市、C 市的方言语料,系统在 A 市的文本中没有见过。
那么解决的方法,第一种就是叠加使用晋博士基于本体论的方法。因为本体论是可以通过小语料用符号规则来表示的,注入先验知识。我们通过这个方法把深度学习模型 70-80% 的准确率提升到 90% 以上。
第二种是通过迁移学习的方法。
第三就是使用大量标注语料。我们对整个公安 400 万个案事件进行了标注,提取了该领域的词向量 20000 个。通过上面多种方法的叠加,最终准确率达到 99%。达到这样的水平,我们才能说有泛化能力。
这个过程付出的成本还是挺大的,因为公安网不允许连外网,一定要驻场标注。同时还需要通过一线业务人员的反馈,才能知道提取的特征的准确性。而且在模型黑箱训练的过程中,还没法进行修改。
所以不结合晋博士的先验知识的能力,我们是没有办法在公安落地的。如果准确率只有 75%,肯定不够,平台就没法用了。
机器之心: 就上述公安的项目,标注的成本和效率大概是怎样?
张瑞飞:我们驻场了 50 多个人,标注了一年半,标注了 400 万个案事件,基本覆盖了国内至少 30、40 个地市级城市在过去十年的所有案事件。
案事件有一些特征,就是例子特别少,数量跟新闻根本没办法比。另外案事描述一般特别短小,几乎没有统计的特征,没法根据词频统计重复出现的词汇。
如果我们单纯靠深度学习,其实效果并不好,就必须结合的晋博士的理论进行结合,当然结合方式有深浅之分。
机器之心:在公安场景中,每个刑警基于自己的断案经验,可能都会有一套专属的断案方法论,比如需要搜集哪些线索、哪些线索最有价值。OEC 平台在建设过程中是如何使用人的经验?并且在实际应用中如何与人的研判信息相结合、交互?
张瑞飞:我们的「神州泰岳智脑 2」的系统里,研判路径是自学习的一个过程。
每个刑警在断案的时候的确都有自己的思维规律,但是这些思维规律主要可以归纳为四种——图谱、时间轴、地图、标签分类,这是我们总结的基本的研判模式。
对每一个研判路径,我们定义了需要输入的准确的数据类型,在界面上会要求业务人员输入相关信息,系统在后台就能形成一个参数。
也许在训练半年以后,系统就可以根据案件自动分类,在没有人工干预前,沿着以前的研判路径进行判断。做到这种程度就可以减少反应时间,这种预处理在需要时就可以马上针对大批量案件计算出来路径,比以前可能要算 48 小时效率高很多。
另外,这个系统可以替代人对已有线索的遗忘。人在专注于一个焦点问题时,可能会忽略之前的线索,这时系统可以帮助人去处理一些背景信息线索,让人可以把精力聚焦在最需要关注的问题上,而又不会忽略掉重要的背景联系。
这是我们倡导的一个人机交互的模型,做到这一步后,我们希望后续可以帮助公安去自动地发布作战指令,甚至去建设一个真正的「公安大脑」。
在这个平台的帮助下,当遇到重大案子而派出所没有足够研判的警力时,就可以申请技侦、现场勘查、刑侦等资源,像会诊一样,多个部门一起形成一个指挥方案;或者突发一些重要事件时,公安需要马上将各种信息结合起来的时候,人工智能的威力就能很好体现。合作作战平台带来的应急和同步上案能力的提升是传统的合作作战方案给予不了的。
「数据打通」的新思路
机器之心:神州泰岳除了语义分析 OEC 平台,还开发了一系列大数据产品。自然语义处理技术要在实践中落地,底层的数据打通是否必不可少?
张瑞飞:数据是实现人工智能技术应用的必要前提。在未来的五年,我们觉得数据打通和共享是常态。
公安现在建大数据中心,就是想解决公安部内部信息打通、融合的问题。
政府最高层是有意要打破这个数据壁垒的。比如,公安部部长赵克志在深圳讲:「要大力推进公安数据智能化建设,坚决打破部门警种壁垒,推进数据融合共享,加强高端集成应用,助推警务流程再造。」
我们觉得,我们目前在做的事情跟赵部长提的理念非常接近了。
为了帮助企业管理数据,我们做了三种数据打通:结构化数据和非结构化数据打通——「Dinfo-OEC 语义分析平台」、互联网外网数据和企业内网数据的打通——「蜂鸟信息采集系统」、企业各类应用系统和第三方系统之间的高速数据共享——「Buffer 数据流水线」。
机器之心:能否具体介绍一下「Buffer 数据流水线」是如何帮助机构内部和机构之间实现「数据打通」?
张瑞飞:传统大数据公司做智慧城市的数据打通通常是「动迁式做法」,建一个大数据平台把所有现有分布在机构内部各处的数据收上来。但我们做的是建高速的数据共享通道——「Buffer 数据流水线」,将企业内部各类应用系统和第三方系统之间建立连接。
我们认为,通道的方式比动迁的方式更好。如果把通道的做法比喻为修路,原来的数据库比喻成村子或者楼也好,通过通道我们可以把它连成一个虚拟的数据资源池,就是数字的虚拟化。同时数据高速通道加速了数据处理速度,打通的过程中就可以开始服务客户,而不是等建成后才服务客户。比如运算速度不够,就提高运算力;如果客户把数据输给我,我会把更多的数据接入进来帮你碰撞,然后把结果还给大家。这样就避免了一些人为的壁垒。
另外,这背后其实有深刻的计算理论,我们认为传统的 ETL(数据仓库技术,Extract-Transform-Load,抽取-转换-加载)应该要被颠覆掉了。这个说法也不是我们提出的,是 16 年 Kafka 的创始人在旧金山 Qcon 会议做了一个「传统 ETL 已死,而实时流长存」演讲。
两年前,我们跟公安探讨过如何替代掉大数据 Lambda 架构的方式。「Buffer 数据流水线」是我们当年理念的一个落地。
在 Lambda 架构里,实时要写一条程序,批量处理时要再写一条程序,这样就没法维护数据的一致性,而且程序开发特别复杂。我们必须有一个通道去把实时数据和批量数据做在一起,然后就能处理近乎无限的数据源。
比如,亚马逊今天可以在一个通道里不区分实时、批量地去处理 50 万以上的数据源。我们需要这样的方法来适应大数据今天的变化速度,这样我们才能在交换和共享的过程中去加载一些像深度学习这样的算法,能在通道里把数据都连接起来。
当然在这个过程当中,我们认为传统的 Oracle GoldenGate 或者 Dell Shareplex 就没有必要存在了,因为我们在适配这层当中就把这个传统的做法取代了。
「Buffer 数据流水线」系统其实是几个技术的结合:第一,流式数据处理技术,比如说像 Storm;第二,流数据和内存数据库(数据空间)的映射,在这里面可以处理事务和带状态的逻辑;第三,数据源端的适配,比如说 Hadoop 导到 GreenPlum,Oracle 9 到 Oracle 10,或者 Mysql。
国内的公司很多做的是开源的封装,主要在表层,但我们主要是在大数据底层去改代码。当然也会去借鉴一些开源的代码,因为开源有好多丰富的场景因为锤炼的成熟度比较高了,但是从底层去优化跟封装就产生了完全不同的两个体系。
用开源的封装方法存在一些问题,比如封装好了,Spark 的更新,系统是跟不上的。另外,封装解决的问题比较表层,一个看起来有很多类别的平台,但是遇到要如何分析这些大数据的问题时,往往会卡在很基础的技术上。
数据的交换与共享是大数据应用的大趋势。在底层去 Lambda 化和替代传统的 ETL,以及打通数据流水线的高速公路,就是我们最近在技术上必做的事。
大数据+人工智能如何结合落地?
机器之心:我们其实一直有意寻找在智慧城市中多元大数据结合分析语义的案例。之前提到神州泰岳还与云从科技这类做安防领域计算机视觉的公司合作,目的是将文本和视觉的语义信息进行融合吗?
张瑞飞:语义和图像在将来是必须结合的东西。
贵阳公安提出的「人像大数据」,所谓人像大数据其实就是人的大数据和像的大数据,以及大数据平台三合一。像的大数据就是图像。人的大数据从哪来?只能从文本来。
在刻画人物时,公安主要是通过卷宗文本、DNA 档案、现场勘查记录、档案、手机聊天信息、互联网信息等,把大数据提取出来的线索串并起来,使人的特征浮现出来,再跟图像进行比对。这就是一个实际化的应用场景。
其实视觉目前也有不成熟的地方,今天的视觉识别都还是从一个较窄的领域去做识别,有较大的局限性。比如说人脸,一旦被遮挡了,对人脑去识别是没有什么区别的,但是对于机器就有区别。
应用领域窄,就限制了视觉技术在公安领域的应用。比如公安有一个亿人脸的数据库,机器通过身份证照片识别出 95% 相似度的人脸照片可能会达到几百张。几百张相似的人脸如果都要公安直接全部去跟踪筛选、分析,数量就太大了,在人力物力成本都不可行。
对于公安来说要达到可用的程度,就必须压缩到十几张的数量,怎么压缩呢?一方面是案事件的串并,把人的线索提取出来。比如说戴眼镜的,就从几百张里面调出戴眼镜的几十张;还有总穿牛仔裤或者总戴鸭舌帽的,走路姿态是右肩膀还是左肩膀比较高?这些特征都可以从视频学习中提取出来。
我们通过这种方法使视觉算法在一个大的数据集中的应用变得可行,通过平台把算法和工程形成一个互补,从而能把人准确地从数据中挖掘出来,这就不是一家创业公司可以单独做到的事情了。
我们在贵阳与云从的合作,创业公司偏向于只提供视觉识别技术 API,不太喜欢驻场解决工程化的问题。因为对于像云从这种创业公司来说,更重视的是短期内占领更多的市场,而不是在一个点做深。但是总要人去把这件事情做深,所以神州泰岳就集成整个应用,提供工程化解决方案。
我们虽然是做语义的公司,但是神州泰岳在深圳公安是人工智能的组长,团队中包括腾讯、华为在内。我们集成的人工智能就不能理解为语义本身了,而是整个人工智能和大数据应用到底怎么结合起来的课题。
所以越是接触这类项目,我们就越认识到局部作坊式研究的一个个算法必须被聚集起来,这就是我们要做一个平台的原因。
归根到底,人工智能就是个工程的事
机器之心:神州泰岳做了那么多产品,什么时候决定要往工程化的路线去做人工智能?
张瑞飞:当我们 16 年 8 月份启动「智享云平台」的时候,对未来方向其实也还有点模糊,但是现在看来越来越清晰。
在未来我们认为单一算法很难构成竞争力,因为会有很多新的分支而且算法很容易被复制。比如 ITGCM,懂 GCM 算法的人如果要做 ITGCM 就很容易。我们考虑:单纯专注算法研究能带来的突破是不是太有限了?第一,单纯的算法带来的实际业务突破可能不会超过 2%;第二,算法太容易被拷贝了。
我们问过自己一个问题,企业在发展的过程中应该沉淀的是什么?如果说是科学家和算法的话,那可能就错了,因为其实沉淀不下来。
另外,我们也去真正思考成本的问题。比如神州泰岳有 600 人的人工智能团队,这一年的人工成本如何解决。在人工智能这么火的时候,我们如何维持三年以上工程团队的稳定性。这些问题就切切实实摆在企业面前。这些问题解决好了,某种意义上讲,我们的项目管理就做好了。同样一个项目,如果我们的成本是 400 万,别人的成本是 4000 万,我们觉得他们没法跟我们抗衡。
第三点,人工智能不太可能走向「魔幻人工智能」,即算法不太可能轻易发生大跃进。我们其实试过特别新的算法,除了某些算法我们觉得确实有提升之外,大部分算法其实还是一种理论尝试,最后还是回归到一些传统的深度学习模型中。
这样我们就想,是不是今天的人工智能走工程化的路线就是必然的选择?
这个结论背后有两个基础理论:第一,人工智能是基于形式推理的而建立的,而形式推理是可以机械化的;第二,信息论和控制论的发展,导致了形式推理可以工程化。
包括深度学习或者 CNN 神经网络在 08 年以后逐渐发展,我认为都是对这两个理论的扩充。在这两个基础理论不变的时候,我们不敢设想魔幻人工智能的产生,只能是沿着工程化的方法去做人工智能。
工程化的路线,就决定了我们要去做各种技术储备,比如蜂鸟信息采集、Buffer 流水线、流程引擎(用于合成作战)、底层大数据平台、DINFO-OEC 语义分析平台,智享云平台等等。
这些工程化平台都是为了实现技术落地。没有平台,技术就落不了地。我们做了两年,感觉到要实现产业化落地,这些付出是必须的。
我觉得我们这类面向大 B 的公司都可以尝试:在原来在大 B 公司积累的资源和工程化的经验的基础上,再锐意突破一些深度学习的算法技术,做出自己的算法特色来,进而打造出独特的落地场景。这种落地是很难被取代的,这种工程化的投入会把公司差异开来,而不是算法把大家差异开。
机器之心:我们了解到中国中文信息学会和神州泰岳合作做了一个产学研平台——「中文信息(深度处理)开放创新平台 China-NLP」,能否介绍一下创办这个平台的初衷及意义?
张瑞飞:这个平台的出发点是人工智能需要从手工作坊的做法走向工业化的做法。
目前很多学校的老师做研究的方法依旧是手工作坊的作法,是在局部研究一个一个算法,对于全局的需求没有明确的认知。我们认为,人工智能除了算法本身之外,有很多问题是在产业落地的过程中才能发现并解决的。
比如数据本身的交换和共享问题;怎么把 tensorflow,或者其他的深度学习工具,变成分布式的,或者极限化的一个资源池;能不能够用最小的硬件,或者 CPU 的指令级去优化现在的计算。这些都是工程化的过程中,一个平台要考虑的问题。
又比如一位教授做了一个针对医疗领域的深度问答引擎,跟医院对接的时候就会遇到这个引擎如何与已有的系统对接的问题;另外,这个系统跟已有的病人病例系统是什么关系?怎么来评估这套系统能不能上线?上线后需要什么框架?数据怎么来?
这些问题的出现,就极大地阻碍了学术界的成果向工业界转化,有时候基本意味着转化不了。
我们推出这套平台,就是希望把神州泰岳在产业里积累的工程化经验,释放给学术界的老师们,让老师们依托这个平台更好得把算法的应用到实际需求中,向产业化转化。
自然语言处理的未来:语义终极特征
机器之心:神州泰岳在自然语言处理领域的研究有什么未来的计划?
晋耀红:首先还是需要深入细化本体论设计,不同的场景下对本体的要求是不断变化的。本体业务建模这块还有很大的发展空间。
另外自然语言的能力包括理解和生成,后续可能考虑增加语言生成的能力。如公文写作能力。语言理解和生成是硬币的两面,目前平台主要着重于分析的能力。先分析公文写作,句子、段落之间怎么连接的,在这个基础上分析文章框架,学习每一个词、字的应用。
公文写作复杂,是未来研究的一个方向。其中有很多困难,目前像市面上一些写诗的应用属于比较娱乐化的,但是公文写作每一个字、每一句话都不能错,不能有歧义。
我们希望做一个效果可控的公文自动生成应用。公文写作有很多困难,有很多潜规则、隐知识,但因为是严格的八股文,也有优势。根据我们的调研,一般写公文都是先去研究原来的公文是怎么写的,然后在以前的公文基础上进行修改。这个过程跟机器学习其实有相通之处。我们对于产品的设想是希望能让公文写作人员输入感情色彩、表达方式、紧迫性等元素,让机器自动生成文章。
作为公文写作研究的中间结果,我们也做了一个自动写诗的应用。但是这个跟别的写诗应用的差别在于可以每一句话让用户输入一个词来表达整句诗的意境,比如乡愁。
机器之心:深度学习算法目前在自然语言处理还没有实现大的突破,对于这一点神州泰岳有什么思考?
晋耀红:我们认为原因是语言的特征更抽象一些,不像图像 RGB 三种元素就是它的终极特征,语言没有终极的特征。
我们在中科院做的 HNC 概念层次网络的工作其实就是希望找到语言的终极特征。这里面有很多有意义的工作,但目前价值还没有完全发挥出来,可能还很少有人能认识到语言终极特征的重要性。
目前各种算法比赛,我们做企业的也要从客观角度去看待,可能有时候是在封闭的集合去刷分,发现了问题针对性的改一下就能提高。但其实很多情况下也许不能体现实际应用过程的水平。
当然,比赛也许能一定程度促进算法的发展,对学术研究有用。但国内一些公司通过比赛来提高知名度,如果这个过程不能提升算法在实际工作中的效果,在资源上可能造成了一定的浪费。
现在的学术界更多的是在刷榜,做一个算法去刷分。国内的学术研究,很多时候就像一个老前辈说的,就是在做习题,别人在英语里做了一个,咱们把它拿过来汉语里做了一个,就是创新。但是其实很少有去研究这背后终极的问题,或者说去研究一个新的算法。这种创新性的工作还是很少。
张瑞飞:在研究方向的话,我们希望恢复机器学习的本来面目。
邢波教授前一段时间说,在做人工智能模型算法梯队里存在一个知识退化的趋势,因为人们开始把深度学习来代替整个机器学习。神经网络是机器学习本来的分支,但还有其他的分支。
我们在工程实践的时候,在做标注的时候,不在乎是否一定要用深度学习。
工程化的任务应该是去评估业务目标如何分解,需要把整个算法能力框架搭建起来,然后找最有效、最捷径的算法。
也许对深度学习一个小的改变就是一篇论文了,但我们觉得这个没有太大的意义。我们企业做人工智能考虑的是成本,追求的是成本和成效的平衡。
工业互联网
产业智能官 AI-CPS
加入知识星球“产业智能研究院”:先进产业OT(工艺+自动化+机器人+新能源+精益)技术和新一代信息IT技术(云计算+大数据+物联网+区块链+人工智能)深度融合,在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的机器智能认知计算系统;实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链。
版权声明:产业智能官(ID:AI-CPS)推荐的文章,除非确实无法确认,我们都会注明作者和来源,涉权烦请联系协商解决,联系、投稿邮箱:erp_vip@hotmail.com。