机器之心报道
作者:李泽南、寓扬
第二天的「市北·GMIS」大会更加精彩,杨强、吴恩达、俞凯等重磅嘉宾继续带来了 12 场主题演讲,内容涵盖联邦学习、认知智能、图表征神经网络等前沿技术,同时 AI 应用侧的探索也异彩纷呈。
在前沿技术方面,杨强教授分享了如何用联邦学习打破数据割裂,吴恩达谈到小数据、无监督学习对未来人工智能发展的重要性,俞凯也抛出认知智能的技术演进路线。
在 AI 应用方面,华为带来从工程视角审视人工智能的新思路,阿里巴巴、美团展示了 AI 在大规模场景数据中的应用,周涛教授则呈现 AI 社会治理与监管方面的新研究。
杨强:用联邦学习打破「数据孤岛」
作为今天大会的第一位开场嘉宾,微众银行首席人工智能官、国际人工智能学会理事长、香港科技大学教授杨强带来联邦学习的最新发展与应用。
AI 发展到今天面临很大挑战,尤其是数据挑战。数据孤岛、小数据、用户隐私的保护等导致数据的割裂,让 AI 技术很难发挥出价值。为了解决这一问题,杨强教授提出「联邦学习」的研究方向。
所谓联邦学习,是多个数据方之间组成一个联盟,共同参与到全局建模的建设中,各方之间在保护数据隐私和模型参数基础上,仅共享模型加密后的参数,让共享模型达到更优的效果。
杨强介绍道,联邦学习可分为横向联邦和纵向联邦,横向联邦是指企业各方数据维度相同、ID 维度不同,更多存在于消费者应用中;纵向联邦是指企业各方数据的 ID 维度相同(样本重叠)、数据维度不同,更多存在于 B 端应用。
在具体的使用场景中,杨强重点介绍了联邦学习在金融行业中的应用。比如针对保险行业的个性化保险定价问题,一家互联网企业和一家保险企业进行数据合作,这种合作数据的 ID 重合度相当大,数据特征维度大大增加,使模型的个性化定价效果显著提升,为保险企业带来 8 倍覆盖率提升和 1.5 倍利润率提升。
在另外一个小微企业信贷管理案例中,使用联邦学习后,企业将风控区分度提升 12%,使贷款不良率小于千分之五。
即使在双方既没有共同的 ID,数据特征也不同的情况下,也可以使用迁移学习结合联邦学习进行共同建模。
杨强强调,联邦学习一定是多方共同协作组成一个联盟,生态的建设十分重要。它最大的优势是,保证数据不出户,通过生态在不同行业选取合作伙伴,用群体智能不断提升模型效果。
未来,安全合规、防御攻击、算法效率、联盟机制等都需要进一步研究。比如联邦学习中各方合作的一个基础就是加密技术,加密算法的效率显得尤为重要,算法的改善还有很长的路要走。
吴恩达:利用 AI 带来的动能
深度学习先驱吴恩达(Andrew Ng)是大家耳熟能详的名字,他的演讲也获得了最多的掌声。今天,吴恩达在 GMIS 大会上与人们探讨了企业的人工智能转型。
「四年前我提出了一个概念:AI 是新的电力。现在我得说,AI 带来的动能正在展现效果。」吴恩达说道。「看看近年来有关 AI 的工作需求数量,每年都有 35% 的增长,深度学习的发展正在让人工智能领域变得繁荣。麦肯锡最近的预测认为到 2030 年,全球的经济增长量中将有 13 万亿美元来自人工智能技术的贡献。」
「以机器学习领域的论文数量为例,两个月前谷歌的 Jeff Dean 曾展示了一个数字:arXiv 上每天关于机器学习的论文数量超过 100 篇。」吴恩达表示。「今天,我们也有了很多机器学习工具,包括神经网络框架 TensorFlow、PyTorch、MXNet 和百度飞桨,这些工具正在让人们使用机器学习的门槛变得越来越低。」
吴恩达表示,几个月前他曾在加州参加了一个创业挑战:一支来自印度的团队展示了机器人应用方法,其可以自动拍摄农田的照片。有趣的是,开发这一应用的人只有 12 岁——他使用开源的工具和算法完成了这一任务。现在的人工智能业务已经可以由任何人来做了。
通过足够的数据和算力、灵活的工具以及创新的想法,我们可以建立起属于自己的 AI 项目。很多公司的 CEO 都在担心如何把 AI 技术加入企业工作流程中。这个转型过程有时是 1-2 年,或是更长。他们担心选择了错误的项目、设定了不切实际的目标,如果转型失败,公司会蒙受巨大损失。
「看看今天的世界,有关 AI 的应用越来越多了。但企业的 AI 转型并不是开发一个 APP 这么简单。」吴恩达表示。
去年底,吴恩达发布了《AI 转型指南》,希望以教育者的身份将「All in AI」的经验传授给众多公司管理者。作为 AI 领域的先驱者,吴恩达从谷歌大脑和百度 AI 团队的发展中收集洞见,它们对谷歌、百度的 AI 转型扮演着重要角色。参照此指南,任何企业都有可能成为强大的 AI 公司。
为了找到正确的方向,我们需要从简单的地方起步,自动化任务而非工作,并把人工智能和人类的专业知识进行结合,这样才能更好地帮助公司选择正确的 AI 项目。「我们发现,很多公司第一个落地的 AI 项目通常并不是最有潜力的项目。我给很多公司的建议是做一次头脑风暴,至少看六个不同的项目,」吴恩达表示。「然后花费几个星期进行调研工作,确保这个项目是有价值的。」
吴恩达为企业 AI 转型给出了如下建议,在《AI 转型指南》中也有详尽解释:
1. 实行试点项目获得动力
2. 建立一支内部 AI 团队
3. 提供广泛的 AI 培训
4. 策划合适的 AI 战略
5. 建立内部和外部沟通
在期待 AI 为企业带来的红利之前,我们还需要避免几个陷阱:不要期待 AI 立刻产生作用,而是要多次尝试,对 AI 发展的回报曲线进行合理预算;不要使用传统的流程评估人工智能项目,应该为 AI 项目团队设立合适的 KPI 和目标;在团队建设时,我们不能仅依靠明星工程师,而是要建立一个完善的团队。
「看到 AI 崛起,我们需要有正确的概念,首先 AI 是一个系统的工程。我们需要集中很多人的团队才能完成一项具体任务。」吴恩达表示。
对于未来的人工智能发展,吴恩达认为,我们应该期待能够利用小数据的新算法:「我们现在只能用人眼检测手机屏幕的划痕——如果有大量图片,AI 也可以做得很好,但没有任何工厂会有几百万不同划痕的手机。这个时候我们就需要 few shot learning、无监督学习等新方法,能从很少的例子中学习出正确的概念。」
强化学习和自我学习可以在虚拟环境中进行训练,从而避免在真实世界的应用中遇险。而且这些模拟可以并行化,同时进行大量的试验,很快学习出解决方案。
AI 正在走向端侧,区域计算中心也要承担部分计算,吴恩达对于 5G 有着很高的期待:「5G 是非常重要的技术,这项技术在中国的发展已经超过了美国。它能让网络延迟从 4G 的 20 毫秒降低到仅仅 1 毫秒,并支持更多设备的连接。5G 可以支持更多种类的应用,帮助 AI 发展出更多新的形势。」
认清人工智能的极限
在过去十年里,我们看到了人工智能的一些真正突破,机器翻译这样 20 年前仅存在于科幻小说里的东西,现在已经成为全球数百万人每天都在使用的技术了。同时我们还看到了很多令人兴奋的进展,如人脸识别技术。在 2012 年时,吴恩达等人在谷歌的研究引领了图像识别领域的重大突破。
「现在的计算机在识别面部方面比人类做得更好。所有这些使得我们相信:我们似乎拿到了人工智能魔法的配方,它就是深度学习。」牛津大学计算机系主任 Michael Wooldridge 在大会上说道。「看起来是这样的,但进一步的探索之后。我们就会看到目前机器学习技术的尽头。人们都在问边界是什么,我们现在已经看到了一些界限。」
Michael Wooldridge 向我们介绍了人工智能目前的优势与限制。
计算机在 1940 年被发明出来的时候,被用来处理一些数学问题——它比人类做得好,可以 24 小时不停地工作,人类是做不到的。
但一些人类每天都在使用的简单能力,机器学习却是做不到的——计算机无法进行长期推理,无法做问题的定义,难以对周遭环境形成认知,也难以完成可靠的判断。
「你抽烟吗?如果你每天抽 20 支烟,得肺癌的几率会有很大提升。这是一个简单的推论,但对于计算机来说是难以理解的。」Wooldridge 表示。
今天,AI 最重要的问题在于认知能力——理解周围的情况。「这个技术关乎无人驾驶的可行性,我们可能会在未来的 5、10 或是 30 年后实现它,」Wooldridge 说道。「自动驾驶归根结底就是让汽车知晓周遭情况。深度学习在这方面已经形成了很大的突破,但并未完全解决有关认知的问题。」
历史上,想要让 AI 进行推理,并展现认知能力,人们找到了两种思路:
自上而下的方法:基于专家知识的 AI——比如由人类教 AI 认识规则,从而让它学会如何开车。但在规则太多的情况下,我们仍然无法实现可靠的认知,深度学习这种方法效果反而很好。
自下而上的方法就是机器学习,通过数据的输入和判断的输出,通过大量已标注样本进行学习,不断更新模型权重,最终让计算机学会概念,进而拥有判断的能力。神经网络和深度学习是目前流行的方法。
由于算力限制等客观原因,深度学习方法在很长一段时间内并不实用,而今天,深度学习已经可以学会很多能力了。Wooldridge 举了 DeepMind 让 AI 打 Atari 游戏的例子:在 600 次迭代之后,强化学习算法在没有人类教学的情况下,通过自我训练学会了效率最高的得分方法。
但基于数据驱动的方法也有其极限,以法文诗歌的翻译为例,人类专家的翻译结果能够保持优美,但谷歌翻译的机械结果显然不尽完美。机器不能理解语言背后的意义,不懂法国文化。如果需要好翻译,计算机需要看懂文字背后的深层内容。截至目前,我们不管把多少英文-法文文本输入到神经网络中,也无法获得像人类这样的理解。
Wooldridge 举了个更有趣的例子,机器学习也不能理解这样的文字:
-Bob:「I'm leaving you.」
-Ann:「Who is she?」
如果把这六个单词输入谷歌翻译中,翻译成任何语言,我们都能获得不错的直译结果,但机器是无法理解自己在干什么的。「人类的学习方法和机器是不同的过程。机器如果要对语言有所理解,就要理解世界的一些常识知识。深度学习是一个很大的突破,但这不是真正的 AI。要想实现真正的智慧,我们还需要更多。」Wooldridge 说道。
周涛:一张街景照片引发的城市安全感分析
作为国内大数据行业启蒙导师之一,电子科技大学教授周涛呈现了在商业之外,AI、大数据在社会治理和监管中的真实应用。他抛出一个独到观点:「未来社会治理和监管会有四方面的变化,自动化+规模化+定量化+客观化,AI、大数据将会发挥越来越大的作用。」
围绕这一观点,他介绍了 AI、大数据在城市治理、金融监管、环境治理等方面的真实应用。
你很难想象,一张城市街景照片可以跟社会治理产生关联。周涛教授的学生在北美一个城市,通过谷歌在十几万张照片中选择了 2000 张街景照片,然后在网上通过志愿者做了一个简单的实验,看图回答你觉得这个地方是否安全,大约经过 60 天采集到了五十多万数据。然后将这 2000 张图片排序,看哪些是安全的,哪些是不安全的,把排序映射到 0-1 的空间中去。再通过计算机进行特征学习,对看到的图片进行打分,结果表明计算机的打分和人类评分的关联性可达 0.87,这意味着很强的相关性。
这一打分背后可以反映大众对城市环境的安全认知。同样地,计算机也可以对城市的绿化水平、卫生条件、总体幸福感等评分。周涛团队在成都也做了一些类似的事情。通过计算机的评分,我们能够立刻知道一个城市哪里最安全、哪里幸福感最好、哪里卫生条件最差等。
另外,通过观察一个城市 5 年、10 年的城市发展照片,计算机也能从数据中呈现城市环境是否变好、老百姓的幸福感有没有变强。这可以大幅改变城市管理者对城市的认知,从而指导政府的城市治理工作。大数据、机器学习技术连接了人类判断和机器判断。
此外,周涛团队基于中小企业的行为数据为政府提供金融监管平台,通过卫星遥感数据在四川进行水质污染的实时监测。
机器学习的工程化视角
在下午的「数据思维与工程实践」板块,华为 IT 标准专利部主任工程师黄之鹏另辟蹊径地分享了 AI 的工程化视角。
「我们提到机器学习,经常会想到大数据应用,但这次我希望介绍一下工程化视角(GAIA 原则)的机器学习,」黄之鹏表示。「华为希望以通用性技术来解决问题。在抽象的过程中,则希望有统一的接口。我们希望所有的工作都能有很好的操作性、可解释性:写好一次代码,在其他任务中都可以应用。另外,机器学习最终的目的是自动化。」
在开源领域里,华为一直在推动全栈视角,真正的 AI 需要打通全栈,实现端到端的人工智能工作流程,开发者不仅应该知道怎么用框架完成任务,还要知道模型跑在不同的环境里,需要如何简单地进行转换。
黄之鹏着重介绍了近年来华为在开源社区 ONNX 中的贡献。在此前推理侧的模型转换基础上,机器学习社区正在密集讨论模型训练的新方向。华为在这方面的贡献包括边缘设备的通用方法,以及对于 Model Zoo 的算法贡献与方法提升。
华为今年开始尝试推动开放异构计算框架(OHCF),实现端到端的开源全栈概念。对于厂商来说,新的框架是一个基准,对于客户来说它也可以作为开发的参考。通过 OHCF,我们可以实现面向专用硬件的元数据管理。
「开源正在吃掉软件,其实也在吃掉硬件。对于我们来说,最重要的是把这些信息汇总到管理平台上,形成更好的映射,更好地调用机器学习任务。」黄之鹏表示。
接着,阿里巴巴资深技术专家、阿里妈妈大数据和机器学习平台负责人张迪介绍了深度学习与图表征神经网络在淘宝广告推荐中的超大规模应用。
他说,「过去五年中,以深度学习为代表的 AI 技术在 CV 领域取得巨大成功,但对于很多大的互联网公司来说,占公司内部 80% 以上算力的应用还是搜索、推荐、广告,它们是沉默的大多数应用。」
用户在淘宝上的行为是非常复杂的,包括浏览、收藏、购买等,电商广告面临的挑战是如何洞察用户的兴趣习惯,推荐个性化的产品。而随着深度学习的引入,网络变得越来越复杂,新的挑战是,广告推荐场景以特征为主,一方面高维稀疏特征导致模型非常大,往往达数百 G 甚至上 T 规模;另一方面,相比 CV 场景,广告推荐场景在参数规模、样本规模上都要大一两个数量级,参数通常达千亿规模,样本通常达千亿到万亿规模,所以必须要做一个全局设计保证计算芯片高效率运行。
阿里打造了高维稀疏场景的深度学习框架,并提供非常多的训练模式,进行分布式模型存储等,进而优化推荐模型,比如推荐场景下使用的结构化训练范式可将训练性能提高 4~5 倍。
张迪还谈道,淘宝上的商品、店铺、品类等本身就是一个超级大图,用户的购买行为构成了大图之间的连接,所以电商人货场匹配的场景非常适合用大规模图表征学习进行刻画。
它可以对图中的深层次关系进行更动态地刻画,比仅仅使用深度学习有更好的可解释能力。以 CTR 点击率预估为例,使用分布式图表征学习后,可以把表征做的更加深入,并且整个系统更加简单。
他总结道,使用图表征学习和深度学习结合有两个优点,第一是使输入的样本大幅度减少,另一个是在对整个历史用户行为进行刻画时可以动态地进行表征学习。
美团和大众点评每天在全国都会有 60 万骑手把商品递送到消费者手中。美团大众点评智能搜索团队负责人张弓介绍了搜索智能化的落地和相应系统建设:「与通用搜索和电商搜索不同,美团点评的生活服务搜索会遇到不同的挑战。当用户搜索日本料理的时候,我们是给他推荐一个近距离的商家,还是距离稍远,但是更高端的呢?」
搜索不仅是一种完成用户需求的服务,也是一个天然的大数据系统,美团点评构建了支持海量离线数据的处理能力,使用在线学习方法实时感知用户需求的变化。「通过大数据处理框架的开发,我们建设的搜索系统架构支持异构数据,支持复杂模型。智能数据的处理是非常重要的。」张弓介绍道。
目前,美团点评已有 4 亿用户、千万级 POI、1.4 亿店菜、数量高达 40 亿的真实点评文本,这些数据可以用来构建知识图谱,从海量数据中学习知识。张弓表示:「我们构建了美团大脑,这是一个知识提炼框架。我们在构建的过程中发现这和人类社会的科技进化史方法很相似:通过大数据(原料),我们可以提炼出知识(金属),进而构建模型(工具与组件),最后打造出高科技的产品——飞机、火车等等。」
这样一套框架可以帮助美团源源不断地产出各种丰富的显性和隐性知识。美团最终希望打造一个一站式的全场景搜索需求,构建面向消费者的智能助理,帮助消费者吃得更好、玩得更好。
传统汽车交易链条很长,具备不确定性,导致交易的复杂性。车好多集团高级算法专家王文斌分享道,车好多围绕「人、货、场」探索了不同的智能化应用,比如车况智能评估、智能定价等。今天他重点介绍了公司在对话机器人领域的探索。
对话机器人可以连接企业和用户,一方面它降低了人力和培训成本,使服务质量可控,提升效率,另一方面它通过推荐系统和多轮对话,引导用户完善用户画像,实现精准营销。
对话机器人最核心的是两个方面,理解用户意图,然后给出回答。车好多基于底层的 NLP 技术,结合汽车领域的数据,开发出了意图识别、智能导购、对话辅助等,来支持相关业务的开展。
王文斌认为多轮对话是个工程问题,需要从填槽、场景管理、可配置上进行优化。此外他还谈到,在具体业务场景中,产品与算法的平衡、业务和技术的平衡等都是对话机器人所面临的挑战。
产业的重生与变革
在最后一个板块「智能应用与产业生态」中,如何定制对话式语音助理、AI 在零售和教育的落地成为关注点。
思必驰联合创始人、首席科学家俞凯谈道,「技术提供商的通用技术和高度灵活个性化应用的需求往往成为主要矛盾。」
为此,思必驰提供可定制的对话式人工智能平台。他称这样一个平台,必须要具备工程、(模型)资源、(个性化)算法三方面的支撑。
在工程支撑方面,语音助理必须以对话为核心,做到高可用定制、定制规模化,此外还要做到软硬件一体化,提供智能信息服务。
在资源支撑上,针对语音识别、理解、表述、合成等方面,需要有自动化的技术,实现定制化的识别,并扩展相应的语义理解。
在算法支撑方面,个性化自适应算法要解决三个难点问题,首先要能够智能检测,发现目标;通过小数据迁移学习,通过语意槽的共享,迁移到不同的应用场景;还要具备在线自适应试错学习,基于试错的强化学习解决对话交互策略问题。
俞凯还指出对话层面的认知智能技术路线,即从深度学习演进到迁移学习,由数据驱动变为数据和知识混合驱动,由需要预先搜集数据的开环学习转变为闭环学习。
码隆科技联合创始人、首席技术官 Matt Scott 向我们介绍了人工智能技术近期在零售领域的发展:「我们现在处于零售的重生阶段,而不是零售的启示录阶段。零售业公司不会全部变成电商,但在演进过程中必然会有转型,这就是我们需要用到 AI 零售的地方。」
有关新零售这个主题,我们已经看到了太多 PR 内容,什么是真正的零售 AI?Scott 认为,我们谈论的首先是数据,其次是算法,我们需要无监督学习/弱监督学习处理大量数据。
对于零售商来说,他们需要的是可扩展的、有真实效益的解决方案。零售在真实世界中总会遇到各种各样的问题,AI 必须解决这些问题,否则无法实际部署。另一方面,零售行业的利润率非常低,在成本效益上,新的方法必须达到很好的效益。
「我们不能为高科技付出太多的成本,我们不能放太多的摄像头,有太多的设备要求,这是无法扩展的,」Scott 表示。「比如自动化的购物体验,它还有很长的路要走,在大店模式上难以实现,目前只适用于小店。」
在超市自主称重的问题上,我们现在可能需要在商品列表中翻好几页选择正确的种类才能算钱,如果我们为这个系统加入一个摄像头,使用 AI 自动识别商品,问题就能很快解决了。Scott 表示,使用码隆科技的技术,即使被装在袋中的水果,摄像头之后的算法也能快速识别,准确率超过 99%。
在这背后的算法也很重要,码隆科技立足于科技领先的研究。「大多数人都关注 AI 的架构和数据,码隆科技则关注损失函数和学习策略,我们发现这可以极大提升算法的识别效果。」Scott 表示。
码隆科技推出的弱监督学习算法 CurriculumNet 在一些任务中实现了业内最佳的效果。论文已经被 ECCV 2018 大会收录。而在 GPW Framework 的研究中,码隆已经可以对比所有损失函数的优缺点,新的研究已被 CVPR 2019 大会接收。
暗物智能深耕的场景是 AI+教育。其研发总监梁小丹称,暗物智能从技术上搭建了五层的 AI 认知架构,第一层是执行交互层,第二层是感知和行为层,第三层是任务与调度层,第四层是思维与动机层,第五层是价值和规范层。
它具备语音交互、计算机视觉、逻辑处理等多模态能力,并研发了一款桌面陪伴机器人。
暗物智能还通过学习教育机构的视频,自动生成背后的教学逻辑,训练 AI 老师。在智慧课堂场景中,它通过分析老师与学生的对话交互,判断老师有没有把某个知识点教会学生,以及学生对哪个知识点掌握得较为薄弱,进而进行个性化 AI 辅导。
最后,黄之鹏、俞凯、Matt Scott、梁晓丹和 Wonder Technologies 首席数据科学家 Christopher Dossman 共同围绕 AI 应用创新与挑战进行了一场圆桌对话。
「在未来十年可解释的 AI 是最重要的方式,只有可信的 AI 才能够推广到各类领域中。」俞凯表示。
Matt Scott 则认为目前我们仍然处在 AI 技术发展的开始阶段:「当今的人工智能研究还有一些基础的问题未被攻克。机器学习无法学会人类学习经验的方法,我认为结合多种感官输入的多模态算法将会是未来 AI 的重要发展方向。」
本文为机器之心报道,转载请联系本公众号获得授权。
✄------------------------------------------------
加入机器之心(全职记者 / 实习生):hr@jiqizhixin.com
投稿或寻求报道:content@jiqizhixin.com
广告 & 商务合作:bd@jiqizhixin.com