【导读】2018年5月8日,谷歌 I/O 开发者大会在美国加州山景城开幕。大会开始,谷歌CEO Pichai满面笑容登上讲台,他说今年有7000人来到现场,可谓座无虚席。在本次大会中AI可以说是绝对的主角。Google主要介绍了其产品升级,以及一些新技术、黑科技等。其产品和技术给全球关注者带来了巨大的震撼,最后附上CEO皮柴的公开信,接下来我们一起看一下大会的主要内容吧。
开场
继微软Build开发者大会召开,谷歌I/O开发者大会正式拉开序幕,不论外界对二者做出怎样的比较,但不可否认,AI都是两者的主角。
在大会开场,谷歌CEO Sundar Pichai在keynote演讲中,用了这样一句话:“Make Good Things Together”。概括了谷歌2018年的愿景,并正式开启了Google I/O 2018全球开发者盛会。
Pichai首先就谷歌一年来的研究成果做了概述,重点介绍了谷歌在AI医疗领域的研究。使用深度学习模型根据去识别的电子病历做出大量与病人相关的预测。重要的是,谷歌能够使用原始数据,不需要人工提取、清洁、转换病历中的相关变量。具体内容可参考其论文“Scalable and Accurate Deep Learning with Electronic Health Records”
其次,Pichai介绍了谷歌的新型音频-视觉语音分离模型。这项技术的独特之处是结合了输入视频的听觉和视觉信号来分离语音。直观地讲,人的嘴的运动应当与该人说话时产生的声音相关联,这反过来又可以帮助识别音频的哪些部分对应于该人。视觉信号不仅在混合语音的情况下显著提高了语音分离质量(与仅仅使用音频的语音分离相比),它还将分离的干净语音轨道与视频中的可见说话者相关联。具体内容可参考其论文“Looking to Listen at the Cocktail Party”。
下面我们对大会的其他重要内容一一介绍:
Google Assistant
目前,Google助手已经得到得到大面积应用,并且支持多国语言。具体地,谷歌的语音助手已经支持30种语音,在80个国家可用;目前,Google Assistant已融入超过5亿部设备,包括40多个汽车品牌的汽车,以及5000个智能家居设备品类。
Google宣布:首先,Google 升级了 Assistant的声音体验,通过在录音室里采集了人类的声音,捕捉声音特质,之后分析特征融入Google Assistant中,其声调、节奏都更接近人类。其次,对Google Assistant进行了“持续对话”升级,这将使得与助理的交谈感觉更加自然。现在,不必说“嘿,Google”或者“OK,Google”,直接说出命令就好。同时还增加了一个新功能,允许在同一个请求中提出多个问题。这些功能将在未来几周内的更新中推送给用户。另外,现在Google Assistant可以打电话了,比如你想要预订一个餐厅时,可以和手机上的 Google Assistant 对话,告诉它你想要预定什么店。然后 Google Assistant 会直接拨打电话给这家店,并与之进行多轮对话,确定好预约信息,而对方甚至不一定能猜出此时与他对话的是机器。
当你说出命令时,如果没有得到想要的答案,用户一般会问一些后续问题。但如果每次都说“嘿,Google”,就会很刺耳,这会打破整个流程,让整个过程感觉很不自然。这一系列升级不但可以提高用户体验,更重要的是,将使Google成为语音领域一个重要的玩家。
Google Photos
Google Photos已经可以让用户很容易地用内置的编辑工具和AI功能修改照片,如自动拼接、创建电影和增加滤镜等。现在,Google Photos增加了更多的AI功能,如黑白照片着色,亮度修正和旋转建议。
这意味着,谷歌正在努力成为用户的照片中心,通过提供强大的编辑、排序和修改工具,来吸引潜在的用户。对于每个照片谷歌都提供了很多的数据,帮助它们在图像识别方面做得越来越好,如此一来,不仅提高了谷歌的用户体验,而且也为其搜索服务提供了更好的工具。
智能显示器
智能显示器是谷歌在今年CES大会上推广的产品,但还没有听到有关Google Echo Show竞争对手的信息。在I/O大会上,我们对Google的智能显示工作有了更深入的了解。Google的首个智能显示器将于7月份推出,届时将在其中整合谷歌助手和YouTube的功能。可以明显看出,Google的目标是打造一个视觉上的助手,为在视觉上提升用户体验。
这意味着,用户越来越习惯坐在客厅里发出指令,让智能设备来处理他们的问题。所以Google想要创建一个系统,用户可以对其提出命令,由Google Assistant来处理声音部分,智能显示器来处理视觉部分。
Google Maps
Google宣布:今年夏天,Google助理将与iOS和Android平台上的Google Maps应用实现整合。目的是为用户提供更好的建议。长期以来,Google一直致力于使Maps更加个性化,令其不仅仅是指示方向,同时通过引入新功能,为用户提供更好的地方推荐。
Maps还将摄像头、计算机视觉技术、地图技术与街景相结合。有了相机/地图组合,将会使用户感觉进入了街景一样。
Maps是谷歌最重要的产品之一。围绕着增强现实将有很多新奇的应用,例如Pokemon Go等。而Google似乎刚刚开始认清了Maps的好处,虽然这只是一项技术应用,但它给谷歌提供了另一个额外的优势,让它的用户可以更多的停留在地图服务中,而不是切换到其他应用。同时,如果用户始终停留在它的应用内,Google便可以收集到更多的数据,进而加强产品的体验。
TPU 3.0
谷歌在大会上正式推出TPU 3.0!
何为TPU? 所谓TPU实际上就是Tensor Processor Unit,他们专门为机器学习打造的TensorFlow框架,相比一般的GPU图形处理器,这款新的AI处理器可以以8位低精度计算以节省晶体管,对精度影响很小但可以大幅节约功耗、加快速度,同时还有脉动阵列设计,优化矩阵乘法与卷积运算,并使用更大的偏上内存,减少对系统内存的依赖。
Pichai表示,新一代TPU比去年的功能要强大8倍,在性能上高达100PFlops(每秒1000万亿次浮点计算)。谷歌和其他几乎所有的大公司一样,都在寻找定制化的芯片技术来处理它的机器操作,来获得生态系统优势。
这意味着,为开发人员提供更好的机器学习工具是非常有价值的。无论是在框架层面上,还是在像TensorFlow或PyTorch这样的工具上,或者在实际的硬件水平上,能够吸引开发人员进入其生态系统的公司将比竞争对手拥有更大的生态优势。当Google试图通过GCP与亚马逊的AWS和微软Azure竞争时,这一点尤为重要。通过给TensorFlow 的开发人员提供了一种加速方法,可以帮助谷歌持续吸引开发人员进入Google的生态系统。
Google News
Google宣布:计划利用人工智能来改进谷歌新闻。这款以AI为核心、重新设计的新闻程序将“让用户能够跟踪他们关心的新闻,了解整个故事,并享受来自用户信任的出版商提供的内容。”它将利用谷歌的数字杂志app、Newsstand、YouTube、与一些新的功能,比如“新闻广播”和“全覆盖”,以帮助人们获得新闻报道的摘要或更全面的观点。
Facebook的主要产品被称为“新闻提要”,它是一个重要的信息来源。但是,由于Facebook卷入了一桩涉及8700万用户的隐私数据的丑闻,导致用户隐私数据最终落入了一家政治研究公司手中,而Facebook的算法也存在很多问题。这是Google可以利用的一个关键缺口,有利于使用户留在它的生态系统中。
ML Kit
Google推出了新的软件开发工具包,为iOS和Android上的开发人员提供帮助,允许他们将预置的机器学习模型集成到应用程序中。该模型包括文本识别、人脸检测、条码扫描、图像标记和地标识别功能。
意义:机器学习工具已经催生了一批新奇应用,其中包括在图像识别或语音检测之上构建的应用。虽然TensorFlow等框架的出现,已经使得开发AI应用的过程变得更加容易,但仍然可以通过更高的技术来简化它们。而像ML Kit这样的开发工具包帮助开发人员降低了门槛,并给开发人员提供了封装好的AI工具,从而加速了开发过程。
Android P:更智能、更简洁、更健康
此次Android P重点做了三个方面的升级:Intelligence、Simplicity、 Digital Wellbeing。也就是更加智能化、更简洁、数字健康化。
对于智能化,谷歌将AI技术融入新的安卓系统中,新增了自适应电源管理Adaptive Battery、自适应亮度调节Adaptive Brightness、应用操作预测App Actions等黑科技。根据Google数据显示,Android P系统在唤醒应用程序时,平均会减少30%的CPU使用量。
对于简洁化,Android P引入了“全面屏手势”,引入了“Action(动作”)和“Slices(切片)”的新概念。具体来说,它包含了一枚虚拟 Home 键以及在没有操作时自动隐藏的返回键,从演示来看 Home 键支持的手势有:上滑呼出多任务管理界面、左右滑动切换多任务卡片等。
对于数字健康化,Android P中推出Dashboard功能,它统计并显示用户手机使用习惯,可以让用户能更“健康”使用智能手机。
Waymo:打造更好的无人驾驶司机
自动驾驶方面,Waymo的CEO也上台演讲。虽然此前爆出Uber、特斯拉等无人驾驶车祸事故,但是并未影响无人驾驶研究的进展。
此次,Waymo 提到了自动驾驶汽车需要具备的两个特性:感知(perception)和预测(prediction)。
感知对于无人汽车非常重要,相当于无人驾驶的眼睛。Waymo 仍然坚持激光雷达、超声波雷达、毫米波雷达、摄像头等多传感器融合的方案。在行人车辆监测的感知层面,Waymo 利用深度学习算法将错误率降低了 100 多倍。
预测帮助无人驾驶系统做出正确的决策。通过不断的数据训练,其可以预测路上人与车的行动。
值得一提的是,从 2009 年开始路测到现在,Google 的自动驾驶车已经累计完成了 600万英里的开放道路测试;通过模拟仿真环境训练自动驾驶算法的里程数也超过 50 亿英里。
总结
此次谷歌全球开发者大会可谓是“AI专场”,无论是谷歌发布的新产品、新技术,还是对于已有产品的升级,无不围绕着AI展开,这也让我们对之前谷歌的战略转移:“Mobile First”战略转到“AI First”,有了切实的体会。
附上CEO皮柴的公开信
今天,我们召开了一年一度的I/O开发者大会,将有7000多名开发人员参加为期三天的活动。这是一个很好的机会,让我们来分享一些Google最新的成果,并且展示这些技术将如何帮助我们解决用户的问题。 我们正处在计算机领域的一个重要拐点,推动技术向前发展是令人兴奋的。 很明显,技术可以成为一种积极的力量,提高全世界数十亿人的生活质量。 但同样清楚的是,我们不能对我们创造的东西太过信任。关于技术的影响及其在我们生活中的作用,人们提出了非常真实和关键性的问题。我们也明白未来的技术道路需要特别谨慎地进行——我们感到有一种深刻的责任感。 正是本着这种精神,Google正在接近我们的核心使命。
人们对于有用和易于获取的信息的需求,与Google 近20年前成立时一样迫切。 这将考验我们组织信息和解决复杂的现实世界问题的能力,幸运的是得益于人工智能,我们已经取得了一定的进步。
推动人工智能的边界来解决现实世界的问题
对于人工智能来说,改变很多领域是一个巨大的机会。 我们已经看到了一些令人鼓舞的医疗应用。 两年前,谷歌开发了一个神经网络,可以利用眼睛的医学图像检测出糖尿病视网膜病变的迹象。 今年,人工智能团队展示了我们的深度学习模型可以使用相同的图像来预测患者患心脏病或中风的风险,而且准确度惊人地高。 我们在二月份发表了一篇关于这项研究的论文,并期待着与医学界密切合作,以了解其潜力。 我们还发现我们的人工智能模型能够预测医疗事件,比如医院的重新调整和停留时间,通过分析嵌入在不确定的健康记录中的信息。 这些是医生手中强有力的工具,可能对病人的健康状况产生深远的影响。 我们将在今天发表一篇关于这项研究的论文,并与医院和医疗机构合作,探讨如何在实践中运用这些见解。
人工智能能够解决重要问题的另一个领域是无障碍环境。 以说明文字为例。 当你打开电视时,看到人们互相交谈并不少见。 这使得谈话难以进行,特别是当你听力受损的时候。 但是使用音频和视觉线索,我们的研究人员能够分别分离声音和说明。 我们把这项技术称为"倾听",并且对它能够为每个人改进标题而感到兴奋。
在Gmail、 Photos和Google助手之间节省时间
为了节省你的时间,人工智能正在谷歌产品上努力工作。 这方面最好的例子之一就是Gmail 中的新的智能组合功能。 通过理解电子邮件的上下文,我们可以提出短语来帮助你快速有效地写作。 在照片中,我们可以很容易地通过智能的、内嵌的建议分享照片。 我们还推出了一些新功能,可以让你快速点亮一张照片,给它一个颜色弹出,或者甚至把旧的黑白照片染成彩色。
最大的节省时间的人之一是谷歌助理,我们两年前在I/O公司宣布了这一消息。 今天,我们分享了我们的计划,让谷歌助理更加视觉化,更自然的交流,更有帮助。
由于我们在语言理解方面的进步,你很快就可以和谷歌助理进行一次自然的来回交流,而不必重复每次跟进请求的"hey ,Google"。 我们还增加了六个新的声音来个性化你的谷歌助理,加上一个非常容易辨认的声音—— John Legend. 所以,下次你要求谷歌告诉你这个预测或者播放"All of Me"时,如果John Legend在手机里面帮你的时候,不要感到惊讶。
我们也让助理在智能显示器和手机上更加直观地接受新的体验。 在手机上,我们会根据地点、时间和最近的互动给你一个快速的日常快照。 我们将谷歌助理带到谷歌地图中导航,这样你就可以在手握方向盘和眼睛在路上的同时获取信息。
不久之后,你的谷歌助理可能会帮助你完成那些仍然需要打电话的任务,比如预约理发或者验证商店的假期时间。 我们称这种新技术为Google Duplex。 现在还为时尚早,我们需要正确的体验,但是如果做得正确,我们相信这将为人们节省时间,为小企业创造价值。
了解这个世界,这样我们就能帮助你驾驭你的世界
人工智能在理解物理世界方面的进步已经大大改善了Google地图,还创造了新的应用程序,比如Google Lens。 现在,地图可以告诉你,你所寻找的业务是否开放,有多忙,以及是否容易找到停车位。
帮助你专注于重要的事情
计算技术的进步正在帮助我们解决复杂的问题,并为我们的用户带来宝贵的时间——这从一开始就是我们的一个大目标。 但是我们也知道科技会带来挑战。 例如,我们中的许多人感到被手机束缚着,担心如果我们没有联系就会错过什么。 我们希望帮助人们找到正确的平衡,获得数字化的幸福感。 为此,我们将发布一系列的功能,帮助人们理解他们的使用习惯,并且在他们想要的时候使用简单的提示来断开联系,比如在桌子上把手机转到"嘘"模式,或者当有提醒时"休息一下"。 我们还开始了一项支持数字化福祉的长期努力,其中包括一个将于今日启动的用户教育网站。
这些只是谷歌I/O的众多公告中的一小部分—— Android、谷歌助理、谷歌新闻、照片、镜头、地图等等。
翻译来源:虎嗅网,原文:Google Blog
更多教程资料请访问:人工智能知识资料全集
-END-
专 · 知
人工智能领域主题知识资料查看与加入专知人工智能服务群:
【专知AI服务计划】专知AI知识技术服务会员群加入与人工智能领域26个主题知识资料全集获取
[点击上面图片加入会员]
请PC登录www.zhuanzhi.ai或者点击阅读原文,注册登录专知,获取更多AI知识资料!
请加专知小助手微信(扫一扫如下二维码添加),加入专知主题群(请备注主题类型:AI、NLP、CV、 KG等)交流~
请关注专知公众号,获取人工智能的专业知识!
点击“阅读原文”,使用专知