1 月 24 日,搜狗在北京国贸举行了 2018 合作伙伴大会。会上,搜狗 CEO 王小川对搜狗的 AI 战略及布局进行了详细阐释,公布了搜狗在翻译领域的最新动作,同时发布两件重磅智能硬件新品“搜狗旅行翻译宝”和“搜狗速记翻译笔”。通过 14 年的积累,目前搜狗已成长为用户规模仅次于 BAT 的互联网公司,搜狗搜索为中国第二大搜索引擎,输入法为全球第一大中文输入法。作为人工智能的创新者,搜狗以“语言”处理为核心,目前已先后将自研 AI 技术落地于搜狗搜索与输入法等核心产品中。
日前,我们独家采访了搜狗语音交互技术中心负责人王砚峰,他为我们详细阐述了搜狗发展技术与推出产品的思路。
搜狗语音交互技术中心负责人 王砚峰
手机上面已经有翻译 APP 了,为什么还要单独做一个翻译机?
在做翻译机的时候,也经常会有行业的人问我们这个问题。但实际上如果你经常到美国、日本等国家,会发现其实这些国家的网络状况和国内是根本没法比的,大部分还是停留在 3G 的状态。因此在手机网络,或者通过移动 Wi-Fi 网络访问语音或者翻译服务的时候,大概率会出现速度慢,没有返回的情况。因此我们觉得这个阶段如果能有一个具有很强离线翻译功能的设备,帮助克服网络问题,那么是可以非常切实的解决用户这方面痛点的。
我们的独创性主要在于,一方面我们同时集成了语音和 OCR 拍照翻译的入口,针对旅游场景比如点菜这样旅游者们非常有感知的情景,做了针对性的优化。更重要的是这些功能,从语音识别,到 OCR ,到翻译本身,都是离线完成的。这个在技术上是一个巨大的挑战。尤其是在翻译方面,我们使用了最新的 T2T 深度学习翻译框架。
这个技术很多公司刚刚能够做到在在线服务上使用,而我们就已经把它离线化了。从旅游场景的翻译效果上,我们离线的性能和在线性能基本接近,这是之前任何产品都不曾做到的能力。这个需要更大计算能力的支持,而目前市面上最优配置的手机上面都无法支撑这样的计算力需求。所以总结一句话,语音翻译和拍照翻译可能已经有一些手机 APP 具有能力,但是完全不能离线化。而之前市面上已经发布的专门的翻译设备,无论是从能力的全面性上还是从技术效果上,都不能够跟我们的翻译产品相比。
2016 年在乌镇互联网大会上,我们在国内首发了中英语音同传产品。几天前,我们又首次使用了英中同传系统,把 native 英文演讲者的话语直接翻译成中文。无论是翻译机,还是未来的同传,我们的期待都是产品能够在真正的刚需场景中,带给用户更实际的价值。
而具体到翻译机产品,就是能够在旅游场景中,帮助出国的旅游者,更好地解决出国游的跨语言交流问题,带给他们旅游中的幸福感,减少他们的不便和焦虑。而且从这些年出国旅游人数增长的趋势来看,这本身也是一个足够大的市场,具有足够大的价值。
人工智能从技术到产品之间会有一个很长的距离,你们是怎么把技术应用到产品当中的?
第一我们有大量用户,第二我们在做 to C 的产品,我们在技术应用的过程当中,第一个思考方向就是怎么能够把技术用到我们已有的用户量比较大的产品上,并且能够让技术本身在这个产品上带来一个产品创新。因为虽然我们是技术基因,但是我们是产品导向的公司。
几年之前我们做语音的时候,当时语音的识别准确率还没有那么高,我们就会想有没有可能在输入法上做出一个纯语音交互的产品来,当语音输入出错以后,能不能通过语音去进行编辑修改。当我们把语音识别做得更准,能够有条件来支持这样的产品的时候,我们也是在业内第一家推出这样的功能。包括我们现在做的对话也好,语音理解也好,也是在积极的想怎么能够在输入法或是搜索当中,更多地把这种技术加进去,提升用户在这个主路径上的产品体验。
搜索,未来的方向是问答,就是怎么能够把问答跟对话的技术放到搜索这种核心上去;而输入法这块,我们目前提的是叫辅助对话,怎么能够在大量的日常聊天对话当中,输入法给你合适的侯选,帮助你去进行输入,帮助你去进行表达,这都是我们的对话技术在当前产品上的应用。
而我们优势就是我们有大量的用户,我们可能随随便便一个功能,每天有上亿次的请求量,像这种高频的用户场景跟技术结合起来,就能够更好地推动技术迭代,让技术真的在产品中落地,并且给用户带来价值。
您刚提到的这几项功能,现在的成熟度怎么样?
如果站在传统的角度上来看,不管是搜索也好,还是输入法也好,还是很多其他产品也好,一定是相对成熟的了,但是如果我们放在一个新的 AI 大背景下,比如搜索在 AI 的形态下就是问答,而输入法在 AI 的形态下我们希望去替代人去打字,替代人去对话,距离成熟还有很长的路要走。
您曾经说过语音交互的三个刚需场景是车内、客厅和户外,搜狗在这三个场景都有哪些最新的布局和进展?
我们在车内呢,是做了一个智能副驾,智能副驾更多的是解决怎么能够通过更好的语音交互来完成导航,这个我们是作为一个 To C 的产品发布的,相当于它是搜狗地图的一个版本,更多的面向车载这样一个场景,把语音作为一个更重要的交互手段,而不像以前那样使用文字和搜索。
To B 产品这块,我们已经跟一些厂商建立了合作,2018 年就可以看到搭载搜狗能力的一些产品出来。客厅场景,我们去年是发布了糖猫在家这样一个产品。 户外这块,目前的核心就是面向翻译这个领域。
我很难给出一个确切的数字,因为现在大家统计这件事的口径也不一样。如果只是针对 to B 市场,可能是千亿或者万亿的一个规模。但是如果后面把 to C 市场拿进来,也就是说是不是把智能语音看成是未来搜索的一个中控,如果把它看成一个中控,那么未来它包含的应该是个更大的市场规模。所以现在哪一家给出来的数据应该都不是一个很科学的数据。
目前智能语音技术竞争和产品竞争的格局如何?
技术竞争这一块,我认为是相对比较充分的竞争,因为这一波人工智能技术的兴起更多的是靠三个东西,一个是深度学习,一个是大量的数据,另外一个就是计算设备的能力。而这三个模块本身来讲,技术和计算能力对于各家来讲都是开放的,深度学习最初是学术界提出来,然后再渗透到产业界,产业界再跟进,跟进以后加上自己的数据产生好的效果。
现在反观学术界,已经不再做语音识别了,或者已经不再做这种相对偏工业级的语音识别了,因为他们没有数据。既然深度学习已经变成了主流,而大家对于深度学习的使用仍然处在相对初期的一个状态,所以说在技术这块,并没有说谁家的技术就一定比谁家的技术有个很强的壁垒。语音未来会变成一个更加像空气和水这样的基础性的技术。
产品竞争,两个方向去看,第一个方向就是,如果是 toB 类的行业产品,那么这种竞争更多的是看你在这个行业当中生根的时间,你在行业建立起的行业壁垒。我们再来看偏和消费者领域结合的,不管是车内的,还是音箱这样的产品,最终它其实会变成一个集团式作战的一个整体的竞争,就是你只有语音技术是不够的,你要有内容,甚至你要有产品前端,这也是为什么现在人工智能公司都要去做硬件,很多像小米这样的硬件公司都要去做人工智能技术,都要去做自己的内容,其实是一个道理。
搜狗在智能语音方面有哪些优势和劣势?
我们的优势就是,第一,我们的用户量确实更大一些,然后从语料的获得上,资源的切入上,我们肯定都会更有优势,同时我们又是一个有很多流量的一个平台,从搜索,到输入法,再到浏览器上的各种流量。有流量以后,做偏智能语音这方面的硬件的时候也会有很好的销售能力,比如像我们的糖猫手表,2017 年大概是突破百万的这样一个销量。但是在 to B 方面,因为我们本身不是做 to B 的公司,我们在这方面还需要积累。
做产品实际上需要大量的数据,搜狗现在的语音数据是什么量级?
我们语音数据已经标注的量级,就是在万这样一个量级,大几万,或者十万左右这样一个量级,然后每天能够新增大概是不到 30 万个小时,这样的一个规模。而现在行业主流的,大家的训练数据基本上是万这样一个量级,所以现在不是去解决数据量的问题,而是数据量怎么能够用起来的问题,这是第一点。第二点,去解决当很多场景下你没有数据,你怎么能够在这个场景下去做到一个更好的效果,就像刚才说的听写这个产品,我们之前没有上线,那么我们可能在对应的这个场景下效果就没有那么好。那我们怎么能够去解决更多的没有场景数据的问题,这个是未来大家面临的核心问题。
还是技术问题,因为技术做得不够好,导致现在太依赖数据,现在我们所说的这种人工智能就是大数据加上深度学习的技术,但是一旦你缺少数据,就不会有好的效果。现在我们语音识别什么领域做得好?就是数据充分的领域,我们日常的对话,手机这种相对标准的场景,数据自然是最多的。但是一旦切换到一个新的场景,那么这个新的细分场景,数据就会变少,效果就会变差。但是如果技术足够的好,能够去弥补数据这块的问题,最终就能够去解决语音在全方位各场景落地的问题。
现在市面上比较有代表性的几个智能音箱,您是怎么看他们的切入点和前景的?
首先大家都相信语音是下一代搜索的入口,通过语音,然后把语音变成一个完整的服务,把内容提供给你,这也是为什么大家都在投巨量的成本在里面的原因。但是不管怎么样,现阶段的产品都是不好使的,只能是定个闹钟,查询个天气,这种最简单的操作。
大家定义的是一种未来的场景,因为我们现在的场景是在手机上,是通过搜索,是通过各家的 APP 来满足你的服务,而且现在挺好的。而你要去做一个更好的,更有科技感的服务,并且能够通过语音的入口来替代手机,这是一个未来的产品,不是一个现阶段的产品。
那么未来的产品到底是什么样的,现在还是个问号,大方向是可以的,但是切入点到底是不是应该是音箱,包括前景怎么样,是否还是这几家公司存活到最后,我相信最终是有特别大的一个变数的。
现在聊天机器人也很火,你们有兴趣吗?
确实它更容易去博得一些眼球,因为相对比较有意思,也确实像小冰这样的产品,会处在相对显得比较明星的这样一个形象。但是呢,为什么会这么重视聊天机器人,我个人的看法,它可能更多的是“人工智能”这四个字本身的原罪。
就是当你说人工智能的时候,你头脑当中的第一个印象并不是说这个机器能用怎样的计算能力完成一件机器该做的事,你第一个想到是这个机器像人。所以我一直更喜欢 Google 的吴军老师对于这件事的定义,他觉得我们这一波智能叫机器智能,不叫人工智能,就是让机器通过计算能力,通过大数据,通过机器特有的方式,让它变得更聪明,更能够预测你的行为,更能够帮助你去解决问题。
但当我们把它定义成人工智能的时候,我们更希望机器表现的像人一样。最像人的是什么呢?就是聊天,就是这种情感类的东西,只有人是带情感的,机器是不带情感的,这也是为什么人们一提起人工智能,就觉得聊天,或者情感是人工智能里面更有趣的。
似乎人们对这种更像人的机器人天生有一种情节?
虽然我们看到平台上很多都是聊天数据,用户时不时与机器人互动。但是从未来大方向上来讲,聊天机器人不是一个产品。我需要的产品到底是什么?是陪伴。而陪伴的话,只有聊天能够做陪伴吗?我们现在市面上所有的产品,都是说我来当你的秘书,同时呢,你还可以跟我对话聊天。
但是,当这个秘书是帮你去打理你生活当中的各种事的时候,你是否还真的需要跟它聊天? 当你真的无聊的时候你会去打游戏,会去和朋友吃个饭。只是现阶段用户处于新鲜感中,还没有见过这样的东西,所以想去尝试与机器人互动。 搜狗未来的人工智能之路怎么走。
现在人工智能领域的企业竞争越来越激烈了,搜狗打算怎样应对?
分三点来看。第一点就是我们之所以能够被大家认可,第一就是持续在技术上投入,去占据技术的制高点,保持技术的一个阶段性的领先。我们需要坚持这样一个理念,人工智能的核心是技术,如果没有这样一个核心,是不能够支撑你各个产品和业务的。虽然像我之前说的,技术构不成一个绝对的壁垒,但是如果你的技术更好,有—年,半年的领先,那么你就会有个不错的窗口期,你可以在窗口期内产生出更好的产品。
第二点就是我们能够坚定地去跟我们现阶段的有用户规模的产品和场景去联动,能够在这里面去迭代人工智能的产品和技术,比如像我刚才说的在输入法当中,怎么能把输入法变成一个智能对话,或者哪怕是一个辅助的对话。如果真的拿下输入法这个场景,它将是中国最大的一个场景,每天用户所有的聊天都是通过输入法来进行的,所有的信息的产品也都是通过输入法来进行的,我们希望能够利用好输入法跟搜索这两大产品。
然后第三点,还是坚持产品导向。只有好的产品,才有长久的生命力。我们希望做出来的产品,并不是一个冷冰冰的产品放在那,仅仅局限在聊天就足够了,我们还是希望做出一个产品,用户每天都能够用,每天都能够带来价值的。
输入法还没有做成一个特别聪明的输入法,从输入效率上来讲,它确实是比上一代输入法要强很多,但是它还没有聪明到让你输入特别快。现在输入法输的快慢,仍然取决于你的手速。我们能不能做特别好的预测,联想功能,能够让那些手速特别慢的用户,很少需要去敲拼音键,而直接通过联想去完成输入,我们仍然需要去努力。
还有就是,大家现在对于输入法的认知仍然是一个输入工具,那么我们究竟什么时候能够把输入法从一个工具变成一个服务,因为你确实是掌握大量的用户信息的一个入口,当你能够把工具变成服务的时候,输入法的商业价值就会有一个极大的发挥。
我现在也会开始关注图像这一块,因为不管是做业务也好,还是做产品的过程当中,能够很明确的感受到,一个完整的产品,如果只有语音能力的话,是不够的。比如糖猫在家这样的产品,我们是把它定义成一个家庭的陪伴机器人,基本上能够去满足你任何时候你想看看家里面什么样,想看看小孩在干吗,可以随时接入视频通话的这样一个功能,首先它是在满足用户刚需的一个功能,那么在这个功能之下,它能不能做的更智能,能不能做得更有趣,在更有趣和更智能这个方向上,两个方向延伸出来,就是语音的对话够不够好,另外一个图像,这家伙是长了一只眼睛的,它是盯着家里的情况,盯着小孩的情况,比如这个小孩有没有有意思的一个瞬间,它能捕捉到,拍下来发给你,小孩是不是摔倒了,捕捉到了以后,马上开始哇哇叫,你家孩子摔倒了。
像这样的产品,只有语音是不够的,它需要好的图像能力,包括我们现在的车载产品,那么车载产品除了大家现在都谈的功能,自动驾驶,辅助驾驶功能还有好多在视觉上可以去做的事,这个全都是图像的领域,所以现在我们也在看图像这块怎么更好的嵌入进去。
- End -
点击下方图片即可阅读
为什么作为技术管理者的你总是很忙?