出门问问李志飞:科技创新的本质是什么?〡IF19

2019 年 1 月 24 日 极客公园

很多时候,创新就是对已有问题新的或更好的解决方法,但科技公司来说,重要的是将创新和产品结合起来。

2010 年,在谷歌翻译工作的李志飞,想要开发一款离线翻译系统,解决没有网络的情况下的翻译问题。将想法告诉他的德国上司——一名优秀的工程师后,李志飞清楚地记着,上司拿出了自己的手机对他说,手机打开都那么慢,还想要将模型庞大的翻译系统搬到手机上去,怎么可能呢?这是不可能的,是「Useless」的。虽然遭受到了上司的否定,但李志飞最终还是将系统做出来,并成功上线了,后来他曾收到感谢信,这个系统在关键时刻甚至救过人的命,那也是他在谷歌最重要的贡献。

科技创新的开始非常艰难,往往会遭遇到否定或被认为毫无必要,创新的过程同样非常复杂,创新的想法从提出到落地,是算法、软件、硬件、产品的结合,可能是跨工种、跨部门,甚至是跨公司的。不久前,出门问问与高通在 CES 上共同发布了用于无线耳机的智能语音算法 TicHear,最初李志飞认为几个算法工程师就可以搞定,但最后却是从算法工程师到硬件工程师、天线工程师、结构工程师、UI 工程师等五六十人,花了两个月才完成。

而科技创新的进步却是渐进式的,2015 年出门问问开始研发智能手表 TicWatch,目前最新的产品,已经可以做到最高 50 米防水、双层屏、单次充电续航 5-7 天、4G 通信和精准定位。但这些功能都是逐渐实现的,每一代进行部分的改进,只要放到长期,才能清楚体现科技创新的价值。即便如此,科技创新的成功率依旧很低,在谷歌的工作经历让李志飞很清楚的了解,以谷歌的科技实力,同样有大量失败的项目。但最后,付出了如此巨大的代价,科技跟随者可能会以少得多的成本逆向工程做出类似的产品出来。在谷歌翻译团队办公室旁边,就是谷歌早期无人驾驶团队,从 2008 年到 2015 年,他们先后投入 11 亿美元才做出了可以进行道路测试的无人驾驶系统,而在几年后,跟随者只需半年就可以做到类似的成果。

「科技创新者因为相信而去看,科技跟随者因为看到而相信。」但科技创新成功带来的收益是巨大的。谷歌、苹果、高通等巨头,同样是重视科技创新的公司。具体到李志飞所从事的 AI 行业,AI 科技创新主要包括 AI 核心算法的创新、AI 工程的创新和 AI 产品的创新。对创业公司来说,科技创新绝大多数是由产品的需求催生的,将创新与产品相结合。比如出门问问与大众汽车有一个合资公司,专门研发车内的语音交互系统,也做出了一款车载离线语音系统,按照大众汽车的要求,CPU 占用率不能超过 20%,内存不能超过 500MB,但却要能识别规模 600 万的地址以及餐厅、咖啡厅等实体名字,准确率要超过 90% 以上。这个几乎矛盾的任务让出门问问花费了一年的时间,数十名算法工程师和普通工程师才优化完成。李志飞认为,中国的数据量、用户量以及工程师资源都很丰富,未来几年 AI 算法还需要继续推进。在这个过程中,AI 科技创新要避开骑墙主义、拿来主义、功利主义、弯道超车等拦路虎,只有明确方向后第一时间就开始研究和尝试,才能最大获得科技创新的收益,以及获得竞争者和合作伙伴的认同。         

以下是 出门问问 创始人 & CEO 李志飞 在 2019 极客公园创新大会上的演讲内容(略有编辑):

大家好,我今天很高兴跟大家分享「AI 科技创新的本质是什么」。这个问题很难去讲,因为这是一个综合性的,甚至带一点哲学的问题。

所以,我更多是从我个人的一些经历,包括以前在 Google 的经历,以及在自己做出门问问的经历,跟大家分享一些比较随机的想法,这肯定不是一个非常系统性的一个研究,或者报告。

首先,「创新」这个词可能很多地方都在用,每个人的理解都不太一样,比如说,创新、创造到底是问题驱动还是技术驱动,这有很多不一样的地方。这里,我引用了 Wikipedia 对创新定义的第一句话:A new idea, creative thoughts, new imagination in form of device or method.

什么意思呢?创新,是一个新的 idea,是创造性的想法,或者说是一种新的想象力,最后它的形式是一个设备或者是一个方法。首先,这个事情本身得是一个新的,但在后半句,它说了另外一个角度,很多的时候,创新同时也会被认为它是对已有的一个问题,一个新的解决方法,或者说更好的解决方法。这里列了一些中文相关的关键词,想法、创新、突破、改变、创造、进步、风险、发现。

科技创新一般有几种类别,有的是算法的创新,有的是技术、产品、模式的创新。算法的创新,比如说最近大家都非常清楚的深度学习。这首先就是加拿大一个教授,他自己研究了好多年,好多人都不认同他这一套做法,但是最后他终于在一些具体的应用上面,比如说,在语音识别上有了一个很大的突破。所以,它一下子变成了大家今天都接受的算法模式。

技术创新,自动驾驶是特别典型的,它跟算法创新可能不太一样,它是一个综合性的,系统级别的。算法创新像刚刚讲的教授的事例,他可能就一个人带了几个学生,十几年一直干一个事情。这其实是在一个比较封闭、独立的环境下,可以做出来的创新。但是,自动驾驶是系统级别的,这个需要成千上万的人去协同才能做出来的技术上的创新。


说到产品的创新,iPhone 是一个特别著名的例子。当它出现的时候,这个手机跟很多的手机确实不太一样。

模式创新是中国特别擅长的,尤其是在过去 5、6 年的移动互联网,很多都属于模式创新,比如共享经济。

对于一个科技企业来说,毕竟它是企业,所以商业模式非常重要,它不像学校。这种创新跟产品的关系到底是什么?

这里我列了几个不同的类别。最常见的创新,可能就是已经有一个产品了,通过产品有一个需求,然后去做一个创新的算法。比如说 YouTube 鉴黄的算法,就是因为有了这么一个需求,这个算法功能才会被人琢磨。在 Google,有很多的产品部门,同时也有非常厉害的 PhD,他们不是纯码农、工程师,他们有很多自己的想法,而且对于理论、算法非常理解。虽然,机器人也是在产品部门,不是在研究部门,但是可以做出这样的创新。

另外一种创新,可能就是倒过来的,今天可能还没有这样的产品,但是由于你在技术上有很大的突破,因为技术的突破然后创造出了一个新的产品,比如说 Google  Translate、Google Voice Search。这是一个非常典型的例子。

这些都是在学术界研究了很久的,以前更多是在学术界或者是美国的国防机构应用,但是 Google 确实做了很大的创新,就是把一个偏学术的东西,变成了一个大规模普遍性的应用。所有的文字都可以翻译,所有用户能想像到的词都会翻译,而且速度也非常快,比如说一篇文章放进去,0.2 秒就要出来结果,还要支持所有的语言。

我认为这是 Google 的翻译变成大的普世性系统的巨大创新,有了这个创新以后,再把它变成一个产品(Google  Translate 以及后面的 app),这个需要对技术很强的判断能力、研发能力,才能做技术驱动的创新。

第三类的创新,不是来自单一产品,而是来自于很多产品的通用需求,比如说 MapReduce、Google File  Systems、Bigtable,这基本上是早期云计算的三架马车。

大家知道 Hadoop 是雅虎搞的开源云计算框架系统,基本上是基于这三篇论文,然后把它变成一个开源的系统。这种创新是 Google 做 Google 搜索、视频搜索、新闻搜索时,发现以前的关系型的数据库、传统的文件系统,不太适合海量数据的需求,所以才有了这三篇非常经典的论文。

对于很多公司来说,这很难做到,因为可能你的产品比较单一、数据量没有那么大,所以可能你连这个需求都没有,因为以前学术界想了很久从来没有想到要做这么一个事情。

关于这几种创新,其实各种公司是不一样的,比如说出门问问这样的公司,后面两者可能就比较难一点,包括中国绝大部分的创新都是第一种。

回到出门问问的创新上,我们需要生成、有商业模式,但是我们又是一个科技公司,我们希望能够把创新和产品有效结合起来,而不仅仅只是产品公司、软件公司、硬件公司。

下面我说一下我们的创新和产品的关系,刚才说到更多是因为我们已经有一个产品了,产品需求导致我们想要做些创新来满足这个需求。

比如说,车载的离线语音系统就是这么一个需求,我们和大众汽车有一个合资公司,专门做车的语音交互,在这个过程中他们提出了一个需求,开车的过程中由于信号不一定好,这时需要在没有网络的情况下,可以有一个语音系统。可能大家觉得这个没什么,因为已经有很多离线语音识别系统,但是它的要求特别严格。比如,希望 CPU 占用率不能超过 20%,内存不能超过 500MB,你要识别规模是 600 万的地址以及餐厅名、咖啡厅名字等各种实体,准确率要超过 90% 以上,其实这几个指标都是矛盾的。

在这种情况下,我们怎么设计一个离线语音交互系统,能够满足这种需求呢?我们花了整整一年的时间,几十个算法工程师和普通工程师把它进行优化,做出了这么一个系统。这就是非常典型的产品有需求,然后问题特别难,需要做研究、算法、工程,最后一起把它完成了。

第二个例子是 TicWatch 双层屏,也是一个创新,可穿戴最大的问题是功耗的问题,可能很多手表一天要充一次,这是很大的痛点。我们做了一个创新就是所谓的「双层屏」(一个是低功耗的黑白屏,一个是高功耗的彩色屏),这个创新也特别复杂,因为其中涉及到两块屏幕和两个操作系统,甚至还有两个 CPU,主 CPU 驱动彩色的屏,副 CPU 驱动黑白的屏幕。

除了硬件本身以外,操作系统也要做一个智能切换,要智能切换黑白屏和彩色屏,非 Wear OS 系统和 Wear OS 系统,所以这个创新是从产品的需求上,整合很多人把这个东西做成。

最后一个例子就是 Tickle 挠挠,无论是智能手表,还是智能无线耳机,很大的问题是交互特别不方便,因为没有一个大的屏幕,也没有键盘。这个时候怎么能很快、很方便的操作呢?像我们的挠挠,在耳机上,你往上一滑,音量可以增大,往下一滑,音量可以减小,别人打电话来时双击可以接听,长按可以不接,放音乐时双击可以进入下一首,这种创新是因为交互方式的需求而做出来的,同样需要软件、硬件、算法、传感器等综合的处理,才能做出这样的创新。

接下来讲一下我看到的一些创新的规律和特点。

首先,创新的代价是非常高昂的。比如说一个科技创新者花 100 块钱干成了一件事情,但是一个跟随者可能只需花 1 块钱就干成了,这个也是导致很多公司不愿意创新的原因。

比如说 Google 无人驾驶,我在 Google 时,Google 无人驾驶的团队和 Google  Translate 刚好在同一层楼。他们在 2008 年、2009 年就开始干这个事情了。早期 Google 可能花了 10 几亿美金做一个系统,才能够在路上测试一下,跑一跑,这是早期的创新代价。但是在今天,我经常看到一个公司融了 2000 万美金,过了 6 个月就声称可以在路上跑了,而事实上是真的可以跑的。

这个就是早期创新者和跟随者之间代价的差别,早期花 10 亿美金,找了世界上最牛×的博士,可能试了很多次都不行,最后终于可以跑起来,但是今天过了三四年以后,由于很多专利、文章都已经出来了,大家看到这个结果是可行的,知道了怎么做。基本上我们可以反向工程,知道这个东西可行,倒过来就可以找到一条路径,而不是完全在黑暗的环境里,在这里试一下,发现不行可能又得回到起点,然后再试一下,再不行就又得回到起点,是这么一个过程。

所以,创新的代价非常高昂,很多科技创新者真的是因为自己对这个东西有兴趣,而且他相信这个东西,所以他才会去琢磨和探索,但是跟随者更多可能是看到了别人的结果,反向工程,最后将成功实现。

科技创新的启动也非常艰难。因为你做的是一个新的东西、很难的东西,所以任何人和别人讲这个时,别人第一反应就是这个有什么用,因为今天不是这样的,为什么这么做呢?另外,他们可能觉得这个做不到,或者说不可能。


举一个我自己的例子,我在 Google 最主要的贡献是做了一个 Google 的离线翻译系统(2010 年)。2010 年,全球漫游还没有那么好,当你去法国旅游时没有漫游、网络,但这时却是你最需要用到 Translation 的一个地方,因为你不懂法文。所以,当时我想做的一个系统就是当你出去旅游之前,你能在家里把翻译模型下载在手机上,出去时没有网络还可以做翻译。

我把这个想法和老板说时(他是一个德国人,他是全世界非常厉害的工程师、科学家),他拿出了 Google 在 2010 年推出的第一代 Nexus 手机,他说你看我这个手机连打开都那么慢,你还希望用 Google Translate 后台用几千台机器做计算,模型特别大的系统搬到手机上,这个怎么可能呢?这是他当时给我的一个反馈。

虽然他是我的老板,但是由于 Google 的创新文化,我可以随便干什么,最后我还是把这个系统做出来了,而且上线了。所以,无论是普通人还是对科技、研究都很有耐心的人他都有可能会抵触这种新的想法。

而创新的过程也是非常复杂的,因为很多的时候一些想法,就是刚才说算法的创新比较单一,但是很多时候创新是组合式的创新,就是算法、软件、硬件、产品结合起来这种创新,才是真正用户能够感知到的。所以,很多时候创新可能是跨工种、跨部门,甚至有一些时候是跨公司的。

最近,在 CES 上,我们跟高通一起发布了一个新的算法 TicHear,希望在我们的无线耳机上面,能够直接语音唤醒,不需要按键盘、打开手机,可以直接唤醒,然后可以做语音的对话。

大家可能觉得这也没什么,因为智能音箱今天都可以唤醒、语音交互。这个的难点在于,因为智能的无线耳机,CPU 的计算能力特别低。这个时候你怎么能做出一套算法系统,能够在一个计算能力等等都特别小的情况下,唤醒然后做语音交互。

这个创新首先我认为可能听起来应该两三个人就搞定了,我拉了一个微信群,但是后来我发这个群里面的人越来越多,到最后有 50、60 号人在这个群里面,然后花了两个月把这个事情搞定。

我认为算法工程师搞一搞就行了,后来发现还需要硬件工程师、天线工程师、结构工程师,因为这是一个新产品,得不断做修改,然后最后除了做算法优化以外,信号处理、语音识别,还要呈现给用户。这过程还需要 UI 工程师、各种各样的工程师。最后才做出来一个从用户角度来说非常「常见」的事情,所以创新的过程是非常非常复杂的。

而且前面说启动难,然后过程又复杂,而且创新很多的时候成功率非常低。大家可以把创新想象成一个漏斗模型,你可能有 1000 个想法,最后有 10 个是你真正把它做出来产品,最后一个你可能商业化,而且能够得到成功的。

比如说,Google 很典型的,前一阵子有一张图说 Google 产品的坟墓,就是各种各样的产品,他其实开发了无数的产品,最后都没有成功,我认为这些产品都是创新。


其实大家也可以想象一下,移动互联网就是这么一个过程,那么多的 app,我认为都是创新,因为一定是在新场景下解决新问题,大家想象一下在移动互联网时代,这么多 app 到今天存活下来,而且商业化成功的,可能真的就是几个而已。这是创新的成功率。

科技创新是渐进式的,很多的媒体或者说普通老百姓都希望创新每一次都是石破天惊,就是出来的东西必须跟别人完全不一样,这个也是不现实的。

我给大家举一个我们做智能手表的例子,如果大家去看 2015 年的智能手表,再去看我们今天的智能手表,如果在这个过程中你去单看一个产品的发布,或者说是用一年的时间做一个时间段去看这个东西,你觉得好像这个跟前一代也没什么区别。

三年以后你就会发现,今天的智能手表跟三年前的是非常不一样的,比如说以前洗手的时候水就进去了,就不能工作的,今天我们可以做到 50 米防水,功耗以前一天充一次电,用一天就不错了,像我们刚才讲的双层屏,一般的模式下能做到 5 天跟 7 天。通讯以前主要是 WIFI、GPS,现在可以用 4G,以前的 GPS 不精准现在都非常精准。所以你在一个很短的时间去看这种东西,你觉得不是特别大的变化,但是其实你把它放到一个时间周期去看,创新的价值就体现出来了。

前面讲的创新都是一些难的地方,最后为什么哪有那么多牛 × 的公司要去做创新?其实是因为创新的这个收益非常大。比如说大家可能一提到美国很多的公司,比如说苹果、Google、高通这样的公司,大家都觉得这些公司是非常重创新。

我前面讲到他们的代价也是非常大的,但是你们去看他的市值,确实也是在全世界的相关领域里最领先的,这就是创新的收益。

今天我的标题是「AI 科技创新」,其实 AI 科技跟一般的科技没什么区别,只不过今天在这个时间还不成熟,10 年前,芯片的创新是非常难的一件事情,但是大家今天觉得已经没有那么稀奇了。

科技创新其实我认为可以分为三大类:

第一,AI 核心算法的创新。

第二,AI 工程的创新。

第三,AI 产品的创新。

在这里,每一个创新的成功因素,或者是核心的资源是不一样的,比如说 AI 核心算法的创新,可能更多的是依赖于有多少 PhD,而且这个一定是要有创新能力的,并不是拿到 PhD 就可以有创新能力。

比如说 Google,如果大家去 Google 的网站上去看,这个里面有 2000 多个 PhD,而且这些都是全世界最好的学校,整个 Google 我记得工程师里面 20% 是有博士学位的,所以也就是说 Google 可能有上万级以上的 PhD 都是在做产品的创新,和做核心算法的创新。

这个确实中国跟美国还是有一定的差距,因为他们可以吸引到全世界最好的 PhD,中国更多还是吸引中国本土的 PhD,或者是留学到海外的中国 PhD。

AI 工程的创新更多依赖于有很好的工程师,中国在过去几年移动互联网的发展过程中,已经是非常厉害,跟美国的差距已经不大。

AI 产品的创新,更多是依赖于你是不是有海量的数据、用户,这个中国在全球都已经是领先的。

未来几年,我们希望能够在 AI 算法上有更多推进,跟美国很多的创新至少可以在同一条路上去跑。

中国科技创新的拦路虎是什么?我觉得中国谈科技创新是最近几年的事情,互联网公司们讨论了很多的创新,但确实过去很多时候我们的创新有这几个缺点:骑墙主义、拿来主义、功利主义、弯道超车。

谈创新,你自己要有一个明确的判断、想法,而不能说今天人家说这一条路径好,你就去跑一跑,跑到半路人家说不行了,或者说遇阻力,然后人家说这条路好,你就跑到这条路,我看到了很多的中国公司有这种倾向。

拿来主义这个大家都理解,人家花 100 块钱干的事情,等别人干出来了我花 1 块钱就行了,我甚至看到今天很多的大公司,他有的时候还会跟别人说,你看 Google 花了 20 亿才搞出了这个东西,我花了两亿就搞出来了,他甚至还把这个当做一个很自豪的事情。在我看来,这就是非常功利的事情。

说到弯道超车,很多时候我们特别喜欢讲,但你不应该弯道超车,因为这样说明你比人家起步晚,你应该是跟人家站在同一个起跑线,而不是老想着弯道超车。因为,只有你是第一步进入,然后跟人家一起尝试,最后你才能够获得创新带来的收益,以及获得我们竞争者和合作伙伴的认同。

这个就是我今天分享的创新,非常随机的一些想法,这里绝大部分都是创新者,虽然创新非常艰难,但是我觉得创新的收益挺高,整个过程也让人非常愉悦,希望大家都能坚持创新,谢谢大家!

图片来源:VPhoto


登录查看更多
0

相关内容

李志飞,“出门问问”创始人、CEO、人工智能领域专家。2004年,李志飞在约翰霍普斯金大学攻读博士学位,研究智能机器人翻译。读博期间,李志飞开发的开源机器翻译软件Joshua,已经成为世界学术界两大主流机器翻译软件之一,斯坦福、麻省理工大学等研究机构都在使用。博士毕业之后,李志飞加入谷歌总部担任科学家,从事机器翻译的研究和开发工作,其间主要开发了谷歌的手机离线翻译系统。2012年,李志飞获得来自红杉资本和真格基金的天使投资,从谷歌美国总部辞职回国创办“出门问问”。李志飞召集了来自斯坦福、马里兰、MIT,以及清华、北大等海内外著名高校的工程师,组建了“出门问问”最初的核心创始团队,并通过近一年的人工智能技术研发,从0到1,构筑起语音识别、语义理解、对话管理、垂直搜索、计算机视觉和机器人SLAM等核心技术基础。为实现将领先的人工智能技术落地于日常生活这一目标,“出门问问”先后将人工智能技术应用于智能手机、智能可穿戴、智能车载、智能家居等多个场景,让人工智能技术得以真正服务于每一个普通人的日常生活。个人主页:https://baike.baidu.com/item/%E6%9D%8E%E5%BF%97%E9%A3%9E/7908174?fr=aladdin
华为发布《自动驾驶网络解决方案白皮书》
专知会员服务
125+阅读 · 2020年5月22日
德勤:2020技术趋势报告,120页pdf
专知会员服务
190+阅读 · 2020年3月31日
阿里巴巴达摩院发布「2020十大科技趋势」
专知会员服务
106+阅读 · 2020年1月2日
【德勤】中国人工智能产业白皮书,68页pdf
专知会员服务
303+阅读 · 2019年12月23日
2019中国硬科技发展白皮书 193页
专知会员服务
82+阅读 · 2019年12月13日
【数字孪生】一文读懂数字孪生的应用及意义
产业智能官
43+阅读 · 2018年9月28日
30岁还在敲代码,等被公司请走吗?
Python程序员
4+阅读 · 2018年9月10日
全球最大AI独角兽诞生中国,商汤科技凭什么?
商业周刊中文版
5+阅读 · 2018年4月9日
PPTV创始人姚欣:人工智能到底怎么赚钱?
徐小平讲了个投资奇迹,3年不到75万变3亿
钛媒体
5+阅读 · 2017年12月15日
中央再批人工智能伪创新,90%以上AI都不靠谱
THU数据派
7+阅读 · 2017年12月6日
【新零售】当下趋势:传统零售将变革为新零售
产业智能官
3+阅读 · 2017年11月12日
Neural Image Captioning
Arxiv
5+阅读 · 2019年7月2日
One-Shot Federated Learning
Arxiv
9+阅读 · 2019年3月5日
Arxiv
6+阅读 · 2018年11月1日
Arxiv
7+阅读 · 2018年3月19日
Arxiv
27+阅读 · 2017年12月6日
Arxiv
3+阅读 · 2017年11月21日
VIP会员
相关资讯
【数字孪生】一文读懂数字孪生的应用及意义
产业智能官
43+阅读 · 2018年9月28日
30岁还在敲代码,等被公司请走吗?
Python程序员
4+阅读 · 2018年9月10日
全球最大AI独角兽诞生中国,商汤科技凭什么?
商业周刊中文版
5+阅读 · 2018年4月9日
PPTV创始人姚欣:人工智能到底怎么赚钱?
徐小平讲了个投资奇迹,3年不到75万变3亿
钛媒体
5+阅读 · 2017年12月15日
中央再批人工智能伪创新,90%以上AI都不靠谱
THU数据派
7+阅读 · 2017年12月6日
【新零售】当下趋势:传统零售将变革为新零售
产业智能官
3+阅读 · 2017年11月12日
相关论文
Neural Image Captioning
Arxiv
5+阅读 · 2019年7月2日
One-Shot Federated Learning
Arxiv
9+阅读 · 2019年3月5日
Arxiv
6+阅读 · 2018年11月1日
Arxiv
7+阅读 · 2018年3月19日
Arxiv
27+阅读 · 2017年12月6日
Arxiv
3+阅读 · 2017年11月21日
Top
微信扫码咨询专知VIP会员