转载自:云头条(ID:YunTouTiao)
作者:Minghe Hu,《南华早报》驻北京技术栏目记者
本文剖析了中美两国围绕AI技术的开发和部署展开的愈演愈烈的较量。
依赖美国的深度学习框架被视为是中国AI生态系统存在的一大缺口,可能阻碍2030年之前与美国缩小AI技术差距的计划。
中国在AI基础设施方面相对薄弱,这个事实越来越让人担忧;业内一些人士称,中国需要开发一种流行的机器学习框架或加强现有的机器学习框架,以防止AI领域出现世界末日的情形。
工程师Kuang Kaiming被分派到为上海一家初创公司开发AI技术的团队时,该公司选择了两种领先的开源软件库:谷歌的TensorFlow和Facebook的Pytorch。
决定采用美国的核心技术而非中国的替代技术,这颇能表明中国在基本AI基础设施方面很薄弱,尽管中国成功造就了商业上取得成功的大批AI公司。
Kuang所在的公司绝非个案,该公司的AI产品可检测X射线的异常。几乎所有中小型中国AI公司都依赖源自美国的开源平台,这些平台还包括MXNet和Caffe,因为除了需要顶尖人才外,从头开始自行开发一种框架还需要投入大量的时间和专用资源,才能确保框架顺畅运行,并支持众多使用场景。
TensorFlow和Pytorch之类的老牌开源平台提供了为机器学习和深度学习(这些技术或方法教计算机通过示例来学习)而设计的众多工具和库。
实际上,这些开源平台使深度学习实现大众化,几乎任何人都可以将数据馈入这些模型,并开始训练自己的AI系统,不必从头开始自行开发平台或框架。
百度在TensorFlow推出仅一年后,于2016年推出了其PaddlePaddle开源AI平台,但该平台未能在全球AI程序员当中受到追捧。
Kuang说:“使用PaddlePaddle就像是从一个功能较少的鲜为人知的品牌购买智能手机。” 8月份他加入点内生物科技有限公司,成为其医疗技术团队的一员。在这种情况下,“哪怕购买手机壳或充电线之类的配件也很困难。”
中国依赖源自美国的框架是其AI生态系统的一大缺口;除了数据、半导体和计算能力外,AI生态系统还包括算法和框架之类的基础性技术。
美国乔治敦大学安全和新兴技术中心的战略主管Helen Toner说:“中国显然想要在AI领域称霸世界,但如果开源框架基本上被美国主导,很难想象中国会被视为全球领导大国。”由于平台和工具包是开源的,因此使用它们的开发人员常常给予一些回馈,编写代码、修复错误或参加社区讨论,从而使软件变得比以前更出色、更强大。
Kuang说:“开源框架奉行赢家通吃的原则;由于已经有很多人使用TensorFlow和Pytorch,并为它们做出贡献,所以使用它们来执行商业应用软件比较明智。”他对TensorFlow的模块化功能大加赞赏,因而可以像添加构建模块那样添加功能特性。
百度的PaddlePaddle仍然相对不成气候。在代码托管平台Github上,它只有264个直接贡献者,而TensorFlow和Pytorch分别拥有2000多个和1000多个贡献者。
使用TensorFlow的不仅是像点内生物科技有限公司这样的小型中国AI初创公司。据TensorFlow网站上的用户名单显示,京东、中国移动、美团和搜狗等已采用了该平台的技术堆栈,用于各种深度学习应用领域。
虽然PaddlePaddle特别指出华为、英伟达和英特尔是采用其技术的用户,但用户名单上的国际知名公司明显少得多。
当然,鉴于TensorFlow和Pytorch之类的平台是开源且免费使用的,业内人士认为,中国不需要重新发明轮子。他们称,担心美国政府可能让中国无法使用TensorFlow和Pytorch之类的平台这种担心毫无根据,因为美国的出口限制不适用于开源软件。
Tony Han是自动驾驶公司WeRide的首席执行官,他之前是密苏里大学的副教授,专门研究深度学习和计算机视觉技术。他说:“TensorFlow和Pytorch只是开放的平台,说这是美国技术是不对的……世界上所有人都在为它做贡献……只要遵守许可条款,任何人都可以使用它。”
他说:“既然我们可以将宝贵的时间花在更具挑战性和紧迫性的问题上,为什么要重新发明轮子呢?对于学术界和AI行业来说,如果你想有所作为,就要组建一个国际团队,从世界各地吸引人才并进行合作。”
“谁开始限制他们的技术,谁就会被甩在后面。”
这场大辩论适逢旷日持久的美中贸易摩擦以及华盛顿方面对中国的技术雄心日益怀疑这个大环境,尤其是在像5G和AI这些行业。
为了实现成为全球AI领导者这一目标,包括百度、商汤科技、旷视科技和海康威视牵头领导中国关键项目并推动AI的发展,以期2030年之前缩小中美之间AI技术差距。
上个月美国将包括商汤科技、旷视科技、海康威视和科大讯飞在内的八家中国AI公司列入贸易黑名单,禁止它们从美国公司购买技术或部件/组件。
美国的这一举措还迫使一些美国私营科技公司采取先发制人的行动,尽量减小受中国技术的影响。
本月早些时候,总部位于旧金山的GitLab称,由于“当前地缘政治形势”方面的客户反馈,它正考虑暂停在中国和俄罗斯为处理用户数据的敏感岗位招聘新人。
虽然中国可以访问海量数据,重新发力以开发半导体(AI的两项关键基础性技术),但对于开发基本AI技术基础设施的关注却少得多。
百度无法通过PaddlePaddle受到追捧的部分原因是,像TensorFlow这样的领先的开源机器学习平台有内在的网络效应:公司企业和研究人员使用它们越频繁,它们的地位就显得越牢固。
谷歌和Facebook都投入了大量资金来聘请工程师团队以维护TensorFlow和Pytorch,还竭力将它们推销给从事AI算法研究的企业和学术界。这就意味着,比较小、不太受欢迎的平台(如PaddlePaddle)就很难获得市场份额,除非它们可以提供独特的东西。
有利于开源方法的理由之一是,它让谷歌和Facebook之类的公司得以享用已经熟悉其平台的人才库,而不是非得从头开始培训开发人员,以便使用一种其他地方并不使用的独特的公司内部框架。
同样,如果中国公司的开源框架备受欢迎,从而使它们可以享用熟悉其技术的本地顶尖人才,就能够获得同样的好处。拥有一种广泛采用的源自中国的框架不仅表明中国的AI生态系统趋于成熟,还有望让中国变得更自给自足。