编者按:对于区块链和人工智能而言,2018年仍是它们风口正劲的一年。在过去的一年中,我们目睹了击败专业围棋选手的AI程序AlphaGo,也见证了区块链在全球范围内的强势发展。那么当我们把区块链和需要大量训练数据的机器学习模型结合在一起后,普通开发者能否打破科技巨头的垄断,创造出真正的AGI呢?
且不论区块链和人工智能行业中存在的泡沫。如果我们能建立一个基于区块链的机器学习市场,那它就结合了两大优势:一是私人化的机器学习,即允许在不透露用户敏感隐私数据的情况下训练模型;二是区块链的激励机制,它会优先选择最佳数据和模型,并使其变得更智能。它们共同作用的结果就是一个开放的市场:任何人都能在里面出售数据,同时保证数据的安全性;而开发者则可以通过激励机制为算法筛选优质数据。
构建这样一个系统是极具挑战性的。虽然一些关键的区块还没有人做出来过,但如果只是构建一个简单的初始版本,这在现在已经不是一件难事。我们现还处于Web 2.0时代,这是个数据都被市场、大公司垄断的时代,也是个不公平的时代。如果我们建立了这样一个市场,那它就能真正开启数据和算法的全面公开竞争,提前让每个人迈入Web 3.0时代。简而言之,在这样的市场中,我们的数据和算法都能被直接货币化。
这个灵感来自2015年查德· 努梅莱的采访对话。Numer.ai是一个向参赛者开放大量加密数据机器学习竞赛平台,被称为金融市场的Kaggle。它也是一家对冲基金,利用数据科学家训练出的模型进行资本运作。把加密后的市场数据分发下去后,Numer.ai会从竞赛中挑选出最好的模型放入“元模型”中,如果“元模型”表现良好(盈利),那相关数据科学家就能从中得到分红。
像这样让数据科学家们参与竞争的方法似乎是一个可行的思路,既然Numer.ai能把原本完全分散的各个模型整合在一起用于对冲基金,那从理论上来说,同样的做法也适用于其他任何领域。
作为一个示例,我们可以先试着创建一个完全分散的系统,并把它用于用于加密货币零散交易,这事实上也是区块链的一个潜在应用场景。
数据(DATA):数据提供者分类数据,并把它们提供给建模人员。
模型构建(MODELS):建模人员筛选出合适的数据,并创建模型。为了防止数据泄露,系统要保证训练过程的安全性,上图的结构就允许模型在不暴露底层数据的情况下进行训练。模型也被分类。
元模型构建(METAMODELS):元模型的构建需要考虑各模型的分类算法,在这基础上重新整合。——当然,这一步只是个可选项,你也可以不把所有模型都放在一个篮子里。
分配收益/损失:经过一个周期后,我们在加密货币交易中赚取利润/亏损了,这时各模型就要承担利润/损失分成。这不是一个一刀切的过程,有些模型只提供部分积极/消极贡献,而有些模型则全部是积极/消极贡献,系统会考虑这些因素,并依据它们的智能程度进行奖惩。这之后,模型会转向数据提供者,并执行类似的股权分发/削减。
可验证计算:每个步骤的计算可以是集中式的,也可以用安全多方计算。它能不断进行验证。
算法间的竞争。我们现在还无法拥有这种算法、模型之间全面公开竞争的机会,但我们确实需要它们。试想一下,如果Facebook的新闻推送算法不是一家独大,那它还会闹出“数据泄露”的丑闻吗?
奖励透明。在这种机制下,数据提供者和建模人员能看到自己所做贡献的价值,并能亲身参与计算验证,这很有可能会提高他们的参与度。
自动化。元模型构建完成后,它会进入一个行动闭环,这时系统是完全自动的。换句话说,这样的自动化能降低贡献者心中的疑虑。
网络效应。数据提供者和数据科学家之间多面的网络效应能使系统不断进行自我强化。系统表现越好,它吸引的资金就越多,相应的它的潜在支出也就越多——越来越多的数据提供者和数据科学家会争相参与其中,并使系统变得更智能。而更智能的系统又会吸引更多的资本,这就步入了一个良性循环。
也正是因为这一点,安全多方计算在计算机科学研究中一直处于前沿位置,它的技术瓶颈在于计算效率太低,但近年来这种情况也在逐渐好转。
为了说明个性化机器学习模型的潜力,我们可以想象一个名为“终极推荐系统”的应用程序,它会监控你在设备上执行的所有操作:浏览记录、在各应用中的操作、手机图片、位置数据、消费记录、可穿戴传感器、短信等。它控制着你的所有设备,包括你放在家里的相机,甚至你未来会买的相机。在这些数据基础上,它再向你推荐该访问哪个网站、看哪篇文章、听哪首歌或购买哪件商品。
这个推荐系统很高效,比Google、Facebook等其他科技巨头现有的AI推荐算法智能得多,因为它对你本人有非常深刻的了解。但你完全不用担心自己的隐私被泄露了,因为它只从你的数据中学习,而除了它,没有其他的第三者知晓你的情况。以前加密货币交易系统也推出过类似的服务,它通过个人用户在某个在线市场上的访问情况推荐可用加密货币交易的商品,甚至还会因用户贡献数据而给予奖励。
谷歌的federated learning和苹果的differential privacy都是朝个性化机器学习模型迈出的第一步,但他们在赢得用户信任这条路上还任重道远,因为这两家公司都把模型的个性化对象——用户个人排除在了安全性检查、数据存储以外。
对于这一切来说,现在还很早,早到只有很少的人在做相关的工作,而他们中的大多数人都抱着在这块大蛋糕上咬下第一口的想法。
Algorithmia Research曾建立过一个基于区块链的机器学习模型结构,它把元模型的准确率设置为高于某个回测阈值。
由Algorithmia Research创建的机器学习模型的简单构造
而Numer.ai则在这个基础上分三步走:首先对数据加密(不完全使用同态加密),其次是把众包模型结合进元模型中,最后是根据未来表现奖励模型,而不是回测某个具体的目标。数据科学家必须将Numer.ai用做分红指标的加密货币Numeraire看成游戏币,它只会随未来发生的事增多、减少,而不会受已有事实影响(测试时的性能)。但是它的一个缺点是目前只是简单地分发数据,缺乏对数据科学家目标意识的鼓励。
之前Ocean曾做过一个关于数据的区块链市场,但只是个雏形,目前该领域还没有出现非常成功的案例。
还有一些人在探索计算机网络安全领域的区块链应用。如Openmined正在创建一个多方计算网络,用于在Unity之上培训机器学习模型,该网络可以在任何设备上运行,包括家用游戏机。
总而言之,这样一个迷人市场的最终状态会是参与者彼此共享同一个元模型,它按数据提供者、建模人员的智能贡献比例分配所有权。这个模型将被标记化,并随着时间的推移向“股民”分发“股息”,甚至可以被全体“股东”支配。这是一种互相拥有的蜂巢式思维。
综合全文,就基于区块链技术的机器学习市场这个想法,我们可以得到以下几点启示。
首先,分散式机器学习市场可以破除目前科技巨头对数据的垄断。在过去的20年中,这些大型公司利用互联网来创造价值、实现商品化和标准化,并搜集了大量专用数据用于巩固和加强他们的网络效应。这样做的结果就是,价值创造从数据被转移到了算法上。
科技领域的标准化和商品化周期,数据垄断网络时代即将终结
换句话说,他们也为AI创造了一种直接的商业模式:喂数据→训练。
其次,这些公司创造了世界上最强大的AI系统,通过直接的经济激励,最好的数据和模型被他们收入囊中,而他们的实力也通过网络效应的良性循环进一步增强。随着Web 2.0时代的到来,大公司的作为使数据垄断实现了商品化,而这似乎又成了突破这种垄断局面的新切入口。虽然几年内数据领域的局面不会有太大变化,但这看起来是个正确的方向。
第三,正如之前提到的“终极推荐系统”,我们现有的搜索推荐算法的出发点是完全颠倒的。大公司是为了增加产品竞争力而制定个性化推荐,而不是出于用户需要,专门开发真正精准的推荐算法。这就带来了另一个机遇,就是每个人都可以拓展个人市场,挖掘完全自定义的数据,并把它们放进自己的模型中。
第四,Google和Facebook等公司通过机器学习开发了大量受欢迎的应用,有了这样一个市场,我们可以实现在不泄露个人隐私的前提下获得同样好,甚至更好的技术体验。
第五,机器学习研究可以更快地推进,因为任何工程师都可以访问开放的数据市场,而不仅仅是大型Web 2.0公司的一小部分工程师。
虽然愿景很美,但在通往Web 3.0的路上,我们还要面对很多挑战。首先一个技术上的重要难题就是安全计算方法的效率还是太低了,这大大拉高了机器学习的计算成本。
我们在文章中多次提到把模型结合进元模型。对于单个模型而言,为它找一组特定的测试集是很容易的,但我们不能把同样的做法生搬硬套到元模型上,因为涉及复杂的分类算法,目前要实现这一点还很难。
虽然市场能解决数据问题,但这些数据的清理工作和格式化工作还是十分繁琐的。我们现在有不少自动化工具,一些小企业也愿意接众包的活,但这还是太复杂了。
最后就是最讽刺的一点,我们花一整篇文章讲述了如何构建一个广义上的商业模式,但一旦涉及实际落地,可能它还不如直接开一个数据市场来得简单有效。而其中的加密手段也无非就是市场管理层面的工作。
总而言之,个性化机器学习和区块链的结合可以在各种应用中创造更强大的机器之能。随着时间的推移,它甚至还能解决重大的技术挑战。它的潜力是巨大的,它的价值观也是符合用户需要的。但它们又是可怕的——它们引导自我存在、自我强化,消费私人数据,并且几乎不可能关闭——这也是现在加密货币缓慢渗透每一个行业所带来的警示。
原文地址:Blockchain-based Machine Learning Marketplaces