数据是一切业务的核心,数据正在承载太多的价值。
站在互联网的下半场,面对狂涌而至的区块链浪潮,数据正成为各企业的核心竞争力。不仅BAT、亚马逊、微软等国内外巨头在此厮杀,一些区块链团队也将目光转向数据上链带来的盈利前景。
来自硅谷且成立不久的 DxChain,就是这样一个区块链初创团队。DxChain 瞄准数据的存储、计算和隐私需求,力图打造一个去中心化的大数据存储和机器学习网络。在 DxChain 创始人张亮看来,DxChain的使命就是要让一切数据价值化,一切数据货币化。
缘起
五年前,张亮在海外创建了一家移动安全公司 Trustlook。据张亮介绍,目前共有将近 5 亿多移动端用户使用 Trustlook 杀毒引擎。2016年,随着公司的持续扩展,张亮试图接入 AI 技术来做杀毒引擎,以便获取更多的可能性。
DxChain创始人张亮(DxChain供图)
幸运的是,从2016年下半年开始涌现的 AI 热潮,让张亮和他的 Trustlook 对接入这条新轨充满了信心。然而作为一家 AI 技术驱动的安全公司,Trustlook 的恶意软件和勒索软件检测引擎的质量严重依赖于从其客户和合作伙伴收集的样本数据。这样会带来两个问题:
高质量的样本数据很难获得。如要得到病人的 DNA 数据,像 Trustlook 这样的初创公司需要从 Mcafee、赛门铁克和谷歌这样的大型安全厂商购买或交换,这个过程需要支付额外的订阅费。
维护大型机器学习集群和数据中心存储的成本很高。经张亮介绍,Trustlook 收集的移动样本数据很大,超过好几个 PB(1PB:Petabyte 千万亿字节 拍字节=1024TB)。这些大的数据集聚在后端,需要巨大的预算和资源来维护。
「所以,我们一直在想,能否有一种方案,可把 Trustlook 的资源成本节省出来,降低存储和商业智能分析计算的费用。可能只要降低3%-5%的成本,Trustlook 就会变成一个非常赚钱的企业。」张亮直言。
或许正如张亮所言,自己是一个靠嗅觉吃饭的人。在 Trustlook 遇数据存储难题求变之际,区块链恰如其分的出现了。这个分布式的记账网络,因具备去中心化、多节点、分布式存储的特点,不仅可以降低存储提取成本,同时也能保证数据不被篡改或丢失。通过区块链技术,集合机器学习算法和大数据分析,或能帮助 Trustlook 实现「求变」。
由此,DxChain 项目作为张亮创办的另一家公司,应运而生。
链上链+大数据分析+机器学习
根据白皮书显示,DxChain 是一个由以计算为中心的区块链及其一个内在通证协议驱动的大数据分析和机器学习网络。
在这个网络里,包含四点创新:一个新的去中心化计算框架;一个新的链上链设计,包含一条主链和两个侧链;在 DxChain 引入 Hadoop,以促进大数据处理和机器学习;专为支持大多数的业务数据交换和数据分析需求设计。
张亮认为,不管是处于互联网前期的移动互联网,还是现在正慢慢侵入的物联网,其基础都是关于大数据和基于大数据的计算。在区块链技术的驱动下,未来将是价值互联网的世界,它需要存储足够多的数据,并具备计算这些数据的能力。「然而,区块链本身存储空间有限,还处于一个非常初级的阶段,这在一定程度上限制了价值互联网未来的发展。」张亮告诉雷锋网AI金融评论。
为此,DxChain 在创立之初,提出了三链合一的架构体系——一条主链及两条分别处理数据存储和计算问题的侧链。这点即为 DxChain 的一大创新之一。具体来说,在“数据存储”的侧链上,只存储有用的、有价值的数据,并可以无穷无尽的拓展存储空间,从而解决区块链的存储局限;在“计算”侧链上,可支持在海量的数据中实现快速的搜索和并行计算;主链则负责提供交易相关操作,并同时协调存储侧链和计算侧链。
为了更好地理解机器学习、大数据分析与区块链是如何结合来实现链上的计算和存储这一问题,张亮以歌曲的场景举了个例子。
比如,有海量歌曲存储在链上,这些歌曲分布在每一个矿工手中。在统计这些歌曲的数量、平均歌曲的长度、歌手等信息时,DxChain 通过 Map-reduce 的分布式计算逻辑,可实现任务的拆解。在 Map-reduce 的运行逻辑下,第一步可能会先按照区域、歌手等标签拆分数据,接续再以区域与区域之间进行合并统计,最后拆解完整个歌曲存储和计算的任务。在这个过程中,将数据打散,并分布到每一片数据上,并在相邻的两个节点或多个节点里再做聚合,聚合的过程称为「reduce」,而再打散、再运算的过程则称为「map」。这样一来,任何一个复杂的计算都可以被拆解,计算效能得以线性增长。
然而,如果要对海量(足够大)的歌曲进行统计,个人电脑基本不可能完成。个人只能在链上发布一个统计任务,对所有歌曲做一次运算,运算的过程则由链上存储这些歌曲的每一位矿工共同参与完成。而这个过程,不可避免会涉及不同机构的参与方,那么,信任问题该如何解决?
据张亮介绍,DxChain 借鉴并推整了 Hadoop 系统,并将 Map-reduce 的任务搬到链上。通过 Map-reduce 的去中心化设计系统,来管理节点中的任务,同时还与 Hadoop 的作业跟踪器通信。从而结合两个系统的优势,实现跨企业、跨行业的巨大数据量之间的分布式计算。
数据上链or计算上链,区块链世界或大有不同
然而,任何一项新技术,都需要商业场景的驱动,否则将不具备任何价值。张亮对这点想得很明白。所以,在创立之初张亮对 DxChian 的定位就在于利用 Trustlook 积累的数据资源,解决区块链网络的存储和计算难题,让 Trustlook 成为 DxChain 首家数据上链的公司。
据张亮介绍,除5亿多的移动端用户外,Trustlook 的服务器每个月还有接近30亿次的API请求。这么多的终端,每台终端又有这么多的数据。如果用户在合理价格的智能合约内愿意贡献或出让自己的数据到链上,买家或企业则基于智能合约在链上进行并购或购买数据,双方达成交易。DxChain 作为平台方,在其中抽取一部分收益,这将是一件多方互利共赢的事情。
转换一个场景来说,国外的 DNA 数据非常宝贵。很多科学家虽然具备专业的知识,但因缺少数据样本、研究进程受阻。如果这个场景能够依靠数据上链实现交易,就能拥有远大的应用潜能。
张亮列举了一个场景,如果一位病人愿意出让自身的医疗数据给到科学家,或者数据研究公司,或者其他对该份数据有需求的机构。同样一份数据,上链之后,就能同时转让给链上的多方机构。这样一来,不仅病人能收获一笔不菲的收入(抵消看病支出),卖方也能进一步降低成本,实现交易的去中心化。
不过,场景预设是一回事,实际的推进则是另一回事。对任何一条链来说,其共识机制往往是最难验证的,也是开发链都避不开的一大难点。做好一条链已经很难很难,更毋论 DxChain 这种三链合一的结构,甚至是在其之上搭建应用场景。「DxChain 没法一步到位实现这个目标,必须一步一步来。」张亮说,「我们得先把主链稳定,再稳定第一条侧链,在这两条链形成二链合一的结构且能稳定运行之后,我们才会加入第三条链。」
事实上,市面上瞄准分布式存储前景的,并非 DxChain 一个,IPFS、Storj、SiaCoin、Lisk(应用链)也在此列。如 Lisk 项目,其也采用主链+侧链的结构来处理扩容和速度的问题。不同的在于,DxChain 拓展的是数据本身,Lisk 拓展的则是基于账本和交易的分布式计算。
在张亮看来,DxChain 承载的不是拓展账本的能力,或者交易速度的 tps,而是要将区块链拉到和现在的互联网平起平坐的位置。「我们的目标是实现数据上链。真正的数据和计算上链,这两个目标,任何一个都将对区块链世界产生巨大的贡献。」
为了实现这个目标,DxChain 预计今年6月底将上线第一版产品 demo。张亮告诉雷锋网(公众号:雷锋网)AI金融评论,「我们会在主链准备上链的时候再开源,并在此阶段发布一些产品 demo,以观察内部的测试网络可拓展的数据及存储稳定程度。」
结语
一席交流下来,可以感觉到张亮对未来的区块链世界怀有一种豪情。他个人有句话,叫:
一币一世界,一链一乾坤。
张亮说,现阶段感觉每条公链都是一个「小世界」,每条链都是一个「小乾坤」,但最后的结果应该是「世界」和「世界」之间、「乾坤」和「乾坤」之间要相互打通。
张亮指出一种现象,现在很多链连自己的数据都存不下,但这些数据存储在 AWS或百度云这种中心化的机构或企业里,显然又不合适。基于此,张亮希望 DxChain 能成为未来区块链世界中的一个去中心化的存储中心,「任何一条链的数据存储不了时,都可以放在 DxChain 链上。」
未来,可能将是几千条链变得互联互通,共同打造的一个和谐共通的新世界。随之而来可能还会出现很多问题,诸如安全、计算、交易等等。但是,分布式的问题就应该用分布式的方法去解决。「我们可以一个点一个点,一个问题一个问题去急迫,将这些中心华化的东西慢慢变成去中心化。
过去3个月,雷锋网通过对国内外诸多区块链技术及应用公司的深入访谈与研究,打造出《区块链基础及应用白皮书》。
书中解读了区块链技术的基础,并依托国内外区块链公司的案例,分析了包括金融、供应链、保险、公益、电商在内多个行业的应用落地。
区块链的变革还需要多久,谁也无法准确预测,但从现有的实践中获得经验是有必要的。《区块链基础及应用白皮书》正是希望系统呈现相关产业应用的全貌,为了解区块链提供有价值参考。
白皮书更多详情,请扫描下方二维码↓