请留存这篇3万字长文,它或许正是独角兽公司们手中的那张王牌

2018 年 3 月 29 日 红杉汇

数据很重要,但它能成为你的王牌吗?

答案是不能,因为数据本身没有价值。


那么,那些独角兽公司是如何让数据发挥价值的?数据如何帮你节约试错成本?你应该如何选择场景?为什么营销业务在中国能赢?为什么要尽快出海?阅读这篇3万字的文章,如果你能Get到吴明辉所言:利用数据商业化的三要素:数据源、人、数据场景的变化做创新,或许你就把写满“独角兽奥义”的那张王牌攥在手里了。


本文为明略数据、秒针系统创始人兼董事长吴明辉近日发表的题为《数据中的商机》的演讲全文(略有删减),他主要从以下四个部分探讨了数据商业化的实践和心得:

▨ 对数据生意本质的认知

▨ 数据行业产品化商业化的核心思考

▨ 明略和秒针的价值增长案例

▨ 给大家的一些建议



1

对数据生意的认知

数据的本质是什么?

数据生意的本质是什么?

数据产品的价值是什么?


我是学数学的,很骄傲是中国最好的数学系,北京大学数学系毕业的。我今天的分享,就从数学、数学家讲起吧。


《高等代数》、《解析几何》和《数学分析》是数学系大一的三门教材课本。其中高等代数对于非数学系的同学,应该叫线性代数。解析几何我估计同学们上大学不一定学了,中学的时候应该都学过平面解析几何,大学数学系学的是三维、四维更高空间的几何,立体解析几何、空间解析几何。数学分析肯定大家都学过,非数学系学的叫高等数学,就是微积分。



数学是特别基础的学科,所有的事情都可以用数学去理解,这三门基础课程有着深刻含义。举个例子,小学学的第一门数学课程叫什么?算术。算术在数学里面专业词汇叫数论。数论是从哪里出来的?就是数数。为什么人类要数数?数数这个事情研究得越来越复杂是为了干嘛的?其实是为了算时间。看太阳什么时候升起落下,看月相阴晴圆缺都是为了算时间用的。


几何是为了算空间、算位置用的。其实数学的本质就是研究时间和空间,是用XYZ、用12345研究时间和空间。时间和空间是我们研究每一个学科最核心的两个维度。宇宙,宇和宙就是时间和空间。


数学分析研究的是函数和函数的变化,核心是研究变化。


这是数学最基础的三门课。你要知道,时间是怎么回事,空间是怎么回事,变化是怎么回事,这就是数学最基础的东西。


对变化的研究,微积分分为微分和积分,这个和我们日常生活有很大关系。微分是不断去研究一个个体变化,研究一个局部、微观的变化,就是个体研究。积分可以求面积、求体积,是求和用的,它其实是统计看宏观的。数学的思想就是数据分析的思想,研究变化,研究微观变化,研究宏观变化。待会儿分享我们案例的时候,会分享数据生意是如何从这些方面去做研究的。



千禧年,我因奥数保送北大,北大2000级数学系已经有四位数学家了。照片中是其中的两位恽之伟和张伟,去年刚在美国拿下科学突破奖“数学新视野奖”。大家有没有听说过这个奖?很厉害的,有“科学界奥斯卡”之称,2013年由俄罗斯亿万富翁尤里・米尔纳设立,阿里巴巴马云及其夫人、腾讯马化腾、Google塞吉・布林、Facebook马克・扎克伯格夫妇,以及苹果公司董事长亚瑟・莱文森等知名企业家赞助。科学突破奖旨在表彰在生命科学、数学和基础物理学领域做出杰出贡献的科学家。有同学能够拿到这种奖,我也非常骄傲。数学界没有诺贝尔奖,最高奖项叫菲尔兹奖,第二高的叫拉马努金奖。这两个同学都已经得了SASTRA拉马努金奖,号称中国菲尔兹奖的晨兴奖也都拿了,我认为他们将来应该都能拿菲尔兹奖。真的,我很荣幸能够跟他们成为同学。



能够拿那么高级的奖,他们研究的课题是什么呢?给大家看个公式,这个公式证明了一个很牛的猜想,函数域中的高阶Gan-Gross-Prasad猜想,它连接了数论和几何的两个量,几乎打破了这一领域30年来的毫无进展,为数学界著名的7个千禧年问题中的3个问题推出了诸多的解题可能性。



这听起来很牛,那数学怎么赚钱呢?数据怎么赚钱呢?这其实是非常远离的两个方向。


先说数学,照片上左边那位是我们年级数学最厉害的叫恽之玮,大家都叫他恽神。我在读书的时候已经是学霸了,中学时代只要我做不出来的题没有人能做出来,每次考试数理化,尤其是数学,老师不是看我考不考第一名,只要不是满分就让我把卷子抄50遍,这是我的老师对我的要求,因为他觉得我不可能有不会做的题。


但是,我去了北大以后,遇到恽神,就是这样一个对比的感觉,就知道差距了。为什么叫神呢?我给大家举个例子,在本科期间,恽神数学专业课19门100分,7门99分,其中不乏大一时便已修过的高级课程。不免要感慨一句,这样的成绩,我们可能只在小学一年级的时候考过。他在本科毕业申请到美国读研究生的时候,只给美国前十名的大学写了申请,后来只有前四名给他发了Offer,第五名开始给他的回信都是:亲爱的恽之伟同学,You are over qualified,反正你也不会来的,给你发Offer也浪费我们的资源。真是神一样的人物,这是真正的学神,我只能叫学霸。


我在读大学的时候,一直是蛮跨界的人,初中二年级开始编程,当年是数学、物理、化学、计算机,每一科都参加竞赛,每一科都在前几名,数学最好而保送北大。大一的时候,学校举办数学建模竞赛,建模竞赛需要设计一个模型再进行解释。我当时就去找恽神,我知道这个人太牛了,国际奥赛金牌,我说:“恽之伟,你数学最好,我编程最好,咱俩组个队吧,就天下无敌了。”我那个时候就表现出来知道怎么去找正确的合作,因为我当时是数学系里面编程最厉害的,我是我们系里面唯一一个初中就开始编程的人,连续参加五届计算机竞赛取得大奖,其他同学连编程是怎么回事都还不知道。恽神是我们年级数学最厉害的,我们俩组个队那不是天下无敌吗?然后他语重心长地跟我说:“明辉同学,我们学数学不是用来做应用的。”这充分打击了我,我也知道了跟神的区别是什么,在他的脑子里面数学就是理论不考虑应用。我告诉大家他到现在都没有微信、不用智能手机,大家能想象吗?如果我们联系他的话只能发邮件。我有好几个在美国的同学都是这样,只能发邮件联系,顶多发短信,这是真正的数学家。他们的物质生活是很辛苦的,大家看拿了世界级这么厉害的奖,奖金十万美金,数学家国家科研资助的钱也不多。数学离商业是非常非常远的,真的是没有什么关系。


那数据如何赚钱呢?数据的价值是什么?



今年春节我去了新西兰,中间有一站到了美丽的特卡波湖,去过新西兰的同学大都会去这一站,这是全世界最有名的观星地点。这里几乎没有什么光污染,晚上没有云彩的话就是这样的景色,随便一个单反相机,只要曝光时间长一点就能拍出清晰的银河系。


看到一闪一闪的星空,我就想古人花很多时间和精力去研究星星,价值是什么?


天文学家开普勒,提出了行星运动的三大定律,是现代宇宙理论的基础。开普勒能做到是他很幸运地能够得到著名丹麦天文学家第谷・布拉赫20多年所观察与收集的非常精确的天文资料。



所以数据是什么?数据其实是对世界观察的一个数学记录。

数据的价值是什么?是帮助那些没有观察的人解决信息不对称的问题。


因为每个人的时间都是有限的,你没有时间去观察星星,我看完记录下来,等到开普勒需要计算的时候,把数据拿出来给他。再举个例子,大家做金融风控,看一个家庭有没有还钱的能力,以前你没有时间和精力去看每一个家庭,今天有了大数据分析,基于这个数据表现出来他有能力还款,所以我可以贷款给他。每个人都需要信息、数据解决类似问题,数据可以做很多事情,可以帮助科学家归纳总结、可以提出猜想假说,这是数据的价值。


数据跟数学还是有一点区别的,数据是客观世界的记录。




我的观点是用数据做生意是一个悖论,我们上午讨论提到各种案例数据不靠谱,我的观点是一样的,数据确实是不靠谱的。我为什么认为数据不靠谱,数据做生意是一个悖论?我觉得数据和生意这两个事从概念上就是矛盾的,数据是解决信息不对称,生意本质是什么?是利用信息不对称。数据和生意怎么放到一块去,这看起来就是很矛盾的一件事,怎么用数据去做生意它确实是一个问题。


商业的本质是信息不对称,怎么解决信息不对称的过程中还去赚钱呢?举个例子,解决广告行业的信息不对称问题,以前有一些广告公司通过低价买一些很烂的流量,高价卖出去赚中间差价,利用信息不对称赚很多钱,买方和卖方,卖方不知道谁想买我的流量,买方不知道哪个流量是好的。


秒针的出现颠覆了这个模式,因为我们非常清晰透明地告诉大家哪个流量好,哪个流量不好。我们做收视率分析、做广告监测,这个市场被我们彻底颠覆了,本来大家都能赚钱的现在都不赚钱了,我们虽然赚了一点点钱,但比它们少太多了。在收视率市场,电视广告最近一直在缩水,中国市场以前最高峰的时候大概有三千亿,现在降到不到一千亿了。


我们以前做互联网收视率,不做电视收视率。电视收视率中国最大的公司叫央视索福瑞,在海外最大的是尼尔森,央视索福瑞一年的收入在中国估计是10个亿,大家觉得也不少钱了。但是你知道黑产,做收视率刷榜那些公司一年能赚多少吗?40个亿。这个收视率刷榜怎么做呢?污染样本户。央视索福瑞是通过抽样调查的方法来统计收视率的,一个城市比如说北京两千多万人口,抽样1000个家庭,平时看什么台统计一下,最后预测,整个北京市大家都在看什么台。造假怎么造呢?只要搞清楚这1000家在哪里就行了。然后到他家里说,我是某某卫视,如果你每天看我们台,我一年送你50斤花生油。很多样本户就这样被污染了,1000户里面影响50户就能让收视率上来5个点,他一年收入可能就能多10个亿。所以黑产其实是比做数据生意的公司本身赚得还多,用数据去赚钱其实不是赚钱,是在破坏别人赚钱的机会,所以说这是一个悖论。



解决方法呢?确实也有很多人用数据赚了大钱。举个例子,如果你把数据真的理解成为一个底层东西的话,实际上可以认为绝大多数商业都是在利用数据赚钱,只是大家赚钱手段不一样。商业是利用信息不对称,信息不对称在我的观念里面分为两种,一种是一次性的信息不对称,一种是持续且流变的信息不对称。

什么叫一次性信息不对称?有人说某个股票要涨,这是一次性的信息不对称。你能拿这个信息来做生意吗?你告诉一个人,那个人马上告诉一百个人,一百个人告诉一千人,这个信息只能告诉别人一次,把这个作为一个信息数据来卖是不靠谱的,因为他卖给一个人,其他所有人也都知道了。所以利用这种信息赚钱的唯一办法就是你自己把这个股票买了。一次性的信息不对称这个事只要做完就没有了。


流动的信息不对称是有机会做生意的,每天这个事都在发生变化。比如说广告投放每天都在发生变化,一个电视节目今天好看不一定明天好看,一个网页今天流量大,不一定明天流量大,这些是每天都在持续发生变化的,是你可以去利用它做生意的。只有持续流动的这种情况,你才有可能利用数据做生意。一次性的信息不对称,把这个信息用到最好就行了,就是自己闷声发大财。


举个例子,零售选址是一次性的问题还是一个流动的问题?我以前觉得这个没有什么商业价值。如果你开快餐店就看麦当劳,某个地方很好麦当劳已经在了,直接去旁边开店就完了。如果做零售的话就看优衣库和无印良品。我和它们的总裁交流过,他们的选址方案非常牛,牛到什么程度?在全世界每一个国家、每一个区域都做不同模型。这个模型是跟当地最牛的研究学者一起去做的,比如说在中国肯定会找北大去研究,在日本是东京大学做的。我看那个表参数都不一样,精细化的程度研究到这个店在几层,底下有几层,地上有几层,研究参数全部都放进去了,非常复杂。绝大多数人他自己没有去研究,直接参考麦当劳、优衣库的选址,所以,感觉选址没什么生意的机会。


但是我后来发现确实有公司持续通过选址服务赚到了钱。这段时间,我正好也研究了一下新零售,招了一位以前做新零售的高管。他给我讲说,选址也是一个流动性问题,是天天发生变化的。我们有一个客户是中国最大的便利店集团,有一万家店,今年还要开几千家,每年都要开几千家店,但同时每年又都要关几千家。他要不停地选,因为今天选择了一个好地方,明天不一定好。比如今天在这里开一个7-11,明天突然旁边有人又来开了一个物美,你的客流就被抢走一半。因为你周围的环境在不停变化,这件事情就变成一个流动的信息不对称问题了,它是有商机的。有些行业变化慢就没有机会,有些行业变化快,你就有机会在这里面做生意。它不停地变,才有机会利用数据赚钱,它是有商业价值的,这是一个非常典型的例子。



所以我们要研究一下,把数据变成一个产品,它的价值到底怎么去表达出来呢?


我刚才讲了时间很重要、空间很重要,我认为数据是时间的朋友,因为时间是最值钱的。我们每个人的生命都是有限的,最宝贵的财富就是时间,如果你能帮助一个人减少时间浪费、提高效率,就有机会用它创造价值,就有机会把这个数据变成一个产品去卖,所以数据产品价值其实就是帮助人们节省时间、提高效率。



我把它分成两个方向,第一个是数据创造信任,这也是秒针系统的Slogan。信任的价值是什么呢?降低决策成本。这是数据非常重要的一个价值,比如说广告主打广告,他一直犹豫这个广告到底投不投,无法决策,有一天知道了秒针,他拿秒针数据一分析,或许这个数据的归因分析还需要进一步完善,但是他已经对广告效果的信息有了更多的了解,就能做决策投吧。


秒针通过数据说这次广告投得不够、在哪里投广告效果特好,这就是秒针的可信价值。其实这个数据是否全面是第二位的,第一位是它促使决策者快速做决策。没有人是在了解百分百信息下做决策的,他了解部分信息他就去做了,这就是数据创造信任很重要的一个价值。因为很多事情你做了才知道对不对,一直犹豫不决,机会就丧失了。即使最后你失败了,也是一个成功,不做是完全没有价值的。所以数据创造信任,那个数据本身已经不是最关键的了,信任是最关键的。信任降低整个社会最核心成本,大量成本都是因为不信任产生的,有了信任我们整个社会效率就提升了,我们就有价值了。秒针这样的公司是通过数据创造了信任,从而创造了很大很大的价值。



我从理论上帮大家证明一下,为什么数据其实不一定是真的,甚至一点用都没有。我前面写了一句话,数据不能证实只能证伪,这是科学家首先要知道的第一件事情。如果你想读博士,想当科学家,必须学一门课《科学导论》,这门课最核心的思想就是说其实这个世界上没有真理。有关这个观点,还有一本书我推荐大家去看,通俗易懂的版本叫《世界观》。


这个世界上没有真理,任何大家觉得肯定是对的东西,都是通过严密逻辑推理的东西。逻辑推理里面有三段论,第一段是前提假设条件,条件为什么是对的呢?如果你要证明那个条件是对的,它又有前提假设,一层一层往下推,推到最底下那层推不下去叫什么?叫公理。


公理就一定对吗?在平面几何中“两条平行线永不相交”。但在黎曼几何中有一条基本规定是“在同一平面内任何两条直线都有公共点(交点)”。在黎曼几何学中不承认平行线的存在,它的另一条公设讲“直线可以无限延长,但总的长度是有限的”。


所以这个世界上没有真理,所有的问题归根结底推到最底下的地基都没有人能证明,所以数据是证明不了任何事情的。但数据有一个重要的作用,可以用来证伪。比如爱因斯坦的相对论,让天文学家发现水星在近日点进动的观测值与根据牛顿定律计算的理论值存在一个每世纪43角秒的偏差得到合理解释,同时证明了牛顿经典力学出问题了。它通过一个观察记录的数据证明这个事情是错的。为什么?因为这个世界每天都在产生新的维度,每天都在产生新的变量。


我家老大现在上小学二年级,经常会遇到这种题目,给以下数列找规律,写下一个数是几,比如说1357下面的括号肯定是填9,我相信大家都会填9。但是,学数学的就知道,其实那个括号填什么数字都行,只不过拟合出来的那个方程式是一元一次方程、还是二元一次方程、还是三角函数,什么都能拟合出来。你根本就不知道那个序列最开始是什么方程,是线性的还是非线性的,什么都能拟合出来。所以过去证明不了未来。


我前两天给我儿子讲时间是怎么回事。我给他讲7天是一个礼拜,每年有12个月,1月大,2月平,3月大,4月小,我说2月很特殊,为什么叫2月平,因为2月有28天,我就给他出题了,哪一年的几月几号是星期几,按道理应该能算出来,但是中间出现了一个干扰叫闰年,不是每一年2月都是28天。你观察一百年的时候,突然会多总结出来一个规律就是多久会出现一个闰年,再隔一千年的时候你会发现那个理论又需要调整了。前面讲的小周期还是大周期,越大的周期会发现新的维度,新的变量,会不断的发生。你会发现这个世界上没有真理,数据不能证明任何一件事情,只能证伪,这是整个科学发展告诉我们的一个非常基本的道理。


数学推理和公理加在一起,有公理再加上严密的逻辑推理才能证明一些东西,但是你证明的只不过是一个命题或猜想而已。为什么?因为一切都建设在那个公理上,逻辑推理那个过程没有问题,但是你的公理错了就全错了,这是数学最基本的道理。数学里面专门有一个学科就叫《数学基础》,不是叫基础数学,数学基础研究的就是这些东西。很多数学家都在研究这些底层的东西,有很多东西也是哲学问题。


既然数据是没办法证实的,但我刚才讲了数据有一个很重要的价值是可以产生信任,为什么可以产生信任呢?



我从控制论角度再给大家讲一下为什么,控制论也是现代科学里面非常重要的理论,任何一个人做决策或者是一个系统向前推进过程中,有这几个环节:感知、理解、决策,最后行动。


给大家举个例子,飞机在机身上有很多传感器,平着飞,突然来了一阵风倾斜了一点,传感器就会告诉大家已经左倾了,这个时候它会自己调整,调整一下机翼的角度往右倾一点点了。这是不断适应、不断调整的过程,这是控制论的逻辑。


其实我们人做决策也是这样的,大家每天都是去观察,眼睛、耳朵、鼻子、身体的触觉都是传感器,你感知到外界的变化,然后理解、思考,最后产生行动。你的传感器它最后给大脑拿回来的是什么?就是数据。所以数据为什么能够增进信任呢?是因为人的大脑有一个重大Bug叫能不动脑就不动脑,这是心理学里面很重要的一个结论。我以前是学人工智能的,花很多时间研究脑科学和心理学,脑科学相当于大脑的硬件,心理学相当于大脑的软件,所以这两个东西都要学才能搞清楚人工智能是怎么回事。


人大脑最基本原理就是能不动脑就不动脑,感知系统要耗费你的能量,认知系统,比如眼睛把外部信号翻译成符号传到你的大脑的时候,大脑再通过逻辑推理做决策也要消耗能量,这两个都消耗能量。



有一本书推荐大家看一下《思考的快与慢》,这是一位心理学家、经济学家、教授,丹尼尔・卡内曼写的。他说人的大脑分为系统一和系统二,系统一是直觉系统叫快系统,系统二是逻辑推理的慢系统。


系统一是非常快的,耗能相对比较低,一个人每天日常的新陈代谢都是系统一消耗的。每天的运动根本不经大脑逻辑,你往前走可以自己调整得非常好,完全直觉就控制了。很多同学我估计大家经常开车回家怎么开回去的都忘了,就是系统一在驾驶,实际上今天无人驾驶系统是一个系统一,它是一个直觉系统。


系统二是逻辑思考,逻辑思考这个系统很复杂。这个系统其实是人脑设计得不太好的,它消耗的能量很大,特别消耗体力,所以多思考是有助于减肥的。系统二思考的过程中是没办法并行的,系统一是可以并行的。你的左手和右手是可以并行的,比如说弹钢琴左右手并行已经变成直觉了,你走路手脚都可以并用。系统二你会发现你不可能同时算两道数学题,想要同时算两道题那就是用计算机的方法叫中断,第一题算一下然后中断,算第二题,再中断算第一题,没有并行的情况,只能跳来跳去,所以多任务处理是挺讨厌的。大家都发现多任务处理是人类重要的技能,但是很麻烦,很消耗体力、很消耗能量。


系统一是通过人的直觉系统,通过人的感知系统,把外界信号翻译成数据或者叫符号。什么叫符号?人类的文字就是符号,数字也是符号,这些都是符号。我相信大家现在绝大多数的公司肯定都在做人工智能相关产品。人工智能在发展历史上其实有两个重要学派一个叫符号主义,一个叫连接主义。现在的深度学习就是连接主义。大量的工作其实是符号主义相关的工作,像知识图谱,逻辑推理,机器推理这些东西。


什么是符号主义,什么是连接主义?连接主义其实就是人类的直觉系统,你看今天讲的机器视觉CV算法,人脸识别相当于在模拟的眼睛。现在大家眼睛望着我,相当于你身体上的两个摄像头,摄像头拍了一段视频,但是你脑子里面绝对记不下这个视频,这个视频内容太长了,信息量太大了,最后你脑子里面只记下了“吴明辉”,这三个字就是一个符号。今天你的眼睛把这段视频翻译成了吴明辉这三个字,你的耳朵是把我刚才说的这些话翻译成了文本,后面听到音乐的话变成了旋律。其实你是在把信息量很大的信号最后转变成了信息量很小的浓缩的符号,这是连接系统、人类的直觉系统最核心做的工作。这些符号最后在大脑系统二里面再连接一下,在上面进行逻辑推理,有了底层符号有了语言,这些东西才能在上面做逻辑推理。还有一本书也推荐大家《人类简史》,现代智人为什么这么牛,就是因为现代智人有了语言系统,有了想象力,有了逻辑思考能力,这些系统底层架构是什么?就是符号。没有符号逻辑没法推理,逻辑本身就是符号,所以这就是连接主义、符号主义。


我想给大家阐述一个道理,从心理学上,为什么数据可以产生信任?人决策的整个过程是,先感官系统翻译外部信号变成符号,第二步再把符号进行逻辑推理加工有个决策过程,产生最后的决定,最后行动。第一步第二步都消耗能量,可信任的数据可以直接让决策系统绕过第一步,直接进入第二步,直接给第二步提供了符号,加速了人类的决策。比如秒针说这三个媒体,第一个媒体CPM更便宜,第二个媒体CPM特别高,第三个媒体全是作弊的,这是秒针的报告……你觉得秒针挺靠谱的话,你就不会再动脑思考一遍这个数是怎么算的,逻辑是怎么回事,你就直接做决定了。因为你自己已经有了这样一个决策系统,秒针说CPM低的而且不作弊的我就去买,这是你的决策系统你的系统二,系统一是秒针帮你完成的。人脑重大的Bug就是你不去判断这个数据产生的过程是不是对的,你就会相信这个数据,因为大脑就是能不动脑就不动脑,这是一个最基本的原理。所以从心理学角度来讲,有数字给老板汇报,就比没有数字更容易获得老板认同,这个大家应该都可以理解。但前提是什么?你要搞清楚它的决策流程是什么、决策逻辑是什么、方法论是什么,基于它的方法论给它这些Input。数据本身可能没有用,但就因为这些数据是可以让领导者快速做决策,它的价值是非常大的。


我给大家讲一个故事,也可以认为是一个笑话。在东北有很多土匪,有个电视剧《乌龙山剿匪记》,后来有很多研究表明,那些土匪都是特别信算命的。有一些学者就去研究,发现有一个特别神奇的事情,就是不算命的那些土匪最后都没了,都被剿灭了,或者说都散伙了。最后再去逻辑推理一下为什么,发现一个有意思的现象,凡是算命的哪些人每天都会算一下,今天应不应该下山去抢劫,Yes就下去抢了,No就不抢了,这是一种情况。另外一种情况土匪是不算命的,每天都下去抢,抢到最后的情况是什么呢?彼此质疑,谁也不信谁的,所以他们就只能散伙了。所以我想说的事情是什么呢?算命这个事情和大数据道理是一样的,只是让决策者更快的做决策,让你觉得有用,实际上不一定是真实的依据。



还有一个例子,前两天我去新西兰,麦卢卡蜂蜜是新西兰著名特产。我从网上找了几张照片,瓶子上面有些数字是10+,16+,20+,每一瓶蜂蜜上都有这个数。这个蜂蜜号称有一个卖点,就是治胃病。在新西兰超市我看到上面写的26+,一小罐蜂蜜标价2600纽币,相当于一万多块钱。这时候销售就过来介绍,先生你看这个蜂蜜特别好,为什么?可以治胃病,因为这个蜂蜜有一种非常重要的麦卢卡植物提取出来的成分,成分含量不一样而有不同的数值,成分越高治疗胃病效果更好。如果你现在刚做完胃部手术,要买20+的,如果你曾经犯过胃病现在没什么大事了买15+就行了,如果一直都很好你买5+、10+就行了,它们之间的价格差别是什么呢?基本上每加一个5价格就加倍。


那天我为我的岳父买了很多。在这个过程中,我想告诉大家这个数字对我来讲特别重要,包括对我岳父也很重要,因为他觉得吃了这个蜂蜜胃就会好。但是你说这个测量,测得一定准吗?我想未必。但是它确实能起到这样一个非常有意思的效果,让你快速做决定,短短几分钟你就花了几千纽币买了很多蜂蜜回去,这就是数据产生的价值。如果能学会使用这样的数据产生这样的价值,你一定会赚钱的。



好了,我再说数据第二个价值。毕竟我也是搞科学出身的,所以我给大家从科学的角度解析一下,数据实实在在一个很重要的价值,它确实可以减少人类的试错成本。


人类所处周围环境是不断在发生变化的,这个变化对于每个人都是商机,如果你把握住了变化规律你就可以去赚钱。咱们产品营上一期的刘煜同学,他做了一个可以查房价的APP兔博士。他说之前他尝试做过一个事情,每一个小区房子都有两个价格,一个是报价,一个是成交价。这个报价可以从哪里看?去58同城,安居客,卖二手房挂出来的价格就是报价。但是通常成交价都不那个价格,这个房子说一千万最后卖可能是一千三百万卖的,也有可能是八百万卖的,成交价如果高于报价的话就说明这个小区要涨赶快去买,成交价如果低于那个报价就说明这个房子要跌。成交价从哪里弄,房产局那里能查到,但也未必能找到一定准确的,最后你要去看成交价和报价之间的差是怎么变化的。所以这其实就是一个国内选房子看小区比较简单的办法。如果你一旦能够预测变化的话,确实这里面赚钱的机会就有很多。


前面说了预测是不准的,历史不一定能够证明未来,数据只能证伪不能证实。为什么只能证伪不能证实?是数据太复杂了,经济环境太复杂了,有大量因素就是如果我们把这个房价最后变成一个f(x)的话,有多少维度呢?可能是一万个维度,可能是一千万个维度。大家都听说过蝴蝶效应吧,可能一个莫名其妙的小事情,一只南美洲亚马孙河边热带雨林中的蝴蝶,偶尔扇几下翅膀,你家小区房价涨了一倍,有这个可能的。有一本书叫《复杂》我强烈推荐大家去看一下,里面讲的就是这个话题。


《复杂》那本书最后一段讲了最重要的一个课题,世界是复杂的,但有一个现象是什么呢?这个世界绝大多数情况是连续的。虽然复杂,人类对长期的未来很难预测,但是短期未来是可以预测的,也就是说昨天、前天、大前天、前面一年的情况,预测明天、后天是有可能准的,但是预测一年以后可能是全错,所以这是一个重要技巧。大家炒股的话,程序化交易高频交易其实在用这个道理,就是短期可预测,长期不可预测,这是复杂性系统讲的一个现象。而且复杂性系统背后的数学原理到今天都是这个世界上没有解决的数学难题,真的是解决不了,到现在为止我的那几个同学也解决不了。但它背后所揭示的这样一个现象很有意思,很多事情变化是连续的,你非常快速去做交易是可以赚到钱的。



分析变化里面你既要分析宏观变化,也要分析微观变化,宏观变化就是我刚才讲的通过观察宏观趋势是可以预测未来的,但是你也别指望它能够预测很久的未来,只能预测短期未来,因为未来是不确定的,随时都有可能会出来一个新的参数。举个例子比如说国家政策调整对于地产行业。前面做得再好都没有用,随时都可能产生一个新的参数你怎么可能预测呢?但是特别短的时间可以做这件事情。微观价值是什么呢?这里面特别重要,我给大家好好讲一下,微观的价值是用于比较的,我们需要按照各个不同维度去细分,细分到最下面然后去看个体和个体比较,这些比较一旦比出来就会发现这里面有最佳实践,大家应该都听说过一个故事:


这个事情从逻辑推理是推不出来的,你也不知道这个道理,但是你通过比较个体是可以寻找出这里面的最佳实践的,这就是微分的价值,这就是数学分析的价值。


就像刚刚讲的选址问题,动态定价的问题,你确实掌握不了动态定价,但是你有很多方法或者周围其他人曾经定过价去参考他,看谁定得好,谁赚得钱多,谁定得最好,你通过不停的比,最后就能够掌握最佳实践,这件事情是非常非常有价值的。


1990年,杰里・斯特宁被国际慈善组织派到越南去解决越南儿童的营养不良问题。但发现没钱、没人、没资源。并被要求半年之内做出成绩。很多人建议他写份报告就回美国。告诉组织,越南需要先发展经济,然后发展教育,母亲们的素质提高了,孩子的营养问题才能解决(这就是正确的废话,生活中到处都是)。斯特宁没有这么做,他拿着尺子下了乡。经过测量,选出了家里又穷身体又健康的孩子们。然后去调研,发现这些孩子家里都吃四顿饭,妈妈会去稻田抓小鱼小虾给孩子吃,还把番薯叶的汁淋在饭上一起蒸。于是斯特宁在村里带着母亲们一起做饭,就用这几招。6个月后,当地65%的儿童营养问题得到改善,并持续下去。


这种解决问题的思路就叫做“寻找亮点”。人经常会喜欢把焦点放在负面的问题上进行分析,得出一大堆不能成功的理由。这就是正确的废话。只有找到亮点,并且认真分析,才能找到改变的正确方向。


为什么说时空分析很重要呢?时空分析也是这个价值,大家都知道孙正义的投资理论,叫时光机理论。因为全世界不同地域上的经济产业发展是不平衡、不均匀的,所以有的地方会领先。美国比我们发展得快,美国是最佳实践,你就可以参考过来。这背后有一个假设是什么?历史总是惊人的相似。如果这个假设前提是对的,你就可以这么干。


不同城市它的发展也是不一样的,比如我开一个餐厅,我是肯德基,我有一万家,哪个餐厅经营得好,哪个餐厅经营得不好,我经过微观比较,可以把经营最好的那个餐厅店长拉出来给大家讲一讲你到底是怎么经营的,这就是数学分析的一个方法。而且这种分析其实是可以创造一些新的方法的,创造力是来自于群众的。其实肯德基CEO也不知道怎么最好的经营餐厅,有一万个店长在实践,经营好的人讲一下为什么经营得好,经营不好的人给大家讲为什么经营得不好,这么一比你就知道怎么做更好了,所以数据分析通过时空比较是可以帮你寻找最佳实践的,这是一个非常重要的价值,节省你做业务决策的试错成本。你本来是要乱试的,但是经过比较你会发现有一些方向不用试了,这就是它的价值,在这里面创造的价值是数据的价值,是信息的价值,你可以把它变现了。



宏观,比如说国家每年都要做人口普查。整个IT产业之所以能发展起来,其实就是因为人口普查,当年美国做人口普查的时候花了很多钱,他是请了几百名骑警,拿着打卡器,路上看到一个人按一下,把美国所有的地方都跑一遍。大概花多少时间呢?七年,就统计了一下美国到底有多少人。


中国现在每十年做一轮人口普查,国家统计局每年都在花很多时间忙这个事情,右边这个网站是我们给国家统计局做的叫“国家数据”,涵盖中国几乎所有核心的经济数据。国家需要利用这些数据去做决策,它要去比较不同城市,不同的小区的经济情况,人口的情况,要做各种各样的比较,比较完了以后去做决策,到底这个地方是不是应该再多修一个医院,这个地方是不是应该多修个机场。


人口普查是去算不同单位上各种各样的经济数据,能够带来极大的价值,修错一个机场可能几百亿就没了,所以这个事值得做。你分析出来的变化,它所产生的影响越大你数据分析的价值就越大,它可以耗费的成本就越大。所以古人为什么要夜观天象,它影响很多事情,影响农业生产,要去分析农作物的播种收割,甚至还影响到政治。所以数据记录一定背后要有一个动机才可能产生记录这个数据的成本,因为记录真的要很多精力很多成本。



我刚才举了一个统计层面的数据,微观层面的比较就更多了。比如说精准营销,上午大家都讨论了,人群画像靠不靠谱,千人千面投不同的广告靠不靠谱。其实包括我们去抓坏人这件事情,也是一个微观的事情,要微观分析这个人是好人还是坏人,它也有很多价值,这里面也是减少试错成本。为什么?我走在大街上看到每一个人都像好人,警察不是,警察走在大街上看到每一个人都像坏人,我爸爸原来就是警察,他经常一眼能看出一个人是坏人,但是有时候他判断会出错的,数据分析可以帮助他验证一下,数据可以帮他证伪的。中国警力是远远不够的,又有很多案子要处理,只能先处理那些大案要案。所以你能通过数据帮他证明一个人是好人或者是坏人,这个时候就帮他减少出警的成本,对他的价值是很大的,他一个人可能就顶三个人了。这个和我们精准营销的道理是一样的。同样的广告费能不能给更多的目标群体。所以本质上明略和秒针的生意是一回事。



我总结一下,数据本身其实是没有价值的,大家不要指望着直接卖数据赚钱。数据价值是来自于什么呢?是你看到这个数据之后所做的后续的决策价值,如果你看到这个数据之后是做国家决策,比如修机场,这个数据就很值钱。如果看到这个数据最后决定明天早上吃肯德基还是麦当劳,这个数据不是特别值钱的。数据的价值,或者一个数据产业的价值,完全是取决于这个数据产业所应用的场景。


我也做天使投资,有一次有个师弟就跑过来说:师兄我现在有一个特别牛的创业项目希望投一点钱给我,免费停车。他想把停车场包下来,把收费系统全部改成NFC扫二维码的电子化停车收费系统。扫二维码可以免费停车或者打五折,我说你这个亏钱,他说我可以利用大数据赚钱,可以采集很多停车大数据,他说你看有车的人都是有钱人。我问这些数据拿回来能干什么?他说还没有想过,好像APP流量也不少吧可以卖广告吧。我就帮他算账一天会有多少日活,一个CPM多少钱,按照全北京最贵的广告位去卖,一个CPM多少钱,算到最后他就回去了,然后就不干这个事了。


所以我见过无数的公司拿一个商业计划书就说我这个模式很牛,免费模式最后产生大数据很牛,大数据就值钱,大家千万不要信,数据不一定值钱。数据要放在真实的商业环境里面,商业环境要有真实的价值,我刚才讲了很多的环境,哪怕你去帮人卖蜂蜜都是有真实的价值,如果你想当然的认为有数据就一定能赚钱这绝对不是的,绝对是一个假说、是一个猜想。



上一次有个老师给我们讲过产品经理的一个重要的公式,大家应该都知道,产品价值 = 新体验 - 旧体验 - 替代成本,这个公式是写得非常深刻。具体聚焦在数据产品上面,它的价值公式应该是什么?这里面总结了一下,决策者在使用你的数据产品之后,应该会提前了解到变化,数据产生的价值就是让你提前了解变化以后,它可能针对自己的业务节省成本或者产生新增的价值,这个其实是数据产品的新体验减去旧体验得出的结论,当然还要减去替代成本。这个替代成本不要小瞧,替代成本可能有时候不是正数可能是负数。数据这个行业有的时候数据成本是在降低的,一个新的方法有可能成本比原来还低,替代成本是一个负数,你一减负数还变正了。我们不断去优化数据产品价值的方法论,要么把前面的数变大,要么把后面的数变小,最好是负数,所以这就是数据产品的产品公式。



数据产品的目标就是要加速实现和放大决策者在信息不对称中的收益。加速也很重要,这个信息你了解得越快越好。像秒针所在的行业收视率领域。最早的收视率是用日记卡做的。就是家里面给你一张卡片,每天晚上看完了电视,像写日记一样在卡片上记录都看了哪个台。这个卡一个月来收一次,收回之后再统计十天,最后就知道了上个月收视率是怎么样的。


大家知道98年中国最火的电视剧是什么吗?《还珠格格》。这个电视剧的收视率是什么水平呢?40%,一百个家庭有40个家庭在看。但是那个时代收视率统计是延期一个月,那个电视台卖广告也没赚多少钱,他根本就不知道原来这么受欢迎。买了这个电视节目的广告主就赚到了,没买到的广告主,本来可以提前知道很有价值的,就亏了,也是一个重要的商机就亏了。谁提前感知到这个变化,就是有价值的。后来这个统计方法被收视测量仪替换掉了,就是给你家歌华有线之外再装一个机顶盒,用那个机顶盒看电视,每一次换台都会通过电话线传到它的数据中心,可以实时知道收视率的变化了。同样,这个数据因为样本量太小而太容易被污染了。



所以加速了解数据变化是有价值的。秒针在广告领域解决了这个问题。互联网做监测,而且精准广告更是这样,每个个体都是在做调整的,每个人都可以看不同的广告,所以它能产生很大的价值。


划重点 ✍

1. 数学在商业里的价值是什么?数据的本质是什么?

▨ 数学最基本的价值: 是人类从定性到定量、模糊到精准过程的思维和计算工具。数学分析是对“变化”的研究

▨ 数据的本质是利用数学观察、记录、理解世界


2. 数据生意的本质是什么?

▨ 用数据做生意本身是悖论:数据是解决信息不对称;商业的本质是利用信息不对称赚钱

▨ 解决方案:基于流变的信息不对称赚钱

信息不对称分为两种

□ 一次性的信息不对称:用完一次,就不能再用这个信息不对称赚钱了

适用场景:闷声发大财(一次用到最好)如:利用独家信息炒股

□ 持续且流变的信息不对称。如:零售选址


3. 数据产品的价值是什么?

节省时间,提高人类效率:

▨ 数据没法被证实,但能创造信任、降低决策成本

□ 这个世界没有真理。数据不能证实,只能证伪。数学推理+公理,再加上严密的逻辑推理,证明的不过是命题和猜想;但一切都建立在公理上,公理一旦有一天不成立,就全错了

□ 在控制论的感知-响应闭环(感知-理解-决策-行动)中,当机器将感知的数据呈现出来,人类便可快速决策响应

▨ 数据对万物“变化”的分析可减少试错成本

□ 宏观 - 统计趋势,预测未来

□ 微观 - 较个体不同,寻找最佳实践


4. 数据产品价值公式及目标

▨ 数据产品价值认知:数据本身没有价值,价值源自数据产品引发的后续行为的价值

▨ 数据产品价值公式:数据产品价值 = 决策者提前了解变化所节省的成本和新增的价值 - 替代成本

▨ 数据产品目标:加速实现和放大决策者在信息不对称中的收益


2

数据生意三要素:数据行业产品化商业化的核心

数据源、人、数据应用的场景



刚才讲的控制论角度里面,有一个很重要的模型叫感知-响应模型,从感知一直到最后的响应和行动,感知、理解、决策和行动,这中间有三个非常重要的要素。


第一,感知出来的结果是什么?就是数据,传感器收过来的是数据。

 

第二,理解和决策里面有一个很重要的主体是什么?是人,是Decision Maker或者是一个分析师在理解和做决策。

 

最后,还要行动,决策和行动其实要一个特定的场景,不是我一个人拿着数据什么都能干的,要有一个特定的场景来去行动。

 

我称这三个要素是数据商业化三要素,数据源、人、还有数据应用的场景。



这三件事情哪一件做不好,数据都商业化不了,你要有好的数据、对的人,对的场景。很多情况下像我们刚才那个同学说这个数据怎么回事,后来一听他连最基本广告的原理都不知道,给他数据他也分析不对。中国很多中小企业之所以用不了数据软件,因为他的公司内部就没有懂这个事情的人。


很多互联网公司以前绝对不可能买秒针的产品,但是你看今天它们都买了,因为它们都成了大企业,滴滴、美团、头条全都买了秒针的服务,它们的规模越来越大,请的人越来越专业,一旦专业了以后就会用专业的工具做分析,以前它规模小的时候根本没有人能做分析,所以人很重要。最后要有明确使用这个数据的场景,你别自己瞎编一个,那是不可能的。



所以数据生意的机会一定是在这三个要素中间,某一个要素或者某两个要素发生巨大变化的时候,才会有新的创新机会。为什么?所有的生意都是连续的,别人原来在这个行业里面做得好好的,凭什么你今天突然杀出来。原来像尼尔森、索福瑞做收视率做得好好的,为什么今天突然杀出来一个秒针给它们颠覆掉了?一定是这个产业里面一个要素、两个要素甚至三个要素都发生了重大变化,这个时候你才会有创新创业的机会,才会有我们做出很牛公司的机会。这个机会有多大呢?还是我刚才说的,背后的变化决策的场景规模有多大来决定的。



比如头条也是一个数据公司,解决的是什么呢?是消费者阅读新闻看内容,跟搜索引擎是一样的。其实,我在创业的第一篇商业计划书写的就是希望给这个市场上不同的人推荐不同的信息,我的研究生论文写的就是这个方向,结果当时的市场不Ready,就做成了秒针,上次在开学典礼上也讲了这个故事。初衷一样,但企业的价值就不一样了,原因是什么?各自服务的场景背后的价值是不一样的。全人类获取内容的价值肯定远远大于广告的价值,广告只是其中的商业内容,而头条解决的是所有内容,所以它的价值当然要比我大。明略则服务一个更大的市场,政府。


一个数据公司价值是由什么决定?由你所服务的那个行业价值决定的。所以数据行业有些公司比我们赚得多,比如说做股票软件的就比我们赚得多。大家都知道彭博社,万德数据,大家炒股的时候可能也会去看这种软件,它们是更赚钱的。所以你所服务的产业有多大,在这里面乘以一个百分比应该就能够得出你公司的价值了,这就是数据商业化。大家千万不要手里面很多数据最后选择错误的方向,一定要选择正确的行业,所以选择场景是数据商业化最核心的。



而且每一个场景里面都要有一个核心决策的问题,这个问题要决策需要一些数据,你只要选对了,这个决策又很有价值,你就可以去商业化了。

 

举个例子阿里巴巴是不是数据公司呢?它当然是数据公司,为什么那么值钱?它是一个大家想买商品的场景,每个人都想买东西,尤其是女生每天都有特别强烈购买欲望,女性消费者想买东西的时候,她的关键决策,她希望什么呢?希望物美价廉,好且便宜。所以她需要的数据就是证明产品和产品之间在物美价廉、差异化变化的数据。所以你可以看到价格,看到照片,这些信息陈列给你,其实是帮助你做决策,到底该不该买这个商品,这就是数据价值。而且这个数据一定是流动的变化的,价格是天天变,商品也在天天变,所以它有巨大的商业价值,中国整个零售交易额有多大,线上交易额有多大,就可以推出来阿里巴巴到底有多少钱了,非常大的市场。

 

今日头条都不用说了我已经举过例子了,很大的价值,秒针就比较苦一点了,比它们小很多。但是秒针的场景也很重要,在座的同学们大家要打广告,你看到我的数据就敢付钱了。在付钱的时候,是基于我的数据判断是不是该扣媒体的钱,还是下次多投一点,就是看到之后有一个非常明确下一步的任务。所以我们的收费标准很简单,就是客户投入多少钱在里面收一个百分比,待会儿可以告诉大家这个百分比肯定会越来越小的。

 

SAP企业内部的ERP系统,这个数据起到了什么样的作用?管理作用。像IBM Watson在美国辅助医生做诊断等,每一个数据产品都有它的价值。比如说墨迹天气,有非常明确的价值,你每天出门之前的穿戴选择,是非常明确的场景,我就是要知道出去带不带伞,出去带不带口罩,就是判断这两个信息,你看的就这三个数,PM2.5、还有降雨概率、温度,其它的数其实对你来讲不重要,不是关键决策,且这个数据一定是流动变化的,不是稳定的,如果每天都一样你就再也不用这个APP了。

 

前面我说了数据价值是怎么产生的,经济学里面讲价值和价格是两回事,价值和价格之间的差距由什么来决定?由供需来决定。如果供不应求的时候你的价格可以很高,如果供过于求你的价格就不会很高。因为你有价值,很多东西价格战打到最后就没有钱了。比如说百度很有价值,但是我们在座的人用百度搜索都免费,因为它不敢收钱,为什么?它的边际成本是零,你多一个用户和少一个用户对它来讲几乎成本不变,所以它真的不敢收钱,因为有竞争。大家想想,数据类的产品一旦有竞争就没有收钱的理由,因为它的边际成本零,就意味着你可以无限降价,这就是为什么互联网模式一定要免费,因为绝大多数产品就是数据类的产品,一旦面临竞争就只能降价,降到最后就是零了。如果没办法把所有人都吸引到产品上后面再去赚钱,就只能一直打价格战,所以《从0到1》里面讲的这个太经典了,只有垄断才能产生利润,在任何一个细分市场里面必须垄断,不垄断不要想有机会产生利润。硬件为什么有机会产生利润?是因为它的边际效应不是零,它的硬件本身是有物料成本的,这个成本有很多情况下不透明,这个时候你就有机会在里面去赚钱了。所以我偶尔会羡慕那些做硬件的同学们,不至于特别惨的价格战,做软件太惨了,基本上都要打成零,你只能靠其他方法去赚钱,所以只有垄断才能产生利润。



垄断刚才讲了商业化三要素,你垄断什么?是垄断数据源呢?还是垄断使用数据的人呢?还是去垄断场景呢?没有垄断是产生不了利润的,到底垄断什么?我想告诉大家我自己的观点,我做了这么多年数据产品,我认为垄断场景更重要而且也更容易。垄断数据几乎不可能,垄断人更不可能。客户自己还有人呢,客户除非一点人都没有,才有机会把市场上能分析使用这个数据的分析师垄断下来,那太难了,人怎么可能垄断呢?!数据源为什么垄断不了?因为数据源随随便便就可以Copy走了。数据的安全保护太难了,而且数据源一旦是一个静态数据,卖一次所有人都知道了,数据也很难垄断。而且数据还有一个很重要的特点,它可以互相推理,我虽然没有你这个数据,但我有一个你的前置指标,我的数据可以推出你的数据。


举个例子,假设大家是做旅游的,旅游数据最好知道这个人怎么买火车票买机票,有了以后就可以做旅游出行类APP,但是你没有这个数据没关系,如果有运营商基站的数据也可以,你看到这个人去火车站了、去机场了,两个小时之后跑到了另外一个城市的火车站就可以推理出来他坐火车去的。这个世界上数据太多了,数据和数据之间是可以互相推理演绎出来的,所以你没办法垄断数据,数据一拷贝就是两份边际成本是零,你没办法垄断数据。


但场景可以垄断,因为所有的场景是有固定的预算。比如说一家企业一年赚一个亿可能拿一百万出来买数据,这个预算是不能复制的,如果给服务商A就不能给服务商B,不可能每家都买。如果每一家都买的情况是什么呢,就是试试哪家靠谱,之后发现一个靠谱就只会给一家了,所以场景是可以垄断的,因为预算可以垄断。

 

因为用数据的人手里面可以用来买数据的钱是有限的,这个钱不能复制,给了A就不能给B了,所以这件事情可以垄断。这个道理其实就证明了为什么今天互联网公司会出现巨无霸的情况,分别在不同细分市场垄断了才能产生利润,否则一个数据产品一个信息产品不垄断没有机会盈利的。这个细分市场垄断可以以不同的行业,不同目标群体,甚至是不同区域。



垄断数据产品的场景工具是什么呢?就是品牌。有品牌才有机会。比如今天大家去投广告结算的时候,就会找秒针的数据来看,我们已经成为这个市场中垄断的企业了,因为这个品牌信任都到你这里来了。所以品牌建立了之后,数据产品是有机会在一个场景上垄断,大家看天气预报你不会到处不停的去查,你会看看墨迹天气、天气通,就这么一两个已经形成的品牌。学品牌的人大家都知道,消费者大脑里面每一个品类只会记住一两个名字,这一两个名字就垄断了数据场景,就有机会赚钱了。所以品牌是很重要的。

 

那这个品牌是怎么诞生的呢?你会发现有新的品牌源源不断诞生,是因为这个行业出现了重大变革,这个变革其实就是我前面讲的一次性不对称,不是那种流动性不对称。举个例子,当年秒针的发展。我们发现市场上核心需求已经不是电视广告了,很多客户希望把电视广告投放的预算挪到互联网,我们就自己做了一个产品帮助客户做预算分配。我们给客户提供了一个数据工具,告诉客户怎么把电视的钱投到互联网,在互联网上怎么分配,这就是我们这个产品的核心价值。因为当时产业里面出现了重大变革,互联网崛起,出现了互联网广告,而这件事情,尼尔森等公司没有跟进。我们抓住了这个机会,建立了在电视和互联网之间分预算的一个产品,进而所有人想做这个事就找秒针,就形成了平台。基于这样一个一次性不对称的机遇,最后变成了在这个市场上的一个品牌,且我们每天处理的数据都是流动性的不对称,所以才能持续性赚钱活到今天,也很不容易的。

 

前面讲了场景的价值,大家可以理解这个场景越大越好,越大就越有机会赚钱,但是不是大你就一定能赚钱呢?不垄断是没有机会赚钱的,必须垄断一个场景。所以大家都知道为什么资本运作很重要,垄断很重要。所以线下业务为什么比线上业务对于创业者来说相对好做,因为地皮是可以垄断的,垄断了你就可以围绕这个地做只属于你的生意。线上不是,线上所有的流量没法垄断,很容易出现马太效应。所以场景一定要选得越大越好,一定要制造垄断,不制造垄断你就没有机会赢,这是数据类产品,信息类产品的一个特点。



另外一个机遇是什么呢?一个是场景重大历史变革,另外一个是数据成本的突然变化,也可以创造数据生意的机会,数据源其实是经常容易发生变化的,很多新的数据源会诞生。



再说秒针所在的市场调查行业,我们也叫消费者洞察行业。全世界最大的公司叫尼尔森,我印象里一年应该是不到一百亿美元的营收,看它的财报,每一百块钱收入,大概会分三个部分。第一个部分叫获取数据的成本,这个以前是干嘛的呢?就是去发问卷。比如说刚才讲的收视测量也是发问卷,日记卡也是发问卷,帮助一个客户调查消费者喜不喜欢他的产品,也是要发问卷的,各种各样的行业都需要发问卷。


收入一百块钱里有四十块钱用来获取数据。第二个数据分析成本,五十块,数据分析成本其实是人的钱。他要花五十块聘一个分析师人把这个报告解读一下,给你讲清楚,讲完了以后如果你觉得很满意就付他一百块钱。最后十块是它的利润。所以这个行业利润率不是特别高10%。这个过程中大家肯定希望十块钱的利润部分越大越好,都希望把四十和五十尽可能降低。这是有机会降低的,秒针就在做这个事情。


为测量电视收视率部署机顶盒成本是非常非常高的,机顶盒还经常坏,为避免样本户被污染还要不停的变,所以花的成本是很大的,索福瑞一年收入10个亿,里面可能要花3、4个亿去换这些机顶盒,这个成本是很高的。大家回过头来看秒针,做互联网就没有这个负担,我们就是把一个代码,可能是一个SDK也有可能是一个Tracking Code,放到大家开发的这些APP或者网页上面就可以追踪,没有硬件成本,我们唯一硬件成本是后台的机房。

 

我算两百台服务器,我们公司其实就是一个云计算公司,在做这个业务之前云计算这个词还没有出来。我是在2006年底创办的秒针,当时我在实验室里面学的方向叫分布式计算,连云计算这个词还没有呢,但做的就是云计算的事。用几百台机器同时帮客户去算广告的效果,没有那么大的数据获取成本,而且这个成本在持续降低,因为服务器越来越便宜,带宽越来越便宜。而尼尔森发问卷是人发出去的,人越来越贵,我的利润越来越多,它的利润越来越少,最后我一定会颠覆它的。数据分析成本全部都是人,而今天秒针已经花很多资源来去研发,怎么用人工智能去分析数据,这一块也可以优化,所以都是机会。



数据挖掘的过程有收集、存储、检索、分析、推荐、最后形成整个人工智能,形成智能。中间每一个环节都会产生成本,每一个环节也都可以通过新的方法去优化它的成本结构,不停的降低数据分析的成本。如果你有新的成本结构就可以去颠覆这个数据行业,这就是数据的生意,它的生意就来自于这些,而且这个模型就是控制论里面的感知-响应模型。

 

传感器在市场上是会不断发生变化的,整个硬件行业每天都在推出新的产品。一般有新的传感器就意味着有新的数据了,所以我对传感器是很敏感的,一直都在观察市场上有什么新的传感器,有新的数据就可以尝试去颠覆某几个用原来那些数据的行业数据产品,所以这就是机会。



比如说我现在做的几个行业。

 

 安防行业:摄像头取代人眼


安防是明略所在的行业,这个行业最大的新的传感器,就是原来也有但用得不好的摄像头。现在满街满城都是摄像头,摄像头取代原来的传感器是人的眼睛。以前满街都是警察站岗,现在不用了,摄像头比人的眼睛成本低多了。一个摄像头才多少钱,家里面的摄像头现在才两三百块钱一个,安防产业里面用要经得起风吹日晒的也就两三千一个,比人便宜多了,所以它是一个重大的变革,所以安防产业诞生了一大批新的公司利用这个新数据来去解决问题。


▨ 广告行业:监测代码和SDK取代收视测量仪


广告是秒针所在的行业,就是因为出现了互联网出现了监测代码SDK等等,取代了原来的收视测量仪、日记卡,我们拿这个数据又便宜又快,而且不是抽样的是全流量的,直接把原来的数据源给颠覆掉了,颠覆了就有机会。

 

 移动互联网:摄像头、GPS的出现和不断优化


大家会看到很多公司原来在做互联网的时候,默默无名或者就是一个普通的公司,但是到了移动互联网的时候突然间就牛了。比如美团大众点评,没有移动互联网的时候它就是一个普通的公司,今天突然就牛了,为什么?移动互联网相比于传统的PC互联网不光是可移动,传统的PC互联网我也可以拿笔记本到处移动,因为移动手机上有好几个新的传感器叫摄像头、GPS、还有麦克风,这些传感器以前在PC时代都是不常用的,或者是做得很烂的,而这些传感器使得整个信息发布、数据采集,各方面全都发生了重大变化,产生了新的数据类产品、信息类产品的机会。

 

所以大家每天要关注下一代手机上面还会加什么东西,一旦加了一个新的东西,都会有机会,有时候不是这个硬件加了,有可能它只是性能提升了,可能都会有机会。今天手机计算能力越来越牛才出现了像王者荣耀这些游戏,是因为它可以掌控更多的计算。为什么今天可以去做人脸识别,美图优化,原因很简单,也是因为镜头越来越好,CPU越来越强了,所以这些变化都会产生新的数据生意的机会。

 

我们每天都在关注这些事情,所以物联网是需要特别关注的,因为物联网有可能产生很多很多新的数据,会改造很多行业,未来会有大量数据生意的机会。大家可以关注自己的行业,怎么利用最新的传感器去改造,当然前提是你有能力去改造,你如果只是很小的公司,没有能力去影响这个行业的话,也做不到这件事情。



数据是加速迭代的,加速感知-响应模型迭代的,我们其实是更快的产生数据,更快的产生精准数据,数据越来越多,越来越好,迭代的速度越快,这个数据的价值就越大。我刚才讲了一个月缩短到一天,缩短到实时,它都会产生很大的价值。就像广告行业,广告行业里面刚才大家讲RTB实时竞价,一百毫秒之内就可以把一次复杂的广告交易竞价竞完了。相比以前,以前中央电视台广告竞价是每年一月份,竞拍拍出去一百多亿、两百亿,一年一次。今天肯定是比中央电视台拍卖要大的,因为它是实时的,在这里面做数据就可以产生很多生意。

 

但是这个迭代的过程始终都是有人的过程,一旦有一天感知-响应的过程里面没有人了,这个时候就是最快的迭代了,这个迭代速度会产生巨大价值,迭代的终极就是人工智能。


人工智能时代就是在控制论这个系统里面感知-响应到最后,整个环节里面把人都给颠覆掉了,全自动。而且这个全自动不是简单的自动化,以前自动化也可以全自动,以前清华就有一个专业叫自动化控制,是考分最高的学生才能去的,以前自动化控制是人工编一个规则告诉它怎么控制。


未来的人工智能是什么呢?是自适应的,边控制边调整自己的算法、规则,不停的调整越来越牛,最后形成一个人完全没有办法颠覆的方案。今日头条就在不停的调整新的推荐算法,是机器人去调不是人在调,你的数据没有它多,你的算法也没有它多,用户场景都不在你这里,后面的公司再也没有机会超过它了,所以这就是今日头条为什么今天这么牛。


划重点 ✍

1. 数据商业化三要素:数据源、人、数据应用场景。

2. 要根据数据商业化三要素的变化做产品创新(场景最关键),才有可能做成独角兽。


▨ 数据变化

□ “传感器”和数据源的变化

安防行业:摄像头取代人眼

广告行业:监测代码和SDK取代收视测量仪

移动互联网:摄像头、GPS的出现和不断优化

□ 数据存储计算连接的成本降低


▨ 人的变化

越来越多的企业客户懂得用“数据”辅助决策,且需求也在变化。


▨ 场景变化

□ 场景要大。应用场景对应的市场规模越大,越有可能诞生垄断场景的大公司/独角兽

□ 定义核心决策问题。每一个场景里面都要有一个核心决策的问题,这个问题要决策需要一些数据,你只要选对了,这个决策又很有价值,你就可以去商业化了

□ 场景才是数据产品的核心,要垄断场景(工具:品牌;品牌诞生于行业重大变革--一次性不对称)


重要:感知响应速度的变化。任何数据企业都希望建立自己的感知-响应闭环。感知响应速度加快,数据加速迭代,数据价值越高,最终形成“没有人能超越”的人工智能,谁最先建成闭环,谁就能抢先垄断场景。


3

秒针和明略的价值增长

企业级独角兽的成长秘籍


前面给大家讲的是我利用数据做生意的一些心得体会,最后稍微解读一下我自己两个公司的数据生意。


我刚才给大家讲的都是我事后的总结,我第一天做的事情根本没有想那么多,挖掘是误打误撞做出来的,运气。今天总结一下,一家公司它之所以能活,能赚钱是有一定道理的。

先说说秒针,秒针今天在中国能够很好的服务这么多世界五百强的企业。咱们说场景很重要,我在秒针发展这十几年里面,也一直在尝试做小B业务,最后总是失败。我访谈了很多企业家也都做不成小B生意,我想就是场景的问题,你的场景本身太小了。


有一次我看到了一个报告才恍然大悟,这个报告当时统计了全球IT花费预算,全世界TOP2000企业,花掉了全世界IT预算大家想想是多少?90%。如果这2000变到20000大家猜一下?对,99%。那个数字可能今天已经变了,但趋势是说明问题的。你做小B有机会吗?他们根本不花钱买服务,那些小B每天都是在生死线上挣扎。所以你看美团也好,阿里巴巴也好,之所以在小B身上能赚钱,不是因为它在给他们提供一个服务,而是它们决定这些小B有没有客流,它们其实是一个房地产商,你做这个生意不管死活总要交费的,同样的道理,不管死活做生意总要买地租房子的。百度买关键词也是这个道理,在阿里巴巴上面开店也是这个道理,所以它们几家做小B能赚钱是因为它们决定了这些人的生死,或者说这些人生生死死,死的人占90%,活的人可能都不到10%,所以它做小B能赚钱。但是绝大多数软件服务公司,像秒针和明略这样的公司,不是决定它们生死的,是它自己已经活下来了,有一些事不愿意干,让你来帮他干。我们企业服务最大的竞争对手就是客户自己,是客户经常想着自己干。所以只有特别大的公司,最后发现自己雇佣人干太贵了,不如外包给专业的企业级服务供应商性价比更高。美国市场对于企业级服务供应商能稍微好一些,美国是因为大家招人都招不到,有钱都招不到。


因为地缘关系,外国大公司的生意很难拿。为什么尼尔森能赚大钱,是因为刚才讲的TOP2000的公司总部都在美国,它天天陪着这些客户。尼尔森的总部和宝洁的总部都在辛辛那提,是挨着的两栋楼,两个公司的高管天天都坐在一块,你跟它抢生意怎么可能抢得过它。我们只能靠近宝洁中国总部,但是中国的生意也不是那么好拿的,做营销可以,但做IT系统,你看宝洁最后哪个中国的公司给它做IT系统了,几乎不可能,都是总部统一采购,然后每个区域市场去应用就行了。


比如说数据库,全球统一采购Oracle,每个地方都一样,因为它是管理智能的产品,HR系统、财务系统肯定是全球采购,但是营销系统我们可以做,为什么呢?因为营销是每个市场自主决定的,因为每个市场面对的消费者不一样,文化不一样,广告模式不一样。那些老外坐在辛辛那提总部都不知道中国该怎么弄,只能中国CMO自己做决定。所以区域的广告费是每一个区域的CMO自己决定的,广告费最后花给了中国本地媒体,所以分析广告费的系统也是这个CMO决定的,也就有机会给一个本地供应商了。


所以秒针是市场上,我不能叫绝无仅有,但是是非常罕见的一个中国公司居然服务了那么多世界五百强企业,还不少赚钱的供应商,技术供应商,软件产品供应商。是因为我们做的是一个本地可以自主决定的业务,因为有这样一个场景,我们才有机会这样做,否则你想都不用想,肯定是美国公司在做。所以中国有很多的比如说ERP公司、CRM公司,CRM公司我们公司也用,我的两个公司都用的销售易,其实如果让我回答为什么用它呢?是因为它便宜,比Salesforce便宜,这是唯一的原因,它距离Salesforce还有很大差距。10个秒针这样的客户,都顶不上一个去买Salesforce的客户花的那个钱,而且我今天已经是成规模的,一年也不少赚钱的公司才花得起这个软件的。所以不是那么简单就能去做企业服务,你要思考你做的这个品类,所在的场景有没有机会垄断,你的核心优势是什么。



我去做营销,营销核心决策是什么?就是我刚才讲的整个从感知、理解、决策到最后行动这个过程中,核心决策是什么?其实这个核心决策有很多模型,又要建模了,这个是5W模型,其实还有什么5P模型,5C模型,最新有一本书叫《营销4.0》写的是5A模型,基本上所有的数据分析都要基于这些模型挖掘出来。数据创造信任,你要先知道决策者他脑子里面的方法论是什么,如果他信5W就给他产生5W的报告,他信5P你就给他5P的报告,他信5C就给他5C的报告,你出的这个报告只要契合方法论,你这个数据他就有用,就可以帮他提高效率,就帮他更快一些,你就可以去赚钱。


秒针诞生的时候,市场主流的模型是5W,我们当时就帮他去解决谁,讲什么,通过什么渠道,对谁说的,效果如何等等。我想说其实我们公司也挺伟大的,因为你们花了广告费,所以你们产品才有机会卖出去,如果你们不花那肯定卖不出去,是吧?



这个是秒针的价值增长曲线。我刚才讲数据产品的价值是跟它所面对的场景的规模、场景的价值不断变化的。秒针历史上的市值在不断上涨,就是因为所在场景的价值越来越大。从第一天我们做的是一个产品叫AdMonitor,帮客户去监测互联网广告,这是在2007、2008年开始做的这个产品。后来我在2009年的时候参加一个会,碰到一个老外,这个老外我到现在都找不到他,但是我特别感激他,他是我人生里面重要的贵人。他给我画了这么一个框,说你们做的这个事情特别牛。其实秒针不是第一家做这件事情,市场上已经有一家公司叫Double Click。这家公司后来被谷歌30亿美金给收购了。那这家公司其实是全世界最早的做广告分析,互联网广告分析的,而且以监测Click为主。那我们当时跟它做的事其实是一样的,但误打误撞多做了一件事情,因为Double Click出来得太早了,是1998年的公司,我们是2006年底成立,2008年才做这块业务,已经是它十年之后了。十年之后发生了一个什么重要的事情?就是摩尔定律,硬件成本在不断下降。在十年之前,它只敢在服务器上存Click的数据。大家都知道一个广告,它在互联网上第一步先是展示,第二步才有可能点击的,展示是点击的多少倍呢?今天展示是点击差不多一千倍,平均一千次展示才会有一次点击,那个时代相对点击率是高的,一百倍,因为那个时候大家都没啥可以点的。但是即使一百倍十年前也太贵了,服务器太贵了,应用太贵了,没有人敢存这么多数的,因为数据真的很大,我们的这个数据硬盘不停的都在加,很贵的,一天是大几个T的原始日志的。从第一天上线数据量就很大。Double Click所以那个时代它就只存Click,而秒针我们就属于胆子大的,从第一天都不知道那个数能干嘛呢,就先把它保存了,曝光的日志都存下了,也就是说一千倍的那个数都存下了。因为当时确实有机会存了,确实越来越便宜了,硬盘便宜了。


一旦我们存下来之后呢我就可以去追踪每一个ID的历史行为了,大家想一想,每一个人都在历史上发生什么样的变化,这个时候其实我们就可以去推测他的兴趣喜好了。当时我们都没有做特复杂的,我们就把这个人群分成了几类,比如说我们当时就用IP地址库分了一下,这个人是高校的,这个人是网吧上网人群。我们怎么判断网吧上网人群呢,就看这个IP地址是一天24小时都在不停上网的。办公室的IP地址很容易判断,白天上网的就是办公室上网的IP地址,只有晚上上网的是家庭的,24小时都上就是网吧。我们就把人分成了这几种,非常简单粗暴。我们当时比Double Click就多了一个功能,就是告诉广告主,一波广告打下去,这几类人分别是多少,就这样去抢我们的这些客户。


那我后来去给这个老外讲的时候呢,其实我本来都没想那么多,但是那个老外说,你这个东西太好了,电视广告就是这么评估的。电视广告是没有Click的,电视只有曝光,只有曝光肯定不行的,收视率一个最重要的概念叫GPRP每收视点成本,就是我们要去分析,比如说这个产品是卖给老年人的,我要分析老年人的收视率是多少,不是分析所有人的。但是在Double Click那个时代没有人能分析出来,因为它都不知道这个人是什么样的人,没有存下来这个人以前的行为,只能去统计一个总量。所以这是秒针诞生的第一天,因为硬件成本的不同,使得我们有机会存下历史数据,有机会做出一点点差异。但是这一点点差异启发那个老外,那个老外说,OK,电视就是这么做的,他说我建议你干这么一件事情,你把电视和互联网联起来,用GPRP,不要再去什么检测Click了,电视怎么统计出数据的你在互联网上就怎么统计,他说这样一个最大的好处,你可以帮助所有的广告主把电视预算往互联网行业移,因为用统一衡量标准了。


这件事情是我们公司最核心最核心的信息不对称,他告诉我了,然后我们做了这么一家公司就成了,因为从那之后,中国的所有的互联网公司每天广告费能收多少全部看我们的数据,然后所有的广告组合全都用这个工具分配,不断的把电视广告往互联网上移。这个产品到现在都是全世界领先的,所以我们可以去全球化,原因很简单,就是因为我们产品是全球领先的,就是那个老外提醒我的。


所以当时他就给我画了这么一个图,他说你看,互联网在左下角的一个框里面,在那些人里面去分预算,是吧?那是个小钱,你要去把电视,更大的预算往那个小框里面去挪,这是大钱,他就给我讲了这个道理,所以我们最后这个产品就成了。后来又出现了移动广告,又出现了数字电视广告,我沿着这个道理,不断的把这个框做得越来越大,市值就在不断生长。


长到一定程度以后发现到天花板了,我是在几年前就发现我们到天花板了,后来我又做了一个业务的拓展,开始去抢尼尔森市场的生意,它们不仅仅是在做广告的分析,同时还在帮客户做营销的其他领域的分析。广告行业背后的学科叫Media,就是媒体的投放,媒体的购买。Media在一个企业里面一般会有一个市场副总裁或者CMO负责。CMO手里面管的预算不仅仅是怎么花钱打广告,还有怎么花钱做PR,还有很多其它的事。CMO下面通常有很多路径,甚至有一些公司的客户关系管理CRM都是CMO在管。CMO还有一个很重要的工作叫消费者洞察,了解消费者到底怎么想的,不仅仅是怎么打广告的问题,这是全球最大的市场Agency在做,它的预算比单纯打广告的费用要多。所以后来我们又把这个数据分析的场景继续延伸,扩到了更大的方面,又拿下了更大的场景。


这就是秒针的市值增长的过程,这个过程就是我们在服务的场景不断发生变化的一个过程。那这里面的数据到底产生了什么变化呢?我前面讲的,因为以前是电视收视率的抽样的机顶盒,而今天有了加码的技术,后来还出现了爬虫的技术,通过互联网的爬虫,就像百度一样,把微博、微信公众号、各种汽车论坛、各种各样的垂直论坛里面所有的讨论全部抓回来,可以告诉客户消费者到底怎么讨论你、怎么想、怎么讨论你的竞品。而这些数据以前只能通过发问卷去问,今天可以通过爬虫的方法拿回来,这个比原来的成本低太多了,这又是一个数据的机遇,又是一个数据的变革。因为有了这些变革,所以我们才能帮助广告主更快、更直接地做出这些决策,而且这些决定决策是对的。也有可能是错的,但是无论如何,让他产生了更强烈的信任,然后Take Action,这就是秒针的价值。



我们其实是在四年前成立明略的。在那个时间点上,我是不断的思考秒针这个生意怎么变得更大,后来我有一天想,我们一直是做大B的,最大的B是谁?不就是政府么。我当时就看到一个什么样的历史机遇呢?就是在政府的这个场景里面的一个重大的历史机遇是什么呢?在那个时间点上正好爆发了斯诺登事件,这就是我们的机会,就是因为这个事情我创办了明略。


在斯诺登事件之前,我刚刚跟大家讲了,政府也要有IT预算,IT采购,它的IT采购从哪买?政府领导一定是买最好的、最成熟的,也就是最贵的。谁是最好的、最成熟的?肯定是Oracle、IBM、SAP它们的产品,所以没有中国公司的机会。但是斯诺登事件出现了之后,中国政府开始讲数据安全问题了,要支持自主知识产权的软件产品。这是一个重大的历史机遇,所以我们就创办了明略,面向政府做业务。


那为什么后来做公安做成了?因为在政府里面公安是对安全要求更高的,这个行业都不光是说中国政府买不买美国的产品的问题,是美国人做出来产品人家都不卖给你。大家都知道,IBM是全球做这种政府软件做得最多的,做得最好的,它曾经在公安市场里面收购过一个英国软件产品公司,叫I2,那个产品做得非常好,但是不卖给中国。后来中国通过台湾的代理,都买到了,但很多都是破解的,反正各种问题。所以这个系统一直都没有特别牛的公司做出来,我们进到公安系统,你会发现整个公安市场上全都是各种小公司,收入几百万的,一两千万的,上亿的公司都已经很大了,明略在这个行业里面都算是龙头型的企业了。


这个场景体量很大,整个公安的软件系统绝大多数都是数据系统,而这些系统在整个公安系统一年的IT预算是几百亿,上千亿的规模,如果算上硬件是几千亿的规模,大家都知道每天都在部署摄像头。今天出现了中国公司的机会,我们有机会在这里面成为老大,所以我就毫不犹豫地赶快去做就行了。其实在做这个之前我们业务一点都不懂,就是到处学,学美国公司怎么做,学IBM怎么做。硅谷有一家非常有名的公司叫Palantir,这个公司也是让我做决策为什么最后做这个方向的原因,这家公司是当时我在整个资本市场看到的所有的软件技术公司里面市值最高的公司,一度到了300多亿美金。一个没上市的公司,300多亿美金。后来也证明一件事情,融资也简单,所有的VC过来看了之后,他说你们这个业务很像Palantir,我说我们就是对标它的。然后回去IC汇报的时候,说明略就是中国的Palantir。


那明略所面对的这个数据的机会的是什么呢?我刚刚讲了,就是摄像头等,各种各样新的数据源的诞生。其实里面还有一个机会是什么呢?就是这些数据之前是四分五裂、没有联系的。互联网本来就是四分五裂的,后来因为有百度、有谷歌,把这些信息都联起来了,有超级链接把大家都联起来了,那今天移动互联网仍然也存在这个问题,不知道将来谁能彻底解决这个问题。这些都是机会,谁能够把这些数据联起来,降低人使用这些数据成本。降低数据成本方法有很多,一个数据本身产生储存有成本,数据的使用,挖掘的过程也有成本。


一个警察,他以前要破一个案子,要在100个系统之间来回切换,他先查查这个人以前有没有犯罪记录,再查查这个人的车有没有违章,查来查去,等他查通了把情报搞清楚了,可能一个月之后了,那个人已经跑了。


今天有了明略的SCOPA系统,我们把这些数据全部都连接到一起,一个系统全部搞定。当然了,很重要一点,是因为今天确实一个系统能把这些数据都存下,因为数据量也很大。我们把这些数据编制到一起的时候也做了非常精妙的一个复杂的东西,我们把这些数据做了很好的压缩,可以把最脏乱差的原始数据提取出真正有用的信息,最后压缩成知识,知识是性价比最高的数据,知识是密度最高的数据。大家想想,一个人体有多少数据,一个人里面应该有很多数据的,人怎么产生的呢?我们的父亲母亲,就那么一点点的DNA数据产生一个人。人体整个基因代码只需3GB就够了,相当于是一个人的程序,那个程序一直Run下去就变成了今天的你了,非常神奇的一件事情,那个东西我们称之为知识。


各行各业背后都是有方法论的,都是有知识的,这些知识其实是浓缩度最高的数据。我们是把公安系统的所有的数据最后都整合压缩成了公安系统里面最核心的符号系统,我们叫人、事、地、物、组织,有好人、有坏人,有事件案件、有地址,刚才讲的空间,有娱乐场所、办公场所、家庭住址。然后有物,大家的手机、汽车,这些都是物品,这些都是跟破案相关的,我们把所有的这些数据最后全部都关联压缩到系统上,建立知识体系,最后把公安所有干警脑子里面破案的战法也都放进去,全都变成知识体系,最后它就形成了一个决策系统,它可以真的帮助公安破案,非常非常厉害,我们已经产生了很多的战果。


这套系统我今天就不仔细讲了,因为今天也不是讲AI的专题,我们还是多讲讲数据。



明略的价值的增长其实是另外一个维度了,就是我们所在的不是简单的场景,场景其实一直都是在围绕政府的,场景没怎么变化,明略创办第一天的时候本来不是想做一个完整的解决方案的。创办第一天的时候只是看到中国市场有政府大数据的机会,我们当时就做了一个大数据平台MDP发行版,因为当时看到了Cloudera挺好的,就做了一个Hadoop发行版,想做一个类似于Cloudera的公司。做着做着就发现不对劲了,这种软件的竞争太激烈了,你会发现这个门槛并没有那么高了。我们这个团队出来的第一天的时候,它的门槛还是很高的。开始的时候,我们这个团队是从秒针出来的大概20个人,这20个人原来是在秒针处理Hadoop集群,处理大数据的团队。


在这个市场上,比秒针数据量大,处理日志量大的公司其实只有BAT,或者说秒针跟BAT是一个量级的,都不能说它们比我们大,因为我们是横跨所有的网站,所有媒体上的广告监测,这个数据量太大了。后来我们发现,越来越多人会用这个工具,之前只有秒针的人出来会用,所以当时很多的客户买我们的系统,随后,用这个东西的越来越多,会用的越来越多,而且开源的软件升级的越来越完善。最一开始可能开源软件只能做到60分的水平,我们因为是一个原来用过这个软件的人,我们可以把它完善成85分出去卖。后来你很快发现过了半年那个软件自己变成80分的水平了,再过半年它已经比你做得还好了,因为全世界几千个优秀的工程师一起在维护这个开源软件。


所以我刚刚说的,软件类的产品、信息类的产品、数据类的产品,一旦充分竞争,因为你的边际成本几乎是零,最后一定会陷入价格战,最后就没有钱可以赚。因为这个原因我们就不能去做这件事情了,需要换别的方向了。而换别的方向的时候,我们就发现一个最大的问题,如何帮助客户去使用这些数据是更有价值的。选择了公安行业不仅是帮它做一套平台,存这些数,而是帮助它们把这些数真正用起来,能破案,所以后来我们就做了帮助它破案的这套系统SCOPA。


在这套系统建立的过程中又发现了一个问题,就是遇到了刚刚讲的数据产品商业化的三要素其中的哪个要素呢?是人的问题。我们发现我们做出来的系统最优秀的警察用它破案非常厉害,但是普通的警察根本就不会用。所以我们就开始想做人工智能,能不能让普通的警察点两下也都破案了,最好啥都不用想,能不动脑就不动脑。所以是因为人的原因又再调整我们的产品方向,到今天其实我们仍然在不断迭代、不断尝试。也是因为我们逐渐能够形成闭环,所以公司的价值在不断增长。


所以,应该说数据产品的商业化的过程是很痛苦的,因为你光有数据没用,光有场景也没用,很多很多的公司都是死在最后你做出一个好的产品没人会用,因为你会用不代表你客户会用。大家看起来中国人数学都挺好的,但是真正一用发现都不会。或者大家很多在用的过程中都有问题。


分享一个我们自己的产品破案过程的视频。


大家可以看到,这就是一个正常的公安局破案研判的过程。这个过程其实里面的数据源是非常多的,就是来自于各种各样的系统。以前没有我们这样的产品的话,他去调这些数据,基本上复杂的案子要一个月。大家都知道为什么有些案子一破要一年,因为实在是证据太多、数据太多,很多警察就看那个对帐单就看到眼花,经常都把几个药店的眼药水全买光了,就是这个水平,所以非常辛苦。警察是非常非常辛苦的,我父亲原来就是警察。


我们在做这些研判的过程中最大的价值就是把原有的所有的数据都关联起来,里面所有的人、事、地、物、组织全部自动的识别出来,就像我们的人的眼睛一样,你把外界的所有看到的这些信号全部处理成符号,最后在你的大脑那汇聚,最后再去做逻辑推理。


而刚刚大家看到这个研判的过程大家还觉得挺复杂的,是吧?这个用户体验不一定是最好的,那为什么?就是今天这个操作界面是一个很优秀的警察可以在里面这么复杂的去做研判。那后来我们也发现了,普通警察确实搞不定这个事情。所以今天我们还在做一个非常非常创新的一件事情,就是可以把刚刚的这种过程可以录制下来,其实就相当于,大家可以理解为就是AlphaGo的一个棋谱。AlphaGo是什么呢?就是在一个巨大的数里面去搜寻一个最优的一个路径,是一个搜索问题。破案就是一个搜索问题,我从最一开始的报案的原始的情报,一直搜到最后的犯罪嫌疑人,再搜到他今天的轨迹,也是一个搜索的问题。所以优秀的警察会用这套系统,它会不断沉淀棋谱在上面,用的人越多,我们把中国的最优警察全部都放上去,都用了,这套系统就越牛,它最后在后台就会沉淀出一个不叫AlphaGo了,是Alpha Police,全世界最牛的警察。而且它会越来越牛,没有人再能赶上,这就是这套系统的本质。


所以我们利用这种类似的方法论在几个行业都可以去做这件事情,这就是明略今天做的事情,我们用它来保卫我们每个人的人身财产安全。我相信社会会越来越安全,因为以前警察真的是不够的。我记得,印象特别深刻,我在读研究生的时候我丢了一台笔记本电脑,然后我就去北大燕园派出所去报案。确实没有警力帮你去解决这种小案子,因为还有很多大事。


我们的用户体验还在持续的优化,我们是希望把所有的数据在一个后台全部都能连接起来,它将来不仅能够解决公共安全的问题,它还可以解决很多的问题。当然了,它存在数据安全隐私的问题,这些也是我们需要解决的课题。公安系统里面内部是有很多的隐私保护的方法的,比如不同级别的领导分别能看什么样的数据,所以相对隐私保护的还是挺好的。而且不同的业务警种,比如说反恐、禁毒,他们看到的数据范围还不一样。我们的隐私其实是有保护的,这些数据确实是可以帮助我们解决很多很多问题。


我们这个产品SCOPA今天已经在30多个城市上线,帮助我们的客户在应用,解决了很多安全的问题,而且我们相信将来不仅仅解决安全问题,而是解决整个政府的公共服务问题。这就是明略做的工作,我们也很骄傲可以把这个产品孵化出来。



所以我最后稍微用两页总结一下,第一个就是我自己做了很多企业级的服务,我自己投资了很多企业级服务,这里面有几个关键的问题,第一个就是为什么选择大B服务,我刚刚给大家讲了,大B服务其实才有钱,那个场景有价值,小B服务根本没钱付你。


还有更重要的一个原因,大B企业里面有专业的使用数据的人,大B企业都有BI团队,他们都会用这些工具。小的公司哪有BI人员?你给他数据工具他哪会用啊,你除非这个工具用户体验无比的好,完全自动,这个可能性也不大,至少到今天可能性不大。当然,我想说,要用发展的眼光看问题,未来会越来越好的,小B也会越来越赚钱,每一个企业未来的人员的素质也会越来越高。但今天在中国做小B生意确实还是赚不着钱。


营销为什么在中国能赢,我刚刚已经给大家讲过了。

然后做政府原因为什么选公安,我刚刚给大家讲过了。


还有一件事情,企业级服务,因为我们做投资的同学不要想着企业去服务像2C的一样,一年成长10倍,不太可能,因为企业级服务其实是一个长跑,像秒针今天是做了十一年多我们才成为我们市场里面绝对老大,垄断了,这是需要花很长的时间去迭代的。为什么呢?因为企业级服务跟消费者不一样,它换供应商的速度太慢了,大家都知道企业对产品的忠诚度远远高于个人。


大家昨天还用苹果呢,今天突然觉得小米不错,就换了。这个决策很简单,你自己就做决策了,但是企业不是这样,企业是团队决策,一个人,就算是CEO拍板了,也未必能成。我经常跟团队说,大家一块来用,然后同事们一堆反对,最后真的就放弃了,我不知道大家做老大是不是都这样,你换东西也没那么简单。


所以企业级服务迭代是很慢的,每年一次招标。今年要做什么事,一招标,你这次输掉了,一年之后再来重新招标吧。所以你每一次产品更新迭代都是以年为单位的在迭代,是一个慢慢发展的过程。



而且企业级市场很有意思的,它有一个学习链。有一本书叫《跨越鸿沟》,讲了一个市场拓展的曲线,整个市场如果是100%,头2.5%叫创新者,这些人是有什么新的东西他都敢试的,他不怕试错。后面13.5%叫做早期采用者,这些人是看了那些创新者一旦用了他觉得不错,挺好的,他也过来买一件。再后面34%,这一类人叫早期大众,就是一个产品一旦遇到这个点的时候,一旦第三段的人都开始买了,这个产品就算爆品了。


这个曲线2C和2B都是一样的,那这个过程其实是后面的人看到前面的人用了没问题才用的,后面还有几段,那我说的就是第二段到第三段跨过去,你这个产品就算真成了。


那企业级服务业务的发展规律呢?举个例子,像广告这个行业,创新者是谁?宝洁,全世界最大的广告主,联合利华,全世界第二大广告主,它们会先用,用出来看结果在两年之后了,它第一年先建设,第二年摸索,第三年它才用成。用成了,大家想想,第二段的人才会过来学它,小一点的广告客户才会去学它。然后接着又经过三年,第三段的才去学,就是这个过程,它是个很慢的过程。大家不要想着企业级服务一下就能起来,不太可能。所以做企业级服务一定要有耐心。也有好的一面,因为它Loyalty很高,所以你一旦拿了客户的话你也不容易丢,我们续业率是非常高的,95%以上,业务很安全,很稳定。


同样,中国有的时候学美国,美国总部先试,两年之后中国开始学美国,也是这个过程。所以我们有的时候也要去美国总部去卖,卖完了以后美国总部说这个产品很好,在中国试吧。


Go Global的原因也是这样,做企业你不Go Global,最后肯定会被Global颠覆,除了个别的行业,比如说像安防。因为全世界最优秀的企业,今天为止还都是在美国,当然了,未来,用发展的眼光看问题,未来我相信会越来越多像我们这些同学们,大家都成为跨国公司的CEO。我们这些企业都将走向世界,这个时候中国的企业级服务也都会成长起来。


然后重视市场教育,重视这个ROI的决策线。这个其实都是我们在企业级服务里面要去不断的思考的。这个决策,它的产出是什么,它的机会成本是什么,它的ROI是什么,要不停地思考。我们在不同的阶段要讲不同的故事来教育这个市场,所以企业级服务有很多Learning。


划重点 ✍

1. 为什么选择大B服务?

▨ 人:大B的客户数据思维更强,更懂得如何使用数据产品

▨ 场景:大B服务对应的场景市场规模更大,更有“钱”景(用发展的眼光看世界,未来小B也会有大市场)


2. 为什么营销业务在中国能赢?

营销场景的核心决策是如何更了解客户,中国企业更了解中国市场


3. 做政府业务为什么选择公安作为突破口?

▨ 场景:场景体量大,公安里绝大多数都是数据系统

▨ 人:出于安全考虑,中国政府更倾向于购买国内企业的数据产品服务


4. 企业级服务是长跑,迭代周期为一年

▨ 相对To C产品的采购,企业每年一次招标,采购决策链长,采购影响因素更复杂

▨ 企业级服务产品的普及所花时间更长,只有经历了巨头试水--巨头广泛使用--中小型企业使用之后,才算“普及”

▨ 企业级服务优势:续业率高。由于企业更换供应商成本高,相比个人,企业对产品忠诚度要高得多


5. 为什么尽快Go Global?

▨ 不进则退。不Go Global,最后就会被Global颠覆

▨ 发展的眼光看问题:中国的企业级服务正在迅速发展,走向世界


4

数据最核心的价值是产生信任

单纯的数据没有任何价值,场景价值才是数据价值



数据产品的这些前面我都介绍了,数据的本质其实是用数学去记录这个世界,理解这个世界。


▨ 数据做生意是个悖论,我们要知道什么情况下的信息不对称,能赚钱。


▨ 数据本身没有价值,你要利用这个数据源,理解以后你在那个场景里面应用,那个场景的价值才是你数据的价值,单纯的数据没有任何价值。


▨ 数据产品的价值等于决策着提前了解变化所节省的成本和新增的价值再减去你的替代成本。


▨ 然后数据商业化三要素,数据源、人、场景,它们的巨大的变化才有数据产品的诞生机会,数据品牌的诞生机会。


▨ 而且我们要不断建设活数据的反馈闭环,不断加速这个迭代,最终的目标其实是利用数据形成人工智能,形成AI。


这是数据产品的我的一个总结,前面我都已经介绍了。



所以我自己的价值观就是,我学数学的,就是要用数学来解释这个世界。数学是特别重要的一个工具,我们理解这个世界,是从定性到定量,从模糊到精准一个过程。但是我还是告诉大家,这个世界没有真理,数学只是一个思维工具,因为底层的公理,有一天突然出现一个新的事,那个公理信息就变了。这个世界上是没有真理的,数据最核心最核心的价值是产生信任。让我们每个人更加勇敢的去工作,更加勇敢、更加幸福、更加快乐地工作,这个是数据最核心的一个价值。大家不要犹豫、不要纠结,非常非常重要。


📚 阅读书单

《世界观》

——理查德・德威特,美国费尔菲尔德大学哲学系教授

《思考,快与慢》

——丹尼尔・卡尼曼,普林斯顿大学尤金・希金斯心理学荣誉退休教授,普林斯顿的伍德罗・威尔逊公共及国际事务学院荣誉教授

《人类简史》

——尤瓦尔・赫拉利,耶路撒冷希伯来大学历史系教授

《复杂》

——梅拉妮・米歇尔,波特兰州立大学计算机科学教授

《跨越鸿沟》

——摩尔,技术产品生命周期定律“新摩尔定律”创立者

《从0到1》

——彼得・蒂尔、布莱克・马斯特斯,硅谷创投教父、PayPal创始人


明 略 数 据

领域:科技/传媒


明略数据成立于2014年,是支持分析决策的行业人工智能解决方案提供商。深耕公共安全、金融、工业与物联网等行业领域,构建行业的知识图谱,实现从个体赋能到群体智能的产业转型升级。


目前明略数据已与省、市级公安局、交通银行、中国人民银行、光大银行、中国中车等行业标杆客户并肩实践行业人工智能应用。


红杉资本中国基金始终关注 科技/传媒 领域的投资。成立至今已投资了今日头条、滴滴出行、京东、大众点评、美团、唯品会、掌趣科技、美丽说、新浪网、大疆创新等该领域知名企业。


除科技/传媒领域,红杉资本中国基金还关注医疗健康消费品/服务工业科技等领域的投资。


 推荐阅读

带着好奇心重新发现以色列之行思札记:学、思、辨、问

20万毕业生点赞的招聘会了解一下?| 红杉校招早鸟报名处

想获得他人资金和情感上的投资?尝试这13种方法

不到两年征服全球2亿+用户,拿下设计界的“奥斯卡”,一辆单车究竟还能玩出多少花样?

那么,该怎么解决极其复杂、充满不确定性的灰度问题?


登录查看更多
5

相关内容

数学是关于数量、结构、变化等主题的探索。
专知会员服务
39+阅读 · 2020年6月19日
多智能体深度强化学习的若干关键科学问题
专知会员服务
188+阅读 · 2020年5月24日
2019必读的十大深度强化学习论文
专知会员服务
58+阅读 · 2020年1月16日
阿里巴巴达摩院发布「2020十大科技趋势」
专知会员服务
106+阅读 · 2020年1月2日
【中科大徐童】多模态语义理解与关联
专知会员服务
82+阅读 · 2019年12月7日
作为字节跳动的研发面试官,有些话我不得不说!
互联网架构师
12+阅读 · 2019年4月22日
上新 | 《中国地理必修课》,让孩子更懂中国
罗辑思维
3+阅读 · 2019年2月25日
1年融资超230亿!计算机视觉为何如此吸金?
【财富空间】一个人真正的资本是什么
产业智能官
6+阅读 · 2018年3月16日
IDG资本杨飞:从价值投资谈2017中国现象
IDG资本
4+阅读 · 2017年12月22日
微软洪小文:AI 还是个小学生,资本请慎重!
EGONetworks
4+阅读 · 2017年9月6日
大学数学不好,或许是数学教材的锅?
算法与数学之美
15+阅读 · 2017年8月1日
Arxiv
5+阅读 · 2019年11月22日
Arxiv
21+阅读 · 2019年8月21日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
The Evolved Transformer
Arxiv
5+阅读 · 2019年1月30日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
Viewpoint Estimation-Insights & Model
Arxiv
3+阅读 · 2018年7月3日
Arxiv
4+阅读 · 2018年5月14日
VIP会员
相关VIP内容
专知会员服务
39+阅读 · 2020年6月19日
多智能体深度强化学习的若干关键科学问题
专知会员服务
188+阅读 · 2020年5月24日
2019必读的十大深度强化学习论文
专知会员服务
58+阅读 · 2020年1月16日
阿里巴巴达摩院发布「2020十大科技趋势」
专知会员服务
106+阅读 · 2020年1月2日
【中科大徐童】多模态语义理解与关联
专知会员服务
82+阅读 · 2019年12月7日
相关资讯
相关论文
Arxiv
5+阅读 · 2019年11月22日
Arxiv
21+阅读 · 2019年8月21日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
The Evolved Transformer
Arxiv
5+阅读 · 2019年1月30日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
Viewpoint Estimation-Insights & Model
Arxiv
3+阅读 · 2018年7月3日
Arxiv
4+阅读 · 2018年5月14日
Top
微信扫码咨询专知VIP会员