从 Kensho 看大工业金融的发展路径（上）

2018 年 4 月 25 日 文因互联 鲍捷

2018年3月7日，美国智能投研公司Kensho被标普全球以5.5亿美元收购，这是迄今为止，华尔街最大规模的人工智能公司并购案。

5.5亿美元贵不贵？Kensho究竟能做到什么？它的模式将给国内智能金融行业带来怎样的启示？为什么智能金融领域没能出现第二个 Kensho？为什么智能金融不必复制 Kensho？

在上半部分的文章中，文因互联 CEO 鲍捷博士结合两年多的实践探索经验，为大家一一解答。

作者介绍
鲍捷博士，文因互联 CEO。拥有20年学术界和工业界的相关经验。美国Iowa State University人工智能博士，RPI博士后，MIT访问研究员，W3C OWL(Web本体语言)工作组成员，前三星美国研发中心研究员，三星问答系统SVoice第二代系统核心设计师。主要研究领域涵盖人工智能的诸多分支，包括机器学习、神经网络、数据挖掘、自然语言处理、形式推理、语义网和本体工程等，发表了70多篇领域内相关论文。是中文信息学会语言与知识计算专委会委员，中国计算机协会会刊编委，W3C顾问会员会代表。2010年以来关注金融智能化的研究和应用，成果有XBRL语义模型，基于知识图谱的基本面分析、金融问答引擎、财务报告自动化提取、自动化监管等。

Kensho公司简介
2013年，Daniel Nadler创立了Kensho；2014年Kensho与高盛合作，并获得高盛的1500万美元投资；2017年,获标普国际领投的B轮5000万美元融资，估值达5亿美元；其核心产品是金融决策引擎“Warren”,曾成功预言英国脱欧后的英镑走势，及2017年美国科技股的强势上涨。

以下为演讲原文：

Kensho 以5.5 亿美元被收购，这个消息到底是一个利空？还是一个利好？

我今天想要和大家探讨：

第一，Kensho是什么；
第二，怎么做出 Kensho；
第三，我们能不能做到；
第四，是否应该那样去做。

接下来要讲的，有的是事实，有的是观点，有的是信仰。

事实是大家都已经看到的东西；

观点我相信而且有一定的证据能够证明的东西；

信仰是在遥远的未来才能够证明的东西。

AI的循环：人神共愤 or 骗子

先做一个简单的自我介绍，我从1998年开始做人工智能的研究，人工智能有几个大的学派，神经网络、机器学习，还有逻辑学派，或者说理性主义学派，这几个学派，我或多或少都有一些涉猎。

我在2001年去的美国，在衣阿华州立大学拿到博士学位，博士期间主要做语义网的研究，这个领域现在改名字叫知识图谱了。2007年博士毕业以后，去了伦斯勒理工学院（RPI），2010年的时候去了MIT，在图灵奖得主Tim Berners-Lee 的实验室。2011年去了三星美国研究院，在那里做自然语言处理的研究，研究问答系统。2013年以后，开始自己在硅谷创业。2015年的时候，把团队带回中国来，专注在智能金融领域。我们的公司叫文因互联。

自己跟金融有关的经历，是2010年还在MIT的时候，跟MIT管理学院，还有Fidelity的工程师一起做了一个 XBRL 的语义建模。XBRL 是金融报表语言的一个国际标准，但是只是一个 XML 的标准，它并没有语义，不能做推理。

比如说财务自动校验，是它本身没有的能力，我们给它定义了一个语义模型以方便后续的自动化工作。后来基于这个工作，我们在2011年做了一个基于语义和社交数据的基本面分析的论文，后来这篇论文拿了 IEEE金融工程和计算智能会议最佳论文。

2015年以后，我们就把其他的业务都砍掉了，专门做金融这方面，前前后后实验了很多产品。一开始做新三板的数据库，然后做金融搜索引擎、自动化报告、公告、研报的摘要，机器人等等。我们主要用知识图谱技术帮助金融机构做业务的自动化，如自动化读公告、自动化监管、自动化审计、流程自动化、问答自动化等。

人工智能到现在也有60年的发展历史了。自从我入行以来，我也经历了两个小的低谷，总的来说，人工智能的发展基本上都是下图这样的：

一会儿说人类要毁灭了，一会儿又说人工智能是骗子。尤其是去年，“人类要毁灭”了的新闻到处都是，但从今年以来，各种反思乃至否定的文章也开始出现。

以下是几个神化人工智能的例子：一个是说高盛的交易员要被人工智能取代了。

另一个是说35岁以前，如果还一事无成，你还能去哪？

最后一个新闻最令人恐慌，用了一个非常夸张的词，“人神共愤”。

这到底还是不是人工智能？

要判断是否具有AI属性，不考虑科学论证的严谨性，一个直观的判断标准，看里面是否有机器学习、知识图谱、自然语言处理等成分，如果没有，其实它更多的是传统的自动化。

回过头看这三个新闻。

比如说第一个新闻，高盛的交易员只剩两人，是人工智能导致的吗？并不是。因为这里面并没有什么人工智能的技术。交易本身是一个执行，并不涉及策略的形成。交易本身分很多级，从低级到高级。现在真正被替代的应该就是一些机械的，既定的策略，去执行一下就好。与其说是人工智能替代了这些人，不如说是数据库和网络替代了这些人。

第二个技术，其实是在讲会计。现在我们看到德勤等很多会计公司都推出了过程的自动化、财会的自动化，这些技术是不是人工智能？很难说是不是人工智能。

最后一条关于Kensho，Kensho的的确确是人工智能。从数据层到表现层，最后到策略层，是人工智能的一个综合应用，Kensho有一个很大的知识图谱部门。

大约从2013年、2014年开始，新一代真正的人工智能系统开始应用在金融领域，所以人工智能确实是在改变这个世界，改变这个行业。

但到底是不是真的会做到人神共愤的层面，我们再往下看故事。

Kensho 能做到什么？

Kensho 这个词是什么意思？Kensho 是一个日语词，它是日语的“见性”，明心见性是个佛教用语，代表的是说大彻大悟，醍醐灌顶的意思。

说起来很神，本质就是三个字——“相关性”。

大数据领域兴起后，其核心想法是，与其去发现因果性，不如把数据积累起来，寻找事件和资产之间的相关性，以及事件对价格、特别是价格长期趋势的影响，这就是 Kensho 提供的主要服务。

因为我不是 Kensho 公司的，我所知道的消息都是从公开渠道收集来的，或者打电话从老同学、老同事那里收集来的，未必完全准确。但我们理解 Kensho 并不需要真正的去深入它的系统本身的那些细节上去，我们从它的逻辑和它的基本服务，大体上可以推断出来它要干什么，建立这样的系统需要什么样的东西。

我们看几个例子，Kensho 推出的最主要的应用，就是 Warren 搜索引擎，或者说决策引擎。它能在一分钟内，完成过去分析师要做几个小时甚至几天的工作。

首先， Kensho 的底层是一个很大的数据库。两年前，它是9万个数据集的数据库，在此基础上有各种事件、价格、基本面。

这个图是某一个ETF（Exchange Traded Funds 指数基金）的基本面研究，下面有哪些资产在ETF下面，它们最近的趋势是什么，比例是什么，可以往前的推断指标是什么。这是 Kensho 基本的数据，像这样的数据有成千上万个。

在此之上，刚才提到了，它要做一个趋势性研究，核心就是说如果有一些事情发生了，它跟资产价格之间，在长期来看是什么样相关的趋势。图上这个例子在讲，欧洲的整个资产相对于英国的贸易，它们之间的相关性是什么，这其实是一个很长很长的图，我只截取了前面一段，就是在讲相关性的各种指标是什么。

第二个例子是原油（见下图），在某一种价格变动后，WTI原油的表现一周内会发生什么变化？这也是各种指标和指标之间的相关性。所以Kensho里不仅有股票，也有各种大宗资产、期货。

第三个例子是事件影响分析，下图描述了2000年以来，春节对资产的影响，由此可以决定我们的策略。“事件影响分析”也是 Kensho 在新闻里最常见的一个卖点。

第四个例子是长期趋势分析，2010年以来，应该是从美股恢复以来，每年9月份，三大指数，它们的表现是什么样。所以它有非常多数据切片的分析。我记得2016年美国大选结束的时候， Kensho第二天就推出一个图，分析如果是共和党的总统上台，对于资产长期来看，会有什么样的影响。各种相关性的比较，可以想象出来无穷种的组合。

第五个例子是一个策略：如果原油价格超过了50美元一桶之后，我买入，5天之后就卖出，这样的一种事件，从历史预期来看，我能得到什么样的回报率。像这样简单的策略，也是有无穷多种的组合的。

对一个初级分析师来说，要做以上这些事，他要去收集数据、整合数据、自己做相关性分析，还要画图。Kensho 则可以一分钟内完成这些以前要几小时，甚至几天才能做完的事。从这点来讲，华尔街有些人会“人神共愤”，是可以理解的。

我们也注意到，刚才有几段截图是从电视上来的，这是CNBC。在 Kensho 的早期，它的几个商业模式之一就是跟媒体合作，帮助媒体分析。另外一个就是像高盛这样的获客、留客、分仓的商业模式。

在电视访谈里面，也有人问过 Kensho 的创始人，问你们自己去炒吗？他很坚定地说，我们自己不去做交易，我们要做成千上万家金融机构决策的提供商，但我们自己不下水做交易。有一段时间Kensho被高盛买了以后，其他人就很难用到了，只有高盛的客户才能用。我又问了我在高盛的同学，他们自己也不太能够用到这个东西，所以外边也很难用得到。不知道在座的，有没有用过kensho的？（参会者回复）没有。

5.5亿美元贵不贵？

不久以前，Kensho 以5.5亿美元被标准普尔收购，贵不贵？

大家一开始对 Kensho 的预期远远高于5.5亿美元。公认 Kensho 有非常巨大的市场。因为整个金融的数据市场，大概是260亿美元。

大约在三年前，有一个新闻说，说如果广泛加以应用，那么 Warren，即Kensho 的搜索系统，可能会撼动长期以来，被彭博社、汤森路透所垄断的260亿美元的金融数据市场。如果它真正能够撼动市场，它将来的价格不会是5.5亿美元。

下面的几句话都是正方观点，在两年前或三年前的时候，大家看到 Kensho 的时候，其实预期是比现在更高的。其中一个说，如果Kensho 的产品最后能够研发成功，金融机构的分析师和研究人员将面临灾难，面对更快、更好的机器人分析师，他们毫无胜算。

最后一句话，也是Kensho 创始人自己在一次访谈里说的，他说他推出了 Kensho 这个系统以后，有人给他打电话说：“你这个叛徒！如果你发现了这种关系，你就用这种关系来交易，但你不要公开它，你公开它，就导致大家都没法交易了。”

事实是，5.5亿美元的价格，从某种程度上说明，上述预期并没有达到。

我也找到了一些针对 Kensho 的反方观点，这些观点不一定正确，但是非常值得思考。

第一个说法是，彭博可以很容易地复制 Kensho ，而且可以做得好100倍。我在咨询彭博的同学后，感受是，彭博在短期内，还做不出Kensho。自从我回国以来，我听到了至少不下10个团队，试图去复制 Kensho，也有一些非常大的国家级机构，也想去做这种东西，到目前为止，还没有一个能做成的。

第二个观点来自高盛的朋友。他说这些年来，并没有看到 Kensho 做出什么牛逼的东西，也没见高盛内部人用过 Kensho ，更多是高盛的客户在用。

第三个，有人质疑，说 Kensho 提供了相关性，统计过去的事件对股票的影响，针对未来的操作会有指导意义吗？胜算有多高呢？我们也知道，其实我们在买基金的时候，都会有这么一条说明，过去的业绩不等于未来的预测。过去的相关性是不是对未来有指导意义？可能不同的学派对这些有不同的想法。

最后一点，我想应该是被证实了的。普通人想一夜就能成为坐着数钱的交易员的话，还是洗洗睡吧。Kensho 这样的大杀器，到底能不能让人挣钱，这是第一个问题。它能不能让普通人挣钱，这是第二个问题。我想这两个问题，在目前还没有明确的答案，至少现在没有肯定的答案。

我们回过头来看，为什么 Kensho 能值5.5亿美元？

5.5亿美元，在某些情况下，我们看是个小数字，但已经是近年来最大的一笔人工智能公司的并购了。

在人工智能领域里，一般来说，常见的并购额度是1亿到2亿美元。我们知道，Siri 当初的收购价格是2亿美元。微软在几年前收购 Powerset 的时候，也就是它的智能搜索引擎，2亿美元。最便宜的是亚马逊的智能音箱背后的搜索引擎True Knowledge，2600万美元。

所以说相比之下，Kensho卖了5.5亿美元，可以说是给人工智能公司打了一针兴奋剂，对于某些投资机构，也是一个利好的消息。

我们从kensho底层来看，想复制它的的确确是一件不容易的事情，不管是在中国，还是在美国。

基于这样的技术复杂度，5.5亿美元是一个非常合理的价格。

构造 Kensho 的技术关键

为什么过去4年没有一家团队能够成功复制 Kensho？

Kensho包含三个难度比较高的组成部分，这三个组成部分在中国的基础目前都还不到位。它们分别是：底层的结构化数据库、中间层的金融领域知识库和前端的问答技术。

第一个部分是结构化数据库。如果我们简化一下 Kensho，可以不精确地认为 Kensho 是给高盛的结构化数据库做了一个自然语言的前端。如果让 Kensho 从头把所有的结构化数据库做出来，那一两年绝对不够，十年也不一定行。高盛在过去20年多少万人的积累，才创造出来这样一个底层数据库，比如SecDB，现在应该远远不止9万个数据集了，在此基础上才可能有 Kensho。有了上述的基础设施以后，在上面做自然语言的前端，才能水到渠成。

Kensho 的产生也依赖于过去十年美国整个数据生态系统的发展。2009年奥巴马上台时，曾发布过一个总统令，要求美国所有政府部门都开放数据，其中也包含了大量金融部门，包括 SEC。美国所有基础证券的信息，各个细分领域的国民经济政府数据都是开放的，所有人不需要任何申请就能拿到。到目前为止，美国政府已开放了上百万个这样的数据集。

而在中国，这样开放的数据基础近乎于零。现在连基础证券的数据，包括新三板或者主板的 XBRL 数据，还不能让所有人免费、公开地访问。这个数据生态的差距是以光年来计算的。

第二个是金融领域的知识库，在做金融统计时，会有各种关联分析、回归分析和细分子领域的分析，比如产业链、财务模型、行业模型，宏观模型、投资模型等等。

以财务模型为例，美国有 GAAP 模型，中国有 CAS 模型，这都是成千上万条不同的会计准则，有了这些准则后，我们才能做财务的一致性校验。

在产业链领域，国内也有一些公司在做。美国的Capital IQ公司，很早以前就把产业对标做得很透了。而国内，还远远没有做好给公司打标签，或对标研究这件事。行业模型、宏观模型、各种投资模型，现在也都是方兴未艾。我们如果想做好上面提到的 Kensho的几个案例，逃不掉这些模型。而要做这些模型，需要协调各领域、各分支的专家，整合各种各样的专家知识。目前在中文领域，这一块还比较缺失。

第三块，从技术上来说是更有挑战的东西，就是前端问答技术。前几天，我在知乎上回答了一个帖子，有人问：Kensho 能不能复制？复制的核心技术要点是什么？我回答，前端问答是其中的一个大挑战。一位读者留言说：问答技术没什么了不起，现在搜索引擎公司早就解决这个问题了。

这是一个误区，像小冰这样的问答机器人，大家看起来已经很智能了，但这种技术很难用在 Kensho上，因为这是两种完全不同的技术路线。

小冰本质上是一种基于检索的技术。它是从一大堆文本里头，找到过去存在的相似问答，再做答案和问题间的匹配。用术语来说，是用端到端的深度学习的模型来做训练。但这样的模型，有两个问题：第一，它无法精确地理解这个问题是什么，就是说它无法进行语义解析；第二，它的答案很难被构造出来。比如，像上述Kensho 例子中一些各种不同切面的切分，各种不同指标的组合，我们可以设想出无穷多种的组合，但用深度学习技术，却无法生成无穷多种答案。

如果想做到这一点，我们必须要做语义解析，也就是真的理解用户说的话，理解他说的词是什么意思，词和词之间是什么关系，这可能是这个问题最难的一点。到目前为止，这还不是一个完全被解决的问题。具体要做语义解析，又要涉及大概十几种非常专业的技术。小冰的技术是没有办法用到 Kensho 这样的强知识性问答中的。

回顾了这三个关键点后，我们可以说，想建立Kensho 这样的系统，要依赖于很多先决条件，包括数据基础、领域知识库基础和前端问答基础，这三块都很有挑战。对专业人士而言，这不是一个令人吃惊的结果。因为在过去40年的专家系统开发中，这些问题一直都困扰着整个知识工程界，只是现在在金融领域，我们再次遇到了这些拦路虎。

所以我要为 Kensho 团队点赞：他们做得非常好，Kensho团队现在是600多个人，他们技术部门是100多人，用100多个技术人员，就能把这样高复杂度的问题做到现在的结果，非常不容易。

跳出 kensho 思考智能金融

前面主要是在讲 Kensho 是什么，大多数都在陈述事实。在这一篇章，我主要讲我的观点，还有信仰。

先说一个事实，过去4年了，我们没有看到真正的 Kensho 的复制品。为什么会没有？我提出两个观点和一个信仰。

第一个观点，Kensho 不会取代任何人，所以说刚开始我给大家看的三个新闻截图，我认为是不会发生的。Kensho 不会取代任何交易员，Kensho 不会取代任何投资经理，Kensho 不会取代任何分析师，甚至 Kensho 未必会取代任何实习生。因为它所要做的事情跟我们对它的期望，其实是有很大的距离的。

第二个观点，Kensho在中国目前无法复制，从技术、产品、商业模式几个层面上来分析。

技术层面刚才分析过了，想造出这样的产品来，可能还需要一段时间的发展。

数据层面这边，金融数据是不是能开放，基础数据库、公告数据库、研报数据库，市场上是不是有厂商可以提供？中国现在有400种公告，每天就有大概2000多份公告，还不算新三板的。这些公告绝大多数没有结构化，什么时候能够结构化？

我们之前有研报的一致性预期，研报里面仅仅只有这些信息可以用吗？很多其他的信息，不管是做交易，还是做监管，都是需要的。

还有新闻，每天成千上万条新闻。舆情监控基本上只能做到一个正负面，是不是可以再深入分析？大量的新闻里面的数据是不是能够被应用起来？我们脱离这些数据基础来造 Kensho，现在是造不出来的。

最后一点，从商业模式上来讲。Kensho最早的商业模式，应该是帮助这些券商获客，或者来提高客户留存率。因为券商作为一个服务机构，它向客户提供投研能力，让更多的交易发生在自己的平台上面，从而提高分仓佣金，这是一种商业模式。Kensho 从中可以分到一笔钱。这个模式在中国能不能复制成功？到目前为止还没有先例，也许可以。

最后我认为，我们现在做智能金融，可能大家就直接奔着提高交易的效率，或者是挣更多的钱，或者是打败这个市场的思路，这个模式是不是应该追求的？经过两年多的探索之后，我认为这个事情未必应该是这样的，或者说智能金融应该有一个更大的途径，而不仅仅是追求 Kensho 这一个途径。

这个途径，我认为应该是通过零件的打造，逐步走向所谓大工业的金融。

前两天，我们跟另外一个证券公司的人聊过，他们从两年前就开始想复制 Kensho，内部加上外部的合作商一起开发，都开发不出来，他很失望。

“Kensho”，打引号的Kensho，不是说Kensho本身，而是这样一种聪明的金融专家系统，是我们的目标。可能路径比我们的目标更重要。目标是引导我们走向未来的一个明灯，但是我们真正想走到目标，更重要的是怎么去设计这个路径。

是不是我们直奔着目标，这个路径就对了？大多数的历史进程里面，证明不是这个样子的，我们需要迂回。

所以在我看来，就目前这几年时间，比较合理的目标和路径，是把一部分信息处理流程标准件化，这是目前阶段比较合理的追求目标。

大概两年前，我去一个资管公司，他们有千亿以上的总资产。总经理问了我两个问题：第一，你现在立即、马上就能帮我挣钱吗？第二，你是不是立即、马上，就能够帮我比市场上其他人挣更多的钱？

我实事求是地说，好像这两个答案，我现在都不能给你肯定的答复。

他说如果做不到，那你们搞智能金融还有什么意义？

我相信这个想法，可能在那个时候非常普遍，是一种非常高的预期。最近这两年跟大家沟通的过程中，越来越少地听到这样的想法。

我们跟多家机构合作都找到了更小的落地点，大家不再追求这样一个可以说是非理性的目标了。

回过头来，咱们想一想，如果这家公司有数千亿，你能持久地高于市场的回报率，最终的结果会是什么？这种事情真的有可能发生吗？任何人也打败不了市场，市场打败不了市场本身。