当身边同学拿到80万年薪Offer时，这两位清华博士却想让法律人用上真正的AI

2018 年 7 月 9 日 机器之能

法律 AI 领域终于迎来一家新的创业公司。他们拥有这个领域比较少见的技术实力，也让我们对他们将陈旧的法律研究工具带入二十一世纪，充满期待。但与此同时，法律 AI 交叉领域的特殊性也让这家年轻创业公司的征途充满挑战。

撰文 | 微胖

中国有多少家法律 AI 创业公司？

总数，恐怕还不足一个微信群成员上限的十分之一。

翻开斯坦福大学的百年人工智能报告，目录中也看不到法律这个垂直细分领域。

有一百个迈向这个领域的动力，也有一百个放弃的理由：

论蛋糕大小，远不及出行、医疗、安防、金融等领域。

论产品的革命性与战略性意义，可能不及虚拟语音助手和人工智能芯片。

所以在这个领域，你看不到流连于热门细分领域的顶级资本。

然而，创业者们要解决问题的难度，却丝毫不亚于热门细分领域，甚至可以说难度更大，但人才所能获得的回报远不及巨头开出的价码。

一些国内大型法律科技公司相关业务负责人曾告诉笔者，在吸引非常优质的 NLP 人才方面，他们根本不是巨头和明星独角兽公司的对手。

所以，当你发现法律人使用的搜索工具还停留在连 20 年前的谷歌时代时，也就不足为奇了。

不过最近，一家成立不久的法律 AI 创业公司幂律智能入驻清华科技园的创业大厦。这家由清华大学人工智能博士创立的公司想要用先进的自然语言处理技术改变法律服务。

公司创始人、CEO 涂存超（左），清华大学刘知远教授（右）

一、为什么是法律？

今年三月，幂律获得近千万元天使轮融资。公司创始人涂存超是清华大学计算机系人工智能所应届博士研究生，和他一同创业的张天扬是他的本科同学，同样刚刚拿到清华计算机系的博士学位。

「我做社交网络数据挖掘，涂存超之前也做一些 network embedding 的工作。」张天扬介绍道。

公司联合创始人张天扬

涂存超最初的想法很朴素：学以致用，希望能够通过博士期间所学真正去改变一个领域，而不是在一个大公司里扮演着螺丝钉的角色。

最开始，他们也考虑了一些热门的领域，比如金融、医疗、教育等行业，但后来发现这些行业的数据壁垒比较严重。

「如果做医疗，你必须得跟某个医院合作才能拿到数据，这可能需要比较多的社会的资源。」对于从本科一直读到博士，没有太多社会资源的创业者来说，这个难度确实比较大。

一次偶然的机会，跟律师界朋友聊了后，他们发现法律行业是一个特别重文本的行业，而且文本质量特别高。

事实上，全国诸多法院在经过 20 年的信息化建设后，流程数据、证据数据、文书数据、档案数据等都比较完整。

特别是，中国裁判文书网上的几千万裁判文书都是公开的。

「与其它垂直领域相比，这些都是非常好的文本信息，质量非常高，都是法官写的，表述更加严谨规范，而且数量足够大。每个文书都有非常详细的标注。比如，涉及哪些法条、犯哪些罪、量刑结果是什么、什么时间、发生的地域、法官是谁、代理律师是谁？这些标注信息以及众多的场景非常适合 NLP 技术的落地。」涂存超说，

除了这些案例文书，法律领域还拥有法律法规、法学文献、合同协议等丰富的文本数据，这些数据也为法律智能提供了丰富的应用场景。

「我们很务实，觉得这个方向前景很好，而且坚信技术一定能够在这个方向发挥重要作用，所以立马开始这个方向的调研、技术开发和尝试。在抓取了几千万份数据后，我们首先做了一个智能检索引擎。」张天扬说。

至于为什么首先做搜索，一方面，检索是基础性工具，是法律行业初级从业者的基础性需求；另一方面，现有的法律搜索已经和百度、谷歌存在非常明显的技术代差。

用户已经习惯了通用领域的基于语义理解的检索方式，在百度或谷歌里检索大段文本，或者直接问一个问题，系统可以直接给你答案。但是，法律领域的检索工具还停留在关键词搜索。

比如，律师遇到一个案件或者纠纷，就必须得检索根据自己的工作经验总结出来一些关键词，而且只有词表里有的关键词，才能检索到结果。如果一句很简单的自然语言形式的输入，用户可能就检索不出结果。

「这种检索方式甚至连 20 年前的谷歌搜索技术都不如，」张天扬说。

去年四月，他们决定做这个事情。一年多后，他们发现，NLP 在法律领域的应用潜力还不止这些，比如，辅助量刑、合规审查、法律风险提示、智能法律咨询等，都有着非常好的前景和可行性。

「我们坚持做法律，有一个很重要的原因，就是我们觉得它更有可能做出来。」涂存超说。

「最近一年的发展，也印证了这个想法。」张天扬补充道。

二、怎样的一款产品？

输入一段案情，或者一些法律要件的组合、甚至将整个案件或判决直接输进去，系统就可以识别出使用者的使用意图，然后在相应的地方进行识别语义，匹配到可能相似的案件。

坦白说，这样的法律检索工具会非常吸引人，和 ROSS 做的事情也有些类似。据说，体验过产品原型的业内人士也惊讶于检索效果。

幂律的检索系统（年底会做出一个产品）有两个亮点：意图识别和根据语义进行匹配。

意图识别系统，能够理解用户带着什么样的目的搜索这个案子，用户到底是想要有什么。

比如，类案推送、争议焦点，还是条文查询。

「每一个领域的律师想要的东西可能也不完全一样。做产品设计的时候，我们会调研不同应用场景，不同律师检索时想知道什么，接下来想做什么，为他们提供更好的搜索结果。」张天扬说。

而基于语义理解进行类案匹配，会将文本的深度分析技术，比如关键词抽取、关系和事件抽取、摘要生成等，适配到法律语境中。

「我们也在考虑，检索出来海量相似案例之后，怎么样就此生成一个报告。」涂存超说。

这与 ROSS 在一年多前接受我们的采访时曾表达过的想法，不谋而合：

「接下来几年的最大目标之一，希望 ROSS 可以浏览多个案例和证据，然后生成备忘录，总结问题，并列出不同观点。这将会改变律师们研究案子的方式。」

「我们最核心能力，肯定还是 NLP 的基础技术。」涂存超说，

「具体到法律领域，我认为，现在应该做类案匹配和判决预测。这两个方面，我们算是做得最早，也应该是做得最好的。」

因此，除了所有法律人都会关注的类案推荐，他们也在将 NLP 技术用于判决预测。

比如，多模态异构信息融合。如何融合案件判决时所要考虑的多文本信息（法律法规、司法解释、甚至工商信息等），以便更好进行结果预测。

另外，预测判决罪名、量刑还涉及智能推理决策技术，比如如何模拟法官判案逻辑，在系统中引入推理能力。

而他们在这方面的研究正在得到学术上的肯定。

一个月前，涂存超参与的一篇研究罪名预测的论文 Few-Shot Charge Prediction with Discriminative Legal Attributes 发表在了 NLP 四大顶会之一 COLING2018。

我们知道，罪名分布也是典型的长尾分布（幂律分布的一种形式，现在你知道公司名字的由来了）：

如盗窃罪、抢劫罪等占了接近一半的案件。比较低频的几十个罪名，可能只占了百分之零点几。

几千万案例文书当中，几个高频罪名，比如盗窃罪、抢劫罪等占了接近一半的案件。比较低频的几十个罪名，可能只占了百分之零点几。

但是，在目前的罪名预测研究中，低频罪名的处理效果并不理想。

传统上，罪名预测一般被当作文本分类任务处理，利用案件相关的一些浅层文本文本特征或者属性特征来预测结果。

近些年来，也有基于神经网络网络分类模式的尝试，但也不能很好处理低频罪名和混淆罪名的问题。

涂存超所在的团队通过模拟法官的定罪逻辑，引入 10 个有代表性的区分性属性（盈利、买卖行为、死亡情节、暴力行为等），作为事实描述到罪名的中间映射。

通过利用注意力机制生成与属性相关的事实表示，对一个案件的不同属性进行预测，进而预测最终罪名结果。结果，这一方法在低频罪名预测上获得了接近 50% 的提升。

现在的模型取得了较为理想的预测结果，然而，其中的可解释性也需要进一步挖掘，对一个法律产品的使用来说，这也是不可忽视的方面之一。

「智能推理决策当中，这种可解释性的问题也非常重要。」涂存超说，法官必须知道其所以然。

在技术方法上，引入知识图谱、法律先验知识，模拟法律人的思维逻辑，有可能打破法律智能的黑箱问题。

刘知远教授曾经谈及先验语言知识与深度学习模型的有机融合对于理解世界的作用。他的团队也在模型中考虑先验知识的作用，并做出了一些尝试。

作为刘知远教授的博士研究生，涂存超最近也在做一些技术上的突破，

「看能否将现有的一些可解释性研究，适配到法律智能领域。我们会有一些应用，也会针对实际情况进行一些改进。」涂存超说。

三、怎样的一支团队？

目前，国外大多数法律 AI 创业公司都少不了具有法律背景的核心成员（创始人或者联创），比如 ROSS、LawGeex 以及被 LexisNexis 先后收购的 Lex Machina 和 Ravel Law 等。国内更是如此，比如华宇元典、无讼、律品等。

幂律是为数甚少由纯技术出身创业者组建的法律AI团队。

涂存超和张天扬曾参加过数学和物理奥赛，其他一些团队成员曾是信息学奥赛国家集训队成员。换句话说，这些人工智能专业的博士们几乎有着类似的学霸型人生轨迹：

奥赛——保送清华——一路读到博士——创业。

刚开始接触这个领域的时候，对法律知识和行业的了解还停留在大学本科政治课的范围内。

研究人员或许可以做一款优秀的产品，但这不一定意味商业上的成功。为避免陷入「技术为王」，一些投资人在建议技术见长的团队初期寻找合伙人时，仍要重视市场、商务等因素对公司的重要推动作用。

「从刚开始做这个东西时，我们就已经意识到这个问题。」张天扬说，

「我们也正在努力寻找这方面的人才，无论是实习生、全职还是合伙人，我们一直都在寻找。」

不过，幂律现在做的法律检索工具，更多的是将一个略成熟技术进行应用，对技术的需求更大。因此，通过与律师朋友、法学院同学、老师，包括一些公司合作来获取法律资源的模式，足够应对当下的法律需求。

在交流过程中，我们仍然可以体会到算法创业团队对技术的高度重视。

法律人主导的团队会使用开源工具，但是，幂律的团体知道如何改进这个工具。

比如，根据法律把分词作好，需要更有经验的人。

涂存超曾参与过人工智能所开源分词工具的开发，「知道怎么去做一个分词工具，怎么去改进一个分词工具，和只会直接用一个开源分词工具，效果是有区别的。」张天扬说。

算法、法律知识图谱方面，也是如此。

「刘知远教授是做知识图谱的，我对知识图谱也算比较了解。」涂存超说。在他看来，并不是谁先花了很多资源构建出这个东西，谁就能获得先发优势。关键仍在于，谁能构建出一个真正在算法上可用并能提升效果的法律知识图谱。

在他们看来，法律人主导的 AI 创业公司也会存在一些不足。

「他们对技术的理解，与真正做 NLP 的人的理解，可能完全不一样。」张天扬说。

幂律考虑的是什么样的算法能帮助这个领域提升工具效力，然后才考虑将它设计成一个很好的产品，但有一些竞争对手考虑更多的可能是寻找一个新的卖点，把东西卖出去，但产品里面甚至没有真正算法部分。

四、什么样的产品进阶之路？

现阶段的人工智能，更多扮演着赋能行业的角色。

许多法律AI初创公司的初衷，都是想让技术惠及 C 端客户，但最终落地时几乎都选择了服务 B 端，比如，法院、公司法务部门和律所。

相较于 C 端，B 端用户既保证了需求的体量与频次，对产品价格也不会特别敏感。

幂律也表达了类似的规划，「短期来看，无论数据条件、市场盈利模式、还是技术方面，短期内都做不到（C 端）。所以，我们先为律所甚至法官、检察官等从业者提供一个自然语言检索工具。」张天扬说，

「他们的需求比较高频，尤其是初级律师，检索的质量和效率都是瓶颈，所以，第一阶段比较明确要做的，就是这个自然语言检索平台。」

虽然这意味着，他们第一阶段的产品会和北大法宝，无讼等以案例为主的检索很相似，「但是，我们可能提供的功能会更强大。」张天扬说。

不过，在通用技术上进行必要的积累、提供一些突破之后，幂律会考虑将基础性技术应用到具体细分方向。长期来看，幂律仍然希望能够打造一个能够面向 2C 的更通用的法律智能（平台），降低普通人享受法律服务的门槛。

五、怎样的决心？

对涂存超来说，过去一年让他印象最深刻的体验是法律人和人工智能研究人员之间的那段「最远距离」。

无论是研究还是产品，他们都深深感受到了横梗在专业之间的知识壁垒。

比如，类案匹配引擎研究中，大家对什么是类案的理解完全不同。

「不光是法律知识对我们来说的一个壁垒，就连他们觉得什么样的案子是相似的，我也完全不知道。」而另一方面，法律人士对于技术该怎么解决这个问题，也完全没有概念。

「双方之间存在的这种知识壁垒，包括交流成本都非常高。」涂存超说。

其实，涂存超的体验几乎是这个领域所有从业者的共鸣。但只要我们回顾一下，法律本科生没有高数要求，理工科本科学生仅在政治课中感受过法律，就不难理解这个交叉领域里的巴别塔现象了。

尽管如此，他们仍然反复强调，幂律打算长期做这个事情，虽然创业仍然不是当下人工智能博士们的主流选择。

当身边有些同学拿到 80 多万年薪的 Offer 时，涂存超和张天扬却告诉我们，在求职季里，他们一份简历都没有投，因为当时已经决定创业，虽然还没拿到任何投资。

即使在敲定投资人方面，他们更多的还是考虑投资人与公司的优势互补与业务发展。

「无论是我们还是投资人和业界朋友，他们都看好这个领域的前景。」张天扬说。

采访接近结束时，我看到在还来不及收拾整理的会议室的黑板上，赫然写着法律人再熟悉不过的三段论，团队最近还学习了犯罪四要件和三阶层。

「目前为止，我们没有遇到过任何一家公司，他们已经有非常好的项目经理来处理技术和法律两方面的问题。」我突然想到 IBM Watson Legal 的联合创始人、首席专家 Brian Kuhn 在一年前曾分享过的一个观察。

一个成功的法律AI创业团队，至少有能力将世界上「最远距离」的两种思维比较好地结合起来。

征途，才刚刚开始。