参加 Meet 35 大会,请点击↑
文字作为一种极其高效的信息传达方式,它有着数千年的历史和传统。随着信息的概念逐渐普世化,于是人们开始使用机器来理解文字,从而实现更高效的文字工作。这种技术被称之为自然语言处理,它有两种分类:基于文本的应用和基于对话的应用。
基于对话的应用是指在预先的知识库中搜索用户问题的答案,比如这群AI黄埔老兵们的创业公司,要搞出一套“任性”的AI导购技术丨源创专栏一文所介绍的。基于文本的应用则是通过对文库的解读,进行提取文章关键信息、翻译成另外一种语言、把文章归类等操作。
本期的主角便是一家研发这种技术的公司——深度好奇。
什么是深度好奇?
从模式上来讲,深度好奇其实非常好理解,通过该企业的自然语言处理与文字相关的行业相结合,从而让客户企业达到更高效的业务效率。不过从技术上来讲,深度好奇就变得异常难理解了,非常像是通用人工智能技术的理念。
深度好奇创始人吕正东称这种技术为神经符号系统,利用符号智能和深度学习结合所产生的新框架,可以用来理解复杂文本。
传统的符号系统被称之为单一符号系统,也被叫做传统知识求精系统,典型的如SEEK/SEEK2、EITHER\NEITHER。这项技术虽然可以简化知识库,早在 1995 年的时候,浙江大学生物医学研究所的王继成、吕维雪等人就在利用神经符号系统来让机器理解心电图。但是传统的符号系统效率和容错能力都很低,因此并没有得到良好的发展。而神经网络可以实现大规模的并行运算,因此把符号系统与之结合,就能得到超高的效率和容错能力。
所谓理解复杂文本,指的就是其字面意义。诸如法律诉讼、行业报告,甚至更原始的文本。目前,深度好奇已经把这项技术适用在了法律、公安和金融这三个领域之中。该企业有一项业务是生成法院判决文书,非常具有代表性。
深度好奇利用神经符号系统,把案情梳理、判决意见等文本进行理解,最后生成合乎标准的判决文书。吕正东告诉 DT 君:“在阅读这些原始文本中,机器会去判断,哪些可以直接复制粘贴以及哪些需要重新编写。就像记者写文章,要有素材也要有主编的修改意见。”
图丨深度好奇的办公室(来源:DT君)
深度好奇最早接触的行业便是法律,当时吕正东的想法是合作以及解决办法的销售。随着企业的发展,他改变了策略,深度好奇开始将被动转向主动,即把行业资源拉入自己的业务之中。吕正东说:“早期的深度好奇是把方案给客户,然后客户做成产品拿去卖钱。”
吕正东接着强调,在公安方面其实深度好奇的业务空间是很大的。从报案开始,信息会以非结构化的数据形式录入到公安系统当中,比如笔录、证词等等。在这些文字中,会出现很多的关键信息,不过文本本身还是比较混乱,如果与嫌疑人、受害人结构化信息(如身份证号)相匹配时,并不易于查询。
深度好奇则是利用神经符号系统,把这些关键信息进行知识梳理,将其简化以方便后续过程中的查询。同时该企业还能进一步匹配信息,不同案情的属性如果相似,就会相互连接,从而让查案更高效。
吕正东认为,自然语言处理的发展方向就是理解。把知识从文本中提取,并归纳总结,最后便简化了阅读的过程。但是这种归纳总结和搜索引擎所使用的关键字提取有着截然不同的区别,简单的匹配技术对于文本的知识提取来说,远远是不够的。以中文为例,“佟大为老婆生下女婴”,在搜索引擎的算法中,这极有可能是一位英雄父亲为减少妻子分娩痛苦而做出的改变,然而事实上,是佟大为的老婆生下了女婴。
实际上,做中文的自然语言处理是非常难的,中文词与词之间不存在分隔符,词本身也缺乏明显的形态标记。因此,中文信息处理的特有问题就是如何将汉字的字串分割为合理的词语序列,也就是汉语分词。自然语言处理本身就要考虑语法、语义和语用,再加上分词,复杂语言的处理过程就是难上加难了。
谁组成了深度好奇?
在创业之前,吕正东博士曾任职于微软亚洲研究院、华为诺亚方舟实验室。按照他本身的说法,吕正东早期从事的是比较泛用的机器学习。但是他并没有那么热爱实验室那种每年发表几篇论文的感觉,吕正东更喜欢创一番事业。
吕正东很崇拜谷歌,也很喜欢 DeepMind。抛开后者资本驱动的一方面,DeepMind 是在朝着其研发的方向而前进,即研究人脑的计算方式反哺人工智能以及强化学习等。
不过,吕正东也不想让自己的公司变成 DeepMind,他觉得这家公司太过于方法导向,以至于很难在某一个领域成为标杆。他希望能让企业达到 DeepMind 的高度,而不是变成这么一家发散型的科技公司。
吕正东的想法是把聪明的人攒在一块,在某一个领域取得突破,于是就有了深度好奇。
图丨充满文艺气息的吕正东(来源:深度好奇官网)
在自然语言处理领域,许多人认为 Facebook 其实也是领军人物,但吕正东却持相反意见。他认为,Facebook 的闲聊机器人也不过是停留在自然语言处理的初级阶段,并没有真正理解文本。吕正东更进一步表示,现在行业变现难,最根本的原因就是技术没有过关。
“虽然他们是小学生,其实我们在自然语言处理也只能算是个中学生。”吕正东自嘲道:“我想推动行业的边界。就像是人脸识别,那个行业并不是因为什么人脸识别才得到发展,而是有了 ImageNet 那样的数据库。”
吕正东没少在 arxiv 上发论文,比如 2014 年发表的《A Parallel and EfficientAlgorithm for Learning to Match》。截止至今,该论文已经被应用了数百次。这是一篇在语义匹配领域奠基性的论文,大多数做语义匹配的科技公司都会用到其中的方法。
虽然吕正东是深度好奇的创始人,不过他并不是 CEO,而是 CTO。深度好奇的三位创始人都是 70 后,也都是在计算机领域发展多年的自身专家。
通用型自然语言处理会有多大市场?
通用型技术的最大特点就是市场大,深度好奇光是在法律方面,就已经有三种细分客户:消费者、律师事务所、法院。事实上,想要搞清这家公司所面对的市场,就需要了解“语言”的市场。
先从消费者端来说,神经符号系统和搜索引擎的匹配度是十分高的。2004 年到 2006 年期间,搜索引擎的爆火推动了整个文本相关的计算机信息技术研究工作。生活在当下的我们,可以明显感觉到搜索引擎已经很难满足人们获取信息的需求。
在网络环境下,面对的多是用户不同的检索需求和表达不严格的信息需求。而面对相同的查询,可能因为用户的信息需求不同,或同一用户不同时间的需求不同,产生了对同样结果的不满意。
除了考虑采用更紧凑的数据结构和高效的算法外,自然语言处理可以起到至关重要的作用。在上文中提到,深度好奇有一项业务可以对知识库进行简化和归类,方便人和机器的查询。在搜索引擎中,这是一种文本预处理技术,它可以对结果进行分类,面对用户简单而充满歧义的检索需求时,就能直接在相应的类别中查找,省去了用户二次筛选的麻烦。
相当于在文档结构中进行分段管理,按用户可能需求的文本类别返回用户,提高了针对性就意味着提高了效率。假设用户搜索的关键词是“微软”,那么他有可能是财经媒体,想要查看微软财报,也有可能是想和小冰聊天。如果能够用技术把不同类别的信息进行归纳,那么用户只需要在类别中查找他想要的信息就可以了。
其次,用户的兴趣可能不在于“查询”,而是在“浏览”,以获取某个领域中他们想要的知识。现实中这样的用户大有人在,但是他们在搜索中往往只会给出模糊且简单的关键字。那么,利用自然语言处理技术将网页预分类,用户就可以顺着这样的目录层次找下去,逐步被引导至所需要的信息领域。
Yahoo!的层次目录就是最好的例子,与之类似的还有 Open Directory Project。不过这些还不够好,经常出现错误引导。比如,搜索“锚草论”,无论怎么点选都离不开乙肝和花锚草,永远无法跳转到魔兽世界 8.0 中草药学锚草 2 级采集的任务物品中。
这是因为传统的层次目录没有对文本信息进行理解,只是把关键词以及其周边进行了匹配,造成了一种“看似相关”的假象。
如果从吕正东所推动的“神经符号系统”来看,那这个市场就更大了。举个例子,这项技术可以被用来做个人贷款审批。神经符号系统可以通过贷款人工作状况、购买物品、性别、婚姻状况、是否处于问题地区、账户存款余额等训练数据,就能得出其是否有还款能力的结果。
深度好奇有一家子公司,叫做深融科技。从事的就是普惠金融、保险等业务,这家公司就像吕正东强调的那样,把被动变成了主动。
神经符号系统是片蓝海?
科技公司是把技术变现的重要手段,人工智能这项技术虽然仍处于起步阶段,但是投资者早就开始瞄准“AI+X”了。这是因为人工智能的基础研究者们非常多,大量的算法充斥着市场,使得创业者们必须想方设法地找到“X”,才能把技术落地。
放眼全球,截止至今天已经出现了不少神经符号系统的研究者。Van 提出了一种如何将模糊规则输入神经网络的方法,从而为进一步的知识表示和知识求精做准备;Tsang 等人提出了一种新的模糊规则表示方法(FPRs),每条模糊规则都有两种权重——局部权重和全局权重,再去利用不同的权重获取知识。
然而,国内的研究现状却远不如国外,从 1997 年至今,关键字为“神经符号”或者是“符号神经”的论文少之又少。因此,把这项技术变现的公司就更少了。
但是需要注意,独特不一定好用。任何一项好的技术,它存在的前提就是要经历市场的考验,深度好奇也不例外。虽然吕正东的研究工作从很久前就开始了,但是这家公司仅成立不到一年。
吕正东表示,“虽然我们刚完成了天使轮融资,但是今年开始已经陆续有收入了。”
乐天派的创始人
深度好奇在先前已完成的天使轮融资金额为 1000 万元人民币,目前正在寻求 A 轮融资,数额约为 6000 万到 1 亿元人民币。
据鲸准平台的数据显示,在自然语言处理相关的创业公司中,2017 年 9 月一共有 24 个投资项目,但今年迄今却仅有 11 项,整体来看是处于下滑趋势的。这类创业公司中,有超过 40% 的企业处于种子轮或天使轮,而完成 Pre-A 和 A 轮融资的则占 30%。
自然语言处理类创业公司有一个特点,就是成立时间大多在 2016 年,占比 18.95%。2015 年和 2017 年总和约为 20%。从人工智能这个大类来看,2015 年、2016 年、2017 年成立的创业公司是相对平均的,均为 15% 左右。
整个人工智能版块的趋势相对平稳,不像自然语言处理类这样存在明显的下滑。这可能是一个风向,代表着投资者对后者的看法。这其实很好的呼应了吕正东说过的话:“不是应用不行,而是技术没达标。”
值得注意的是,在国内的融资列表中,做复杂语言理解的创业公司确实不多,而国外相关公司的状况,又难与国內的创业公司类比。或许真像吕正东希望的那样,他们能够突破自然语言处理的边界,在技术上达到 DeepMind 的高度。每一个科研工作者都有着一个造梦的心,这位乐天派的创始人也不例外。
-End-
源创专栏介绍:
社会的发展离不开科技,这个理念是无数莘莘学子努力钻研科学技术的动力源泉。为了回馈于社会,他们把获得的研究成果发展成产品,或许是解决方案,亦或是硬件,这便是所谓的技术转化商用。
不过做企业和实验室搞科研是根本上的两码事,前者更需要的是渠道以及市场。自从人类发明了交易,流通终究是资本逐利的游戏。纵使是再高端的技术,若经受不住市场的冲刷洗礼,依然在劫难逃。
DeepTech 深科技作为一家从科学到科技,从科技到产业的内容知识服务提供者,我们执着于最先进的技术,同时也愿意为这些高新技术型创业公司铺路。通过深入企业内部,让市场以及大众来了解企业如何塑造出这些技术。这种创业公司的报道也致力于服务投资者,给予他们新鲜的投资方向。除此之外,我们也希望一些想要创业,或者正在创业却找不清方向的高新技术人士能够在阅读他人创业的过程中得到启发,早日步入正轨。
我们会报道怎样的企业?
基于创业这个特点,DeepTech 深科技会报道处于早期的创业公司,大约是在种子轮到 A+轮之间。这样的筛选范围是为了保证报道能够更加有可读性,一些融完了 B 轮、C 轮的企业,他们往往已经找到了自身的发展方向,相关的报道只能起到点缀的作用,并不能帮上什么大忙。
相反的,对于刚开始创业的人来说,如果能够起到作用,帮助资本与市场了解认知这些高新创业公司,那将是我们莫大的光荣。
我们会怎样报道?
一篇合格的创业报道,理应写清这家公司所在做的具体项目以及创始团队的背景,就好像一份缩减版的招股书。因此我们需要对这家企业的创始人进行专访,以便获取优质的独家素材。
在这之后,我们也会给出独立的观点,比如如何评价这家公司的业务以及模式,它是否符合当下的市场需求等等。报道并不完全等于打广告,这其中的差别在于媒体要保持一种客观的态度,这也是 DeepTech 深科技所坚持的立场作法。
当然这还不算完,上文提到,这是一篇同时服务于创业者以及投资者的系列,因此我们会对这家创业公司所处的领域进行分析,例如该行业目前的资本状况如何,是否欢迎新玩家登陆等等。
最后,当此系列所处同一领域的企业积攒了一定数量时,我们会制作“总集篇”。回顾这些公司,看看他们的经营状况如何,以及这些创业者是否还保持着那份冲动的初心。
根据目前规划,“源创---鸿绎智库DeepTech 投创集”专栏将自即日起,每两周刊出一期。
怎样联系我们?
正如读者们往常看到的一样,DT 君无所不通,也无所不及。如果你是一位正在初期的高新技术创业者,那么无论是什么行业,无论身处何方,我们都十分欢迎。
动动你的手指,将你的创业公司简介、创始团队简介以及联系方式发给我们,你就会在不久后收到我们的回复。
联系邮箱:zhuanlan@mittrchina.com 联系 qq:2580746822