【知识图谱】深度分析金融知识图谱创业:需从“数据”竞争跨向“技术”竞争

2018 年 5 月 19 日 产业智能官

雷锋网AI金融评论按:什么是知识图谱?简单的说,知识图谱是信息(实体)本身以及信息(实体)之间的关联,是计算机实现智能的基础。知识图谱之于计算机,就好比知识之于人类,而金融行业的特点决定了其对金融知识图谱的刚性需求。此文为整理业内专业人士观点分享。

深度分析金融知识图谱创业:需从“数据”竞争跨向“技术”竞争

人类天生擅长将信息进行分类、关联,但并不擅长记忆、处理海量碎片化的信息,但计算机可以。所以当前越来越多的AI创业公司开始致力于攻克构建知识图谱的底层技术。

不同于拥有大量C端数据的BAT,该领域的创业公司往往从垂直领域的企业级服务切入。目前在国内,金融、法律、医疗、智能客服、安防等行业都已经有了致力于该领域知识图谱构建的AI创业公司,但金融行业由于其行业特点将成为该领域创业最大的蓝海。

图1:知识图谱的构建与应用

半自动化构建知识图谱的代表 数据供应商面临三大痛点

金融行业的特点决定了其对金融知识图谱的刚性需求。

首先,金融行业拥有海量的包含各行各业的数据信息,而且这些信息又以各种形式(如文字、表格、图形等)存储在大量的文档上,这些都是非标准化、碎片化的信息,需要被整理成标准化的、相关联的金融知识图谱,才便于金融从业者使用。

其次,金融行业的公开文档具有一定的法律效应,故对于数据的精确性、时效性有很高的要求。

目前,整理这些数据的工作主要还是由金融数据供应商来完成的。

而其中的明星级代表就是万得(Wind)。它所采用的是数据爬虫技术,从公开渠道第一时间获得企业工商信息、财务报告等数据,再由大量人工进行整理和分类,以“人力模式”结构化这些信息,再通过万得终端提供给金融从业者使用。万得作为当前最大的金融数据拥有者,通过多年在金融行业中的经营与积累,拥有了丰富的金融知识图谱数据以及大量的金融客户,但其知识图谱的构建却是半自动的过程,仍需要人工操作。

这种模式现在看起来似乎没什么问题,但其中存在三个最大的痛点:

  • 第一,数据供应商不能够“实时、敏捷”地提供金融知识图谱。由于半自动化的知识图谱构建技术,需要人工将金融文档中的信息提取出来,快则数小时,慢则好几天,还容易出错。这就无法满足一些对准确性、及时性、无人工等有高要求的应用场景,比如金融监管、机密文档复核、内部审计等。

  • 第二,数据供应商所拥有的知识图谱仅包含了公开数据,大量机密的、内部的、更为重要的数据不能被外部数据供应商整理成知识图谱。

  • 第三,人工无法整理所有数据。以万得为例,由于受到人工能力限制,其整理的数据仅包含资产负债表、利润表、现金流量表中的主要数据,无法提炼出企业报告中其余上百个表格数据以及隐藏在大量自然文本段落中的信息,而这些信息正是深入分析该企业的业务和财务状况的底层数据。

简而言之,以万得为代表的数据供应商还不具备实时、全面地“构建知识图谱”的能力和技术,出售的仍然是数据本身。

所以,面向企业级服务的AI创业公司都致力于能够全自动化的构建金融知识图谱,解决上述三大痛点。但是目前该市场还是处于需求大大高过供给的情况,这或许是由于全自动构建知识图谱的这项底层技术实际上在学术界都是一个难点。

全自动化构建知识图谱的核心技术是NLP与CV的融合

人们在阅读金融文档的时候,对其中的自然段落、图表中的信息在很短的时间内便能理解其中的意思,但对于计算机来说,这中间还有几个转换步骤。

图2:全自动化构建知识图谱的过程

首先,当计算机看到一份金融文档的扫描图片时,看到的仅仅是图片中所有光点所呈现的数字矩阵;然后,通过OCR(Optical Character Recognition,光学字符识别)技术,将庞大的数字矩阵转换成包含字符以及字符的位置信息的矢量文档,比如金融行业最常见的PDF格式的文档就是矢量化的文档。但是,在此阶段,计算机看到的仅仅是一个一个的文字以及该文字的位置,并不能知道哪些字符组成了主语,哪些字符是谓语动词,哪些数字是关键信息,文档的哪些部分是表格。

接下来,需要让计算机将这些零散的单个字符组合成金融知识图谱,这就需要用到富格式文档(Richly Formatted Data)处理技术。在这个阶段,就是计算机将零散的字符提炼成信息的阶段,也是技术上的难点。因为各类披露的金融文档呈现为富格式文本的形式,包含篇章结构、文字段落、数据表格等各类形式,而计算机对于不同形式的文本需要使用不同的处理技术;同时不同渠道获得的金融文档内容还可能出现不一致的地方,这还需要AI模型能够分辨矛盾数据、噪音数据。

所以,想要将这些文档上的字符归纳提炼成为标准化的、相关联的、准确的信息,需要AI领域中的自然语言处理(NLP)技术与计算机视觉深度(CV)的技术的融合。

也就是说,在全自动构成知识图谱的过程中,真正的难点在于计算机如何从含有复杂格式的大量资料中,快速地“理解”、“读懂”人类语言,甚至是对经过复杂演算的数据结果进行“纠错”。攻破这些技术难点的创业公司就将拥有核心的“技术”竞争力,也就是说它们将不再出售数据本身,而是出售“构建数据”这项技术。而各家创业公司的技术硬实力,将会成为其占领该领域的真正壁垒。

全自动构建金融知识图谱将使金融机构提升运营效率、节约合规成本

当全自动构建知识图谱的技术开始真正渗透到金融机构中,金融行业才能真正实现智能化的飞跃,大幅提升行业运营效率。

图3:全自动构建知识图谱在金融机构及金融监管场景的应用

一方面,如果全自动构建金融知识图谱的数据的技术私有化部署在公司内部,则内部机密数据的标准化整理、识别、关联、分析将能够被计算机替代。其应用场景可以涵盖从内部繁复的文档整理复核工作到内部合规审核。数据显示,中国证监会仅在2017年就作出行政处罚决定224件,罚没款金额74.79亿元,同比增长74.74%;而因为其他原因出现了细微错误的财务报告也会让企业成为媒体和公众讨伐的对象。如果企业能将合规的审核交给计算机,则企业内部为繁琐文档工作付出的人力成本、为合规处罚付出的经济成本等等,都将被节省下来。

再就是即便对已公开的金融文档,全自动构建知识图谱的技术也将能够使企业大大缩短获得关键信息的时间。如果是运用外部的数据供应商,从企业年报PDF上网公开,到万得(Wind)的财报数据入库,快则需要几个小时,慢则需要数天。但金融行业一直是分秒都很“贵”的地方,如果能通过全自动知识图谱构建技术让财报数据在2分钟之内即可被金融从业者获取及应用,无疑将大大提高金融机构内部的运营效率。

与此同时,外部数据供应商提供的财报数据往往仅包含资产负债表、利润表、现金流量表里的主要数据信息,无法提炼出隐藏在几百页企业报告中深入分析该企业的业务和财务状况的底层数据,但这些信息却可以被计算机自动提取。金融行业从业者将能够获得更加全面、精准的信息。

知识图谱的应用将助力金融监管,监管科技市场前景广阔

另一方面,对金融监管机构而言,基于其特殊性质,对于外部服务商的介入会更加谨慎。而通过私有化部署全自动构建知识图谱技术服务,利用内部闭环程序操作,就可以在尽可能提高数据的保密等级,减少人工直接参与的情况下,及时获得最全面、最精准的标准化大数据。

同时,防范系统性金融风险一直是我国金融监管的重中之重。通过构建跨行业、跨机构的金融知识图谱,获得标准化的、准确无误的、及时透明的以及数量巨大的基础数据或信息,才能让人工智能在海量的数据和信息中主动识别和预测风险,对分散的数据进行综合分析以得出行为模式,这将是帮助监管机构防范系统性金融风险最为有效的金融科技。

随着中国银保监会的正式挂牌,中国金融监管进入“一委一行两会”的格局。统一化监管、整体化监管、穿透化监管将成为未来金融监管的主基调,大量跨行业、跨机构的数据将被打通,构建金融知识图谱的技术将成为市场刚需,成为监管科技的重点应用之一。

目前,全球的监管科技市场正处于一个上升阶段,根据市场调研公司Let's talkpayment预计,到2020年,全球范围内监管科技的市场规模将超过1000亿美元。中国也将在这一领域迎来广阔的市场。

基于此,冲破拥有金融大数据的数据服务商所构建的商业壁垒,在技术层面已经实现,金融知识图谱的市场竞争也正在从“数据”竞争跨向“技术”竞争的新时代,技术本身才是创业公司的壁垒。拥有核心技术,金融数据本身并不是不可替代。



AI虚拟偶像:知识图谱赋予AI“生命感”

人工智能学家 

来源:脑极体


AI是个非常有趣的词,不管是中文翻译的,还是英文的Artificial Intelligence,都有“生物性”的含义。一个是集结了地球顶尖智慧的“人工”,另一个Intelligence则专指生物拥有的智慧。


不过在当今的AI风潮中,我们提到的种种AI应用大多属于机器学习——和生物性不沾边。AI可以从大量数据中寻找规律,经过训练完成种种工作,可给人的感觉依旧是一种更高效的机械。


语音助手可以听懂你需要播放音乐、叫车出行,也能在你要求下讲个笑话。可除了下达指令和获得反馈以外,语音助手很少能理解情绪、记忆、俚语、双关等等人与人交流时经常出现的元素,作为工具来讲尚且不算优秀,更别提什么生物性和人格化了。


丨除了把工具变成更好的工具,知识图谱还能做些什么?


之前我们在文章中,讨论过一个“人工智能不会看漫画”的问题,既利用大量四格漫画对神经网络进行训练,但将四格漫画中的对话框挖空后,人工智能依然不知道应该填入哪些内容。


原因在于漫画中的画面和文字并非具有严格的对应性,人类能看懂漫画是因为建立在对现实世界的理解之上,通过联想将文字与图片的内涵建立对应关系。知识图谱的作用,就是将不同的知识相互关联,并形成一个网状的知识结构,帮助人工智能增强认知、理解行业并且建立“世界观”。


丨认识自己,认识你:探访AI偶像的生命引擎


在上一篇关于Gowild产品“琥珀虚颜”的介绍中,我们提到了“未来偶像”这一概念。琥珀是以全息3D主机HoloEra为载体的虚拟形象,用户可以通过语音和手机App与琥珀进行交互。而琥珀自身的背景故事是一位无意降落地球的外星偶像,正向着成为“偶像”的道路进发。


所谓偶像,自然是人格化、有生命感的,这也是琥珀虚颜的主打卖点之一。Gowild曾经在一篇论文中提出过“虚拟生命”这一概念——有记忆、有情绪、能理解、能交互。想要实现这几点,依然离不开知识图谱的加持。



上图是Gowild提出的人工智能生命引擎(GAVE),把语义理解、QA系统、智能对话等等技术组件架构在了知识图谱之上,而知识图谱则是给予AI“生命感”的重要工具。


比较典型的是Gowild为琥珀建立了她自己的个人知识图谱,琥珀有自己的喜好和性格特点,喜欢紫色、爱吃葡萄、喜欢听别人的表扬。当用户和琥珀进行对话时,琥珀就会展露出这些性格特点,用户提到“紫色”、“葡萄”等等琥珀喜欢的东西时,会得到相关的反馈。


丨垂直化+动态化,或许能帮助知识图谱走入生活


邵浩博士表示,知识图谱的发展之所以相比深度学习、神经网络较慢,是因为知识图谱的建立过程非常复杂:将非结构化数据转变成结构化数据已经是一项繁重的工作,还需要建立数据之间的对应关系。如何保证知识的权威性,更需要技术专家和学术专家一同跨领域合作。


何况知也无涯,人类世界的知识实在太过细致庞杂,建立知识图谱需要耗费的时间和人力成本实在太高。在1984年,美国曾经启动过一项名为Cyc的工程,试图把人类世界的日常常识建立起一个适用于计算机的大型知识库,结果显而易见——四十多年了,这项工程还是没有完成。知识图谱的费劲程度,可能就和Cyc有的一拼。


Gowild的解决方案,其实已经展示了知识图谱的两个发展趋势。


第一个趋势是知识图谱的垂直化。建立一个大而全的知识图谱自然是不可能完成的任务,但将知识图谱分割成细分领域,如医疗、金融、安防,甚至更细分到某一种疾病、某一种货币等等,可以极大的降低知识图谱的建立成本,同时促进知识图谱的快速投入使用。


第二个趋势是知识图谱的动态化。琥珀之所以有“记忆”,是因为用户关系的知识图谱会源源不断的补充着用户在交互时透露的信息,因而逐渐让用户画像更加圆满。随着我们数据挖掘的能力越来越强,在流数据场景下储存和查询知识图谱正在成为可能。或许在未来不光琥珀能够“记住”你,冰箱、电视、洗衣机等等生活中的一切设备也可以通过类似的方式建立对用户的记忆和理解。


当然,问题并不只有一种解决方式。想要制造出有生命感的人工智能,知识图谱只是可以利用上的技术之一。而让人工智能具有生命感也仅仅是一段路程,路程的终点还是让更强大技术改变的我们的世界。


到最后,这些不同的技术路径还是要在顶点相见。




人工智能赛博物理操作系统

AI-CPS OS

人工智能赛博物理操作系统新一代技术+商业操作系统“AI-CPS OS:云计算+大数据+物联网+区块链+人工智能)分支用来的今天,企业领导者必须了解如何将“技术”全面渗入整个公司、产品等“商业”场景中,利用AI-CPS OS形成数字化+智能化力量,实现行业的重新布局、企业的重新构建和自我的焕然新生。


AI-CPS OS的真正价值并不来自构成技术或功能,而是要以一种传递独特竞争优势的方式将自动化+信息化、智造+产品+服务数据+分析一体化,这种整合方式能够释放新的业务和运营模式。如果不能实现跨功能的更大规模融合,没有颠覆现状的意愿,这些将不可能实现。


领导者无法依靠某种单一战略方法来应对多维度的数字化变革。面对新一代技术+商业操作系统AI-CPS OS颠覆性的数字化+智能化力量,领导者必须在行业、企业与个人这三个层面都保持领先地位:

  1. 重新行业布局:你的世界观要怎样改变才算足够?你必须对行业典范进行怎样的反思?

  2. 重新构建企业:你的企业需要做出什么样的变化?你准备如何重新定义你的公司?

  3. 重新打造自己:你需要成为怎样的人?要重塑自己并在数字化+智能化时代保有领先地位,你必须如何去做?

AI-CPS OS是数字化智能化创新平台,设计思路是将大数据、物联网、区块链和人工智能等无缝整合在云端,可以帮助企业将创新成果融入自身业务体系,实现各个前沿技术在云端的优势协同。AI-CPS OS形成的字化+智能化力量与行业、企业及个人三个层面的交叉,形成了领导力模式,使数字化融入到领导者所在企业与领导方式的核心位置:

  1. 精细种力量能够使人在更加真实、细致的层面观察与感知现实世界和数字化世界正在发生的一切,进而理解和更加精细地进行产品个性化控制、微观业务场景事件和结果控制。

  2. 智能:模型随着时间(数据)的变化而变化,整个系统就具备了智能(自学习)的能力。

  3. 高效:企业需要建立实时或者准实时的数据采集传输、模型预测和响应决策能力,这样智能就从批量性、阶段性的行为变成一个可以实时触达的行为。

  4. 不确定性:数字化变更颠覆和改变了领导者曾经仰仗的思维方式、结构和实践经验,其结果就是形成了复合不确定性这种颠覆性力量。主要的不确定性蕴含于三个领域:技术、文化、制度。

  5. 边界模糊:数字世界与现实世界的不断融合成CPS不仅让人们所知行业的核心产品、经济学定理和可能性都产生了变化,还模糊了不同行业间的界限。这种效应正在向生态系统、企业、客户、产品快速蔓延。

AI-CPS OS形成的数字化+智能化力量通过三个方式激发经济增长:

  1. 创造虚拟劳动力,承担需要适应性和敏捷性的复杂任务,即“智能自动化”,以区别于传统的自动化解决方案;

  2. 对现有劳动力和实物资产进行有利的补充和提升,提高资本效率

  3. 人工智能的普及,将推动多行业的相关创新,开辟崭新的经济增长空间


给决策制定者和商业领袖的建议:

  1. 超越自动化,开启新创新模式:利用具有自主学习和自我控制能力的动态机器智能,为企业创造新商机;

  2. 迎接新一代信息技术,迎接人工智能:无缝整合人类智慧与机器智能,重新

    评估未来的知识和技能类型;

  3. 制定道德规范:切实为人工智能生态系统制定道德准则,并在智能机器的开

    发过程中确定更加明晰的标准和最佳实践;

  4. 重视再分配效应:对人工智能可能带来的冲击做好准备,制定战略帮助面临

    较高失业风险的人群;

  5. 开发数字化+智能化企业所需新能力:员工团队需要积极掌握判断、沟通及想象力和创造力等人类所特有的重要能力。对于中国企业来说,创造兼具包容性和多样性的文化也非常重要。


子曰:“君子和而不同,小人同而不和。”  《论语·子路》云计算、大数据、物联网、区块链和 人工智能,像君子一般融合,一起体现科技就是生产力。


如果说上一次哥伦布地理大发现,拓展的是人类的物理空间。那么这一次地理大发现,拓展的就是人们的数字空间。在数学空间,建立新的商业文明,从而发现新的创富模式,为人类社会带来新的财富空间。云计算,大数据、物联网和区块链,是进入这个数字空间的船,而人工智能就是那船上的帆,哥伦布之帆!


新一代技术+商业的人工智能赛博物理操作系统AI-CPS OS作为新一轮产业变革的核心驱动力,将进一步释放历次科技革命和产业变革积蓄的巨大能量,并创造新的强大引擎。重构生产、分配、交换、消费等经济活动各环节,形成从宏观到微观各领域的智能化新需求,催生新技术、新产品、新产业、新业态、新模式。引发经济结构重大变革,深刻改变人类生产生活方式和思维模式,实现社会生产力的整体跃升。



产业智能官  AI-CPS


用“人工智能赛博物理操作系统新一代技术+商业操作系统“AI-CPS OS”:云计算+大数据+物联网+区块链+人工智能)在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的认知计算和机器智能;实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链


长按上方二维码关注微信公众号: AI-CPS,更多信息回复:


新技术“云计算”、“大数据”、“物联网”、“区块链”、“人工智能新产业:智能制造”、智能金融”、“智能零售”、“智能驾驶”、智能城市新模式:“财富空间“工业互联网”、“数据科学家”、“赛博物理系统CPS”、“供应链金融”




本文系“产业智能官”(公众号ID:AI-CPS)收集整理,转载请注明出处!



版权声明产业智能官(公众号ID:AI-CPS推荐的文章,除非确实无法确认,我们都会注明作者和来源。部分文章推送时未能与原作者取得联系。若涉及版权问题,烦请原作者联系我们,与您共同协商解决。联系、投稿邮箱:erp_vip@hotmail.com





登录查看更多
3

相关内容

2020年中国《知识图谱》行业研究报告,45页ppt
专知会员服务
239+阅读 · 2020年4月18日
【综述】金融领域中的深度学习,附52页论文下载
专知会员服务
163+阅读 · 2020年2月27日
KGCN:使用TensorFlow进行知识图谱的机器学习
专知会员服务
81+阅读 · 2020年1月13日
【德勤】中国人工智能产业白皮书,68页pdf
专知会员服务
301+阅读 · 2019年12月23日
中文知识图谱构建技术以及应用的综述
专知会员服务
312+阅读 · 2019年10月19日
医疗知识图谱构建与应用
专知会员服务
384+阅读 · 2019年9月25日
如何构建行业知识图谱(以医疗行业为例)
知识图谱的行业落地实现
竹间智能Emotibot
51+阅读 · 2019年9月16日
领域应用 | NLP 和知识图谱:金融科技领域的“双子星”
开放知识图谱
21+阅读 · 2018年8月12日
领域应用 | 知识图谱的技术与应用
开放知识图谱
17+阅读 · 2018年6月14日
【知识图谱】 一个有效的知识图谱是如何构建的?
产业智能官
57+阅读 · 2018年4月5日
刘志明 | 知识图谱及金融相关
开放知识图谱
13+阅读 · 2017年12月18日
你不得不看的六篇知识图谱落地好文
AI前线
29+阅读 · 2017年11月19日
Arxiv
20+阅读 · 2019年11月23日
A General and Adaptive Robust Loss Function
Arxiv
8+阅读 · 2018年11月5日
Arxiv
11+阅读 · 2018年9月28日
Arxiv
8+阅读 · 2018年1月25日
VIP会员
相关VIP内容
2020年中国《知识图谱》行业研究报告,45页ppt
专知会员服务
239+阅读 · 2020年4月18日
【综述】金融领域中的深度学习,附52页论文下载
专知会员服务
163+阅读 · 2020年2月27日
KGCN:使用TensorFlow进行知识图谱的机器学习
专知会员服务
81+阅读 · 2020年1月13日
【德勤】中国人工智能产业白皮书,68页pdf
专知会员服务
301+阅读 · 2019年12月23日
中文知识图谱构建技术以及应用的综述
专知会员服务
312+阅读 · 2019年10月19日
医疗知识图谱构建与应用
专知会员服务
384+阅读 · 2019年9月25日
相关资讯
如何构建行业知识图谱(以医疗行业为例)
知识图谱的行业落地实现
竹间智能Emotibot
51+阅读 · 2019年9月16日
领域应用 | NLP 和知识图谱:金融科技领域的“双子星”
开放知识图谱
21+阅读 · 2018年8月12日
领域应用 | 知识图谱的技术与应用
开放知识图谱
17+阅读 · 2018年6月14日
【知识图谱】 一个有效的知识图谱是如何构建的?
产业智能官
57+阅读 · 2018年4月5日
刘志明 | 知识图谱及金融相关
开放知识图谱
13+阅读 · 2017年12月18日
你不得不看的六篇知识图谱落地好文
AI前线
29+阅读 · 2017年11月19日
Top
微信扫码咨询专知VIP会员