2017年11月10日,由上海大数据联盟、数据猿主办,上海科睿联合主办的《构建智慧法院,促进司法职能——魔方大数据》在上海超级计算机中心举行。本站整理了四方伟业上海售前总监任鹏的发言实录
作者 | 任鹏
官网 | www.datayuan.cn
微信公众号ID | datayuancn
2017年11月10日,由上海大数据联盟、数据猿主办,上海科睿联合主办的《构建智慧法院,促进司法职能——魔方大数据》在上海超级计算机中心举行。本期魔方大数据邀请了法院代表和技术提供方等专家大咖齐聚一堂,共同探讨了智慧法院和司法系统智能化的建设之路。
以下是数据猿整理“四方伟业上海售前总监任鹏”的发言实录:
2013年是大数据元年,经过几年的发展,现在大数据已经上升到国家战略层面。各行各业都已经开始做大数据的相关工作。
针对司法大数据建设,客户希望我们通过大数据手段解决传统方法解决不了的问题,而这些问题主要集中在和数据有关的方面。即怎样通过数据的采集、整合、梳理、治理,把散落到各个业务系统中的数据进行融合,解决数据利用率低的问题,进行关联分析,数据挖掘的相关工作。
针对大数据在司法行业应用的目标,我们为客户提供了司法智库大数据中心的理念。进行前端可视化的呈现,使数据能够服务于法官判案、服务于领导决策,最后服务于院校科研。
大数据建设内容分为三个阶段:
第一阶段:把散落在各个系统中的数据进行梳理、转换、治理、清晰化,做简单的投机分析。
第二阶段:客户的想法是希望用大数据技术和手段,进行业务上的指导,同时进行辅助决策。
第三阶段:大数据平台的远期目标是希望通过数据化运营整个行业。针对个人或者业务分析师,终极目标是人人都能达到分析师的水平。通过大数据平台使用,发现数字背后的价值和意义。
以下是为司法行业建立大数据平台架构的架构图。这个架构图是按照数据产生的生命周期设计的。在下层是原系统数据层,里面有公检法司所有业务系统的数据和第三方来源数据。我们拿到数据以后第二个工作是采集。采集层的主要工作是实现异构数据源的整合。数据采好了后放到融合中心做简单的数据治理,帮助客户完成业务建立和数据清晰。数据层是针对客户业务层的需要,帮助客户建立分析主题和场景,确定主题库和所有纬度、指标,把结果应用到应用层来,对业务进行指导。
我介绍一下相关的功能和特点。
首先是数据采集层,数据采集层就是将散落到系统中的数据进行整合。我们公司的平台能够和市面上所有的常规数据进行对接,比如包括关系型数据库和非关系型数据库传统数据库,可以同时对接MPP等所有大数据平台。第三种数据,是一些关注度较高的实时数据,可以把传感器的数据、操作系统产生的日志进行采集,然后存放到数据中心。
针对司法行业的数据,我们这里做了简单的归类,司法数据包括结构化、非结构化和半结构化的数据。
针对结构化数据,我们将司法办案数据、政务管理数据等所有公检法司系统的数据放在关系型数据库中,将它定义为结构化数据。
非结构化数据是庭审文件、与案件相关的WORD文件等所有半结构化数据。最后一个是非结构化数据,包括庭审的视频、音频、PPF等。这三种结构化、半结构化、非结构化数据覆盖了司法行业所有的数据。我们数据采集层要做的就是实现多元异构数据的整合。
数据采集到数据中心的后,我们会把所有数据在可视化界面上进行简单呈现。之前做一个中级人民法院的项目时拿到的数据有10T。拿到数据后我们在下层进行数据流监控。每一个业务系统,每一个委办局的数据,都可以在这里面清晰呈现。同时也可以在数据底盘看到所有数据。相关指标、纬度都可以在这里面进行可视化呈现。数据采集好了、存储好了,下一步就是做数据治理。
这中间有一个概念,大数据治理平台的概念。它以数据资产目录为中心,将所有源数据、数据指标、主数据、数据质量以及与生命周期属性相关的信息关联起来,建成一个统一的整体。这句话比较难理解,其实最终数据治理层给客户提供的就是帮助他建立所有的数据标准,统一数据口径。这里面还有其他相关功能,例如提高数据存储质量,保证数据正确性、关联性、开放性和安全性等。
以上是数据治理的整个流程图,末端是数据的原始状态,存放在各个业务系统中。通过采集帮助客户建立数据库和主数据库,确立数据标准、数据自带,最终给客户终端的是资源目录、目录体系、主题数据仓库。以及将所有数据最终落到融合中心来,做数据的交换和共享工作。
这是数据中心呈现出来的所有相关数据信息结果,包括数据治理的总量,正确处理数据的条数、清晰的条数、文化数据的条数。还有根据客户相关场景需求,制定了哪些规则。每一个数据的来源,都可以在这个平台进行可视化呈现。其实最终拿到数据之后,我们要指导客户的业务,帮他做一些辅助决策的动作。最重要的两件事是要做数据挖掘和多维分析可视化呈现。
我们的平台包括统计分析、深入分析、特征工程、文本分析、机器学习等100多种算法,算法模型通过日常训练,把它以可视化的界面呈现出来,以2D、3D, 3D的形式呈现出来。其实,数据挖掘的整个过程,就是通过历史数据找到历史上的一个关联关系,通过历史数据找到未来发展的趋势。我们拿到了数据之后,希望达到可视化呈现的效果,我们也希望人人都可以成为分析师。这个平台制作数据报告的动作,通过拖拉拽是能够完成的。
平台里面涵盖200组组件,如果客户有GS开发功能,我们还可以开发接口,让组件对接到平台上。在司法行业的各种案例,我裁减出了几个分析场景。
第一个场景是案件分析的场景,根据这个场景我们生成了四个相关主题,每一个主题都有各种纬度的分析。
首先从各个业务系统进行数据的采集、清晰、融合,然后将所有案件进行多维分析。第一,智能诉讼的主题,可以对数据支撑、同案同判、,同案不同判进行分析。每一个分析主题和纬度都根据我们梳理的业务指标进行业务模型构建。
另外一个主题就是案件趋势分布的分析,异常案件分析、专题案件趋势分析。整个案件分析最终呈现给终端用户或者给领导的是可视化效果图,在整个图里面我们把全市所有的案件进行了区域划分。每一个区域可以进行数据明晰,右侧是相关的统计数据展示,比如总的案件、在办案件、结案的统计数据。左侧的是针对每一个案件类型进行的横向对比。透视案件,进行各个维度的详细分析。
第二个场景是法官画像,针对每一个法官的数据是散落到各个系统当中的,我们将法官的相关数据进行采集、梳理、构建整个指标体系,最后完成法官画像的几个应用场景。
比如说法官擅长案件的分析,法官制效的分析、法官标签等,所有主题纬度确定好了之后,我们将构建指标体系。在这里面可以拿到的数据包括基本信息、办案数据、行为数据,以及第三方来源的数据。拿到所有数据之后构建指标体系,我们最终将呈现出一个分析效果图。分析结果包括了几个纬度,比如法官的基本信息,法官基本信息又包括全年工作量和关其他信息,还有每一个月法官工作的分布。左侧是对每一个法官的质效关系,每月办案数、结案数给出的模型展示。
第三个场景主要针对当事人进行一个简单的画像,画像主题又分为两个场景。第一个是自然人信用,第二个是企业信用。我们拿到的数据包括当事人的所有数据,包括基础数据、诉讼数据、执行与被执行数据、信用数据以及其他关联方的数据,拿到这些数据之后我们从起点到终点做业务上的闭环分析。个人信用看板,把当事人所有信用信息都调取出来进行分析。企业信用看板,会把当事人所在企业和与企业相关的周边纬度的关联关系进行展示。最后形成当事人画像。
最后一个场景是做文本分析,起诉书都是电子的,就是由纸质转换成电子。我们原来希望通过电子进行横向对比,从中发现案件与案件的关联关系。后来发现如果在对非结构化的数据进行分析的时候,每一个模型训练需要150个样本,每一个样本的成本是3毛钱。后来我们将所有体征进行提取,将非结构数据转换成结构化数据。
对于一些办案单位,我们把他从非结构化数据转化成结构化数据。办案经过、犯罪事实、法律条文,都会存到数据中心里面。拿到所有数据,我们可以进行案件的相关审查、证据的对比和同案比较。
延伸阅读 :
北京市律典通总裁麦天骥:从法律人对人工智能的期待谈大数据——人工智能在智慧法院的应用