2021 年,是金税四期工程建设的开启之年。作为国家信息系统重点工程之一,金税工程的目标是将一般纳税人认定、发票领购、纳税申报、税款缴纳全过程实现网络化运行,加强增值税征收管理。自 1994 年正式实施以来,金税工程经历了一期、二期、三期建设阶段,实现了增值税征收管理从人工核查到电子防伪,再到联网打通。
如今,全国范围内税收征管系统再次迎来一次全面升级。与金税三期相比,四期的目标是构建智慧税务,实现“税费”全业务、全流程、全数据的“云化”打通。其主要建设内容包括了全面电子化,企业发票流、资金流、合同流、货物流四流合一,企业员工薪资社保数据比对,以及对企业收入、成本、利润、库存等闭环式数据的全面了解。并且,除了税务方面,金税四期还会纳入“非税”业务,实现对企业业务的全方位监控。
一言蔽之,金税四期的上线,将使税务数据信息更透明、监管更全面、更精准,加速“以数治税”时期的到来。对于税务机关而言,由数据驱动的税务征管将成为“刚需”,数据管理的压力也随之升级。
首先,要构建起税务总局和省局两级数据管理体系,实施上下一体化的数据调度和统一的标准规范体系;其二,要在机关内部建立起系统化的数据应用体系,实现多层级的数据管理能力提升;其三,要强化数据安全管理,以资产化建设为目标,加强大数据分析应用信息安全保障体系的建设;其四,要基于统一的数据平台,实现数据高效共享。
事实上,这样的数据管理压力在各个行业的数字化转型过程中普遍存在。不知道内部拥有什么数据、从哪获取数据、如何处理数据和使用数据等各种问题正在成为各行业推进数字化的“堵点”。而面对这一系列挑战,四川省税务局历时两年,对遍布于 70 余个系统的历史数据和实时数据进行了重新梳理和汇聚;又历时近一年建成了数据知识体系——为实现“以数治税”和后续的智慧税务场景落地打下了关键基础。
2020 年,四川省税务局大数据风险管理局(以下简称“大数据风险管理局”)成立。作为国家税务总局主管组织指导全国税收大数据和风险管理相关工作的机构,大数据风险管理局的主要职责包括了三方面:第一,负责云平台建设、相关业务需求和运行管理、相关系统应用和业务层面运维工作;第二,组织实施税收大数据和风险管理战略规划,管理税收数据,负责税收数据交换和共享;第三,统筹开展全国性、综合性风险管理特征库和分析模型建设、验证和推广。
以上每一项工作的开展,都离不开数据。但是,与其它地方税务机关一样,四川省税务局也面临着“烟囱化”现象严重、建设系统多、数据分散、共享困难等痛点。各单位机构自建的系统没有统一的数据标准,数据质量也参差不齐。
“所以,在大数据风险管理局成立之后,我们做的第一件事就是把所有数据都汇总到大数据平台上。”日前,四川省税务局大数据风险管理局大数据平台技术专家肖斌在接受 InfoQ 等媒体采访时表示,“这些数据分散在不同的数据库、备份库或是查询库,当时,我们不知道其中涉及了多少系统,每个数据的历史版本又在什么地方,对整体情况没有把握。”
为此,大数据风险管理局构建了一个统一的大数据平台,并花了足足两年时间,一边从 70 余个系统中把可用的历史数据一个一个找出来汇聚到平台之上,另一边对实时产生对海量数据也做了统一接入和管理。
但新的问题随之而来。肖斌表示,虽然数据有了统一出处,但是当初的平台设计缺乏完整的数据知识体系支撑,与数据公司合作时也没有系统性的要求和规范,导致数据间必要的逻辑模型和物理模型缺失。他举例说,“那时,我们的数据管理靠的是口口相传。比如业务部门提出一个数据需求,我们想要找到这个数据在哪一张表上,表内的数据之间有什么逻辑关系,然后再按照需求把数据提取出来——这个过程主要靠人去问,靠数据岗的员工积累,如果换了一批员工,就又不知道了。”
与此同时,现在很多数据应用的落地,都需要调用数年前的数据作为参考,但是,由于历史数据部分涉及的时间跨度很长,很多业务含义和内容已经无从辨别,这就导致数据资料缺乏,无法给业务提供有力的支撑。
“所以我们意识到,如果不做数据治理,可能会面对很大的挑战。”肖斌强调。具体表现在:
第一,数据不可知。大数据风险管理局不知道平台上都有哪些数据,也不知道它们和业务之间的关系是什么,不知道有没有能解决业务问题的关键数据,也不知道该到哪里找到这些数据;
第二,数据不可控。不知道平台上汇聚了哪些数据、处理了哪些数据、为服务提供了哪些数据;
第三,数据不可联。虽然拥有海量数据,但数据知识之间的关联度比较弱,使得数据与知识之间难以做到快速转换,数据的深层价值难以体现;
第四,数据不可取。即使知道业务所需的是哪些数据,也不能自助、便捷、快速地拿到数据。
对于税收征管业务而言,这意味着,即便坐拥着庞大的数据储备,但数据价值仍然无法兑现。举例来说,想做智慧服务,会缺少“数字化大脑”;想做精准风控,会缺少“瞄准镜”。
改变刻不容缓。经过对以上问题的分析,大数据风险管理局迅速梳理了四川省税务局在数据治理方面的几大需求:首先,对于数据不可知和不可控问题,需要实现元数据标准化体系,集成现有的元数据管理系统;此外,对于数据关联性问题,需要建立完整的数据治理体系,掌握资产之间的关系和溯源;然后,对于数据查询和获取问题,还要建立统一的数据资产目录,实现自服务。与此同时,还有个贯穿每一个环节的关键问题——要持续提升数据资产本身的质量。
围绕这些需求,大数据风险管理局引入了全新的数据治理工具(IBM Watson Knowledge Catalog,WKC)。
“我们要解决的第一个问题是把现有的数据资产管理起来。”肖斌表示,在此基础上,希望能够从业务到数据,再从数据到指标、报表,构建完整的数据知识体系。
据他介绍,大数据风险管理局最初考虑的是使用图数据库,用图形形式把数据资产展示出来并形成关联关系,供业务人员随时调取。基于这一初衷,大数据风险管理局在选型过程中首先尝试了国内的 2-3 个图数据库产品,但是最终发现它们既无法很好地把数据用图形形式展示出来,也很难进一步形成数据知识体系。
经过一段时间的方案和技术试用和比对,大数据风险管理局选择了 IBM WKC,肖斌表示,其中非常重要的一个考量原因就是因为它可以自动形成数据知识图谱——不仅能对数据进行一一“陈列”,还可以层层展示数据之间的关系。
在选定了具体方案后,大数据风险管理局对内部的数据治理落实过程做了详细的步骤拆分:
第一步,构建内部的数据资产知识图谱。比如,在元数据管理方面,不光是把数据表和字段管理起来,还把数据标签和业务也进行了关联。“相当于在税务系统的背后,有一套征管规范指引图谱,这个图谱整合了所有业务表、证、单、书与系统数据之间关系,可以指导业务人员有序开展税务管理和服务的工作。”肖斌解释说。
并且,大数据风险管理局还利用 IBM WKC 集成了 Apache atlas 数据血缘管理能力,使得数据的调度和使用做到端到端的追溯。业务人员一方面可以从业务表、证、单、书中快速地追溯到相匹配的征管规范细则,从而了解对应数据含义,判断是否符合业务需求;另一方面,还可以轻松追溯到具体的数据来源——是在具体哪个系统上,从哪段原始表加进来的,以及出自哪位业务人员。
第二步,通过进一步分类归纳,规划整理数据资产目录。具体来说,大数据风险管理局的做法是以应用系统为划分维度,对不同类型的元数据、数据源,以及新增数据量进行统一管理。其中,新增的数据量主要来自于现有应用系统,大数据风险管理局对此会按月、按年进行统计,“了解这些信息的目的是便于后续准备出相应的存储量。因为我们的数据增长量还挺大的,单从表来说,一般要存三份,这还不包括 Hadoop 平台的数据。”肖斌表示,所以,数据增量的呈现是其数据资产目录规划中非常重要的一部分。
值得一提的是,通过知识图谱与数据目录的结合,业务人员不仅数据查询的效率有所提高,而且还可以通过自服务的方式实现数据获取。他们可以像在搜索引擎操作一样,输入相关的业务词汇,也可以基于知识图谱的发现和探索,沿着对应“图形”,快速定位和获取所需的数据,并且,整个过程不需要再由专门的数据管理人员逐一寻找、再提供,大大提高了数据使用的效率和体验。
“当然,由于税务涉及大量的敏感数据,所以我们还利用 IBM WKC 对数据进行了敏感度的等级划分,具体分为高级敏感、中级敏感和低级敏感的数据,这样在数据自服务过程中,其它系统一旦调用和获取这个数据,就能根据定级设定对应的访问权限。如果是高级敏感数据,可能就会进行脱敏或者设定为不可见。”肖斌强调。
第三步,提高和改进数据质量。税收的数据质量管理是我国税务建设的遗留问题。比如,过去的数据采集环节缺乏科学统一的管理,容易造成重复采集或者数据缺失;再比如,数据使用缺乏标准规范,缺少对采集数据的考察分析和评估。
据此,大数据风险管理局对应用系统中的业务规则和数据使用规范进行了重新定义,并基于 IBM WKC 提供的自动化数据质量管理工具,对数据是否复合业务规范进行了多次扫描。肖斌表示,如果在这个过程中发现数据质量问题,工程师就会直接交给业务评估如何处理;如果不作处理,它们还是会作为数据资料收录上来,以后访问相关表的时候,系统就会显示数据存在质量问题。
第四步,通过开放 Restful Api 开放平台,把整个数据治理的结果持续反馈给业务系统,不间断地优化数据质量。据肖斌透露,四川省税务局的下一个目标是实现业务自动化,而不断提高和改进数据质量,将是其未来深度利用数据,实现自动化和智能化的关键基础。
事实上,早在 2015 年,“智慧税务”的概念就在《国家税务总局关于印发“互联网 + 税务”行动计划的通知》中被首次提及,彼时“行动计划”的核心思想是通过加快线上线下融合,逐步实现网上办税业务全覆盖。而 2021 年 3 月,在中共中央办公厅、国务院办公厅印发的《关于进一步深化税收征管改革的意见》中,提出了进一步深化税收征管改革的六个方面 24 类重点任务,涉及数据赋能、精确执法、组织保障等方面,其中“以数治税”被铭文认定为税收征管改革的主线。
可见,经过多年的实际推动,随着财税信息的深入发展,数据作为智慧税务的基础业已成为共识。但是,在全国范围内,四川省税务局所遇到的数据管理痛点并不是个例。
“税务机关的数据管理确实有一定的特殊性。和四川省税务局一样,他们往往积累了大量的历史遗留系统,并且不同分局之间的状况参差不齐,对这些历史数据的再梳理本身就是非常困难的一件事,与此同时,随着智慧税务的发展,他们还要面对数据量暴增的问题。更重要的是,他们掌握着纳税人和纳税机构的大量敏感数据,对数据风险管控和合规也有着特殊的要求。”IBM 中国客户成功架构师张敏在与肖斌共同接受采访时强调。
所以,在他看来,税务机关应该采用渐进的方式,单点突破逐步解决数据管理过程中的问题。“具体来说,这个过程可以划分为四层‘阶梯’,由下至上分别是数据收集、数据治理、数据分析、业务融合。”张敏指出。以四川省税务局为例,现在其数据管理进程还处于第二个层级,建成数据知识体系的阶段;下一阶段,结合 AI、机器学习等技术,才能进一步推进数据分析和应用,通过与业务融合提升业务的运营效率。
“当然,数据管理除了技术本身,还需要提升企业自身的认知,并且把自己的业务策略加进去,这样才能把数据治理工具的功能用深,把数据的价值最大化释放出来。”张敏强调。
拿四川省税务局来说,“以前我们也在做数据治理,但买了产品都不知道怎么用,主要是因为比较盲目。”肖斌向记者解释,所以在这次数据治理项目中,大数据风险管理局才会首先明确梳理了自己的业务需求和目标,然后再做技术选型和落地步骤拆分。“比如我们在考察 IBM WKC 的时候,也会通过试用不断融入业务需求,包括考虑如何把数据表和业务的表、证、单、书和业务规范整体关联起来?最终是输出一个 Excel 或是一个 Word?等等(而不是只考虑产品性能)。”
也就是说,数据治理如果只面对 IT 而非面对业务,只解决 IT 问题而不解决业务问题,那么其价值就难以发挥——这是很多企业花了一大笔钱建设数据治理项目,但最终荒废无人使用的重要原因。
进一步来说,基于数据实现最终的智慧税务,显然也不是纯粹的技术课题,更不是纯粹的业务课题,而是二者的融合。这也是数据管理的第四阶段。
只有基于这一共识,智慧税务的场景才能逐一加速落地。比如,有了智能技术的加持,“0V1”的智慧办税服务厅才能在全国各地“多点开花”,提高办税机构效率的同时,也提升纳税人的办理体验;比如,有了数据平台的支持,各类办税服务资源才能有机整合,税务机关才能为纳税人提供快速准确、智能、全时的税费服务支持;再比如,基于税收数据分析,税务机关才能及时监测到企业的收入异常,做好风险管控,更进一步,还能联通“产供销”上中下游三端,帮助企业疏通业务“堵点”......
所有这一切的发生,既是“现在式”也是“未来时”,而为了打通这“最后一公里”的服务,“以数治税”的“号角”已经拉响。
点击底部阅读原文访问 InfoQ 官网,获取更多精彩内容!
95后百度员工对领导不满,删改公司数据库被判刑;微软在美取消竞业协议;TikTok中国管理团队与海外员工冲突引发离职潮 |Q资讯
GitHub官宣“报废”Atom编辑器,创始团队不甘心表示正用Rust重写
印度萌新令人绝望的操作:提交PR“轰炸”近40万开发者,GitHub负责?
点个在看少个 bug 👇