大数据安全技术浅析

2019 年 4 月 24 日 计算机与网络安全

一次性付费进群,长期免费索取教程,没有付费教程。

教程列表见微信公众号底部菜单

进微信群回复公众号:微信群;QQ群:460500587



微信公众号:计算机与网络安全

ID:Computer-network

随着各领域对保护大数据、应用大数据的关注,大数据安全保障问题持续升温。一方面,信息技术的快速发展为黑客们提供了日趋多样的攻击方法与工具,使得数据驱动型企业面临的安全威胁成倍增加;另一方面,大数据处理流程的各个环节存在不同安全风险,这既涉及一些传统安全问题,又涉及一些新的安全问题。针对上述情况,各领域专家展开了广泛而深入的调研、研究与实践,推出了各自的安全产品与安全方案。


本文将从实践的角度介绍大数据安全技术的应用情况。首先,通过两个实际案例的介绍——数据中心的大数据安全保障、Hadoop平台的安全保障,使大家了解国内外IT厂商在基础设施安全保障方面的应用实践。其次,通过对几家企业的大数据安全保障方案的分析,介绍大数据全业务流程的安全保护。


一、数据中心的安全保障


大数据的保护,首先是要保护大数据基础设施的安全,即在物理层面(如服务器、网络等)保证大数据的安全。


大数据时代对数据中心的安全保障提出了新的需求,具体包括以下几个方面。


首先,大数据时代的数据中心安全防护产品要有更快的反应速度与更高性能的处理能力。一方面,由于数据中心的发展规模越来越大,业务种类越来越多,数据中心内保存的数据价值也越来越高,随之而来的针对大数据的各类型攻击也正在快速发展,攻击呈现持续性、高流量、异变性等特点,要防护针对大数据的高级攻击,必然需要安全防护产品拥有更强处理性能;另一方面,随着数据中心的网络发展,大二层数据中心发展迅速,东西向流量的交换大量集中汇聚到数据中心内的核心交换机,所以低性能的数据中心网络防护技术也将制约数据中心的升级与更新。


其次,大数据时代的数据中心安全防护产品需要有更快速的升级能力。由于信息安全威胁的快速变化,针对大数据的攻击随时可能出现新的类型,这要求安全防护技术有更积极的升级策略,安全厂商要对大数据威胁更加敏感。


最后,大数据时代的数据中心安全防护产品要能够感知不同的应用类型,在网络需要时可以对不同的应用给予不同的带宽保障,提升高价值业务的用户体验,同时也可以缓和数据中心对外带宽的压力,提升了整体用户体验。


为满足以上安全需求,国内各大企业都针对他们的数据中心,提出了新的安全防护解决方案。


下面以某公司数据中心网络边界的安全防护解决方案为例进行介绍。该方案将数据中心分成对外连接区域以及内部核心区域。对外连接区域为用户提供Web访问接入服务,该区域的服务器作为用户业务中心,为租户和Web服务提供业务支持;而内部核心区聚集了企业内部大量生产、办公服务器,地理上一般集中部署在企业总部数据中心机房,安全需求更高。


1、外部连接区的安全防护


在数据中心的外部连接区内,服务器主要作用是为用户提供业务服务。如作为云平台的数据中心,外部连接区的服务器主要为租户提供虚拟机以及部署PaaS应用,而这些业务通常需要接入Internet服务。


因此,该方案首先在外部连接区的出口部署了高性能的防火墙,有效地为用户提供安全的、高密度对外网络接入服务。而防火墙不仅部署在整个数据中心的出口,同时也部署在连接外部连接区与内部核心区的核心交换机处。这样,数据中心内部有效地实现了安全域隔离,真正地实现了内外两个区域的划分,对两个区域间的流量进行安全防护,保障了网络安全


同时,该方案还在外部连接区部署了多套安全应用系统以及安全防护策略,配合基础的防火墙,为数据中心的外部连接区提供了更全面的安全防护。


● 通过配置 USG(统一网关)设备,可以实现对网络源地址进行屏蔽的策略。


● 部署虚拟防火墙,实现了虚拟机间的安全隔离,防止互攻击的发生,同时还可针对虚拟防火墙进行配置资源预分配,控制虚拟防火墙的进出流量。


● 通过配置简单的公网 IP 限流策略,可以有效防止某个分给用户的公网 IP占用过量带宽,同时也防止了海量数据泄露的风险。


● 部署 IPS 入侵防御系统,能够监视网络或网络设备的网络资料传输行为,能够即时地中断、调整或隔离一些不正常或具有伤害性的网络资料传输行为。


● 针对外部连接区内的某些关键业务系统,该方案还在其入口交换机旁路部署NIP系统,该系统可以实现对访问系统的网络流量进行实时检测,对该系统内的数据进行访问控制以及安全审计。


● 在出口部署 Anti-DDoS 设备,可以有效识别 DDoS 攻击,减少恶意流量的冲击,实现对DDoS的攻击防护。


2、内部核心区的安全防护


与外部连接区的防护方案类似,内部核心区首先通过在核心交换机上部署各类安全设备,如防火墙、IPS/IDS 系统等为数据中心的核心业务提供内部网络安全防护。


同样地,在内部核心区部署USG设备,可将核心区按照业务模式划分不同的区域,如测试区、托管区、运行管理区等,对不同的区域实现不同的安全策略,为不同的区域提供不同的安全防护能力,同时USG可以支持多实例解决方案,如将一台防火墙从逻辑上划分为多台虚拟防火墙,为多用户提供独立的安全保障。


另外,在核心区部署的 IPS、防 DDoS 设备,可以实现对来自企业内部的攻击行为的监控,检测异常的数据流量,同时在业务服务器群前,防御DDoS攻击以及各种黑客攻击行为和蠕虫等,以保护企业内部核心业务区域的安全。

二、Hadoop 平台的安全保障


经过近几年的快速发展,Hadoop已经成为大数据时代存储和处理海量数据的最热门技术。在IT、金融、电信、医药、制造等领域,可以说只要有海量数据的处理和存储需求,就有Hadoop技术。国内外的各企业与研究机构都对Hadoop的应用与研发投入了大量的资金与人力,随着业界对 Hadoop 的认识越来越深入、使用越来越成熟,如何保证其安全性逐渐成为了大数据安全的基础问题。


目前,国内外厂商在大数据研发领域的工作存在差异。国内厂商关注的焦点是使用传统技术保障大数据安全;国外厂商将大数据安全防护的重心放到了改造大数据处理工具,特别是Hadoop上,美国的Informatica公司就是其中的代表。

Informatica 是全球领先的独立企业数据集成软件提供商,帮助世界各地的公司组织,为其首要业务提供及时、相关和可信的数据支撑。Informatica 认为数据治理不是一个项目,而是一种体系和过程,它包括4个关键要素:技术、策略和流程、标准和定义以及组织。其中,技术要素包括数据访问、数据转换、数据质量、元数据、数据交互等。Informatica 的数据集成平台 PowerCenter 既能够实现海量交易数据的广泛连接功能,又可接入海量社交互动数据,并且还基于海量数据处理的 Hadoop 平台开发了很多创新技术。核心技术包括 ODS(operational datastore)、数据仓库、数据集市、主数据管理、OLTP(联机事务处理系统)等。Informatica的数据集成平台架构如图1所示。

图1  Informatica 的数据集成平台架构

Informatica 认为如何进行数据整合是保护大数据的安全关键。Informatica 推出的HParser是一种针对Hadoop优化的数据转换环境,其架构如图2所示。该软件支持灵活高效地处理Hadoop里面的任何文件格式,为Hadoop开发人员提供了即插即用的解析功能,以便处理复杂而多样的数据源,包括日志、文档、二进制数据或层次式数据,以及众多行业标准格式数据(如银行业的 NACHA、支付业的 SWIFT、金融数据业的 FIX 和保险业的 ACORD)。正如数据库内处理技术加快了各种分析方法,Informatica 同样将解析代码添加到 Hadoop 里面,以便充分利用这些处理功能。

图2  Informatica 的 HParser 架构

三、大数据业务流程安全防护


大数据的整个处理流程中,数据都会面临着各种各样的安全风险。


● 在数据采集阶段,系统可能会将用户的关键隐私数据采集并流转至系统的非信任区域,并因此失去对这些关键数据的控制,导致用户隐私数据泄露等安全风险。


● 在数据存储阶段,由于用户的所有关键数据的明文存储,因此很可能存在数据被盗用、滥用情况,导致用户隐私信息泄露。


● 在数据挖掘阶段,对用户数据分析结果使用的不可控性,在数据挖掘分析中会存在数据非授权访问,并且在挖掘算法升级时,系统的操作维护动作还可能会将原始数据或加工数据直接丢弃,造成关键数据流失。


● 在数据应用阶段,广告投放过程和计费信任程度不可控。


● 数据交付过程中会存在不合规的数据挖掘结果发布,以及数据泄露后无法追溯取证等问题。


因此,从数据生命周期或者业务流程角度考虑问题,针对大数据安全保障的解决方案应该从数据处理的各个环节入手。在采集阶段对数据进行分类分级管理;在数据存储阶段对敏感数据进行特殊保护与脱敏处理,并对数据使用人员进行细粒度的授权管理与访问控制;在数据挖掘与应用阶段对数据的使用行为进行审计与溯源。


多个企业推出大数据安全防护解决方案,尝试在大数据处理的各个环节中,对大数据的采集、存储、挖掘和应用进行管控,全方位保护大数据安全。图3是某大数据运营企业采用的大数据安全防护方案架构。

图3  某企业大数据安全防护方案架构

由图3可知,该企业在其大数据应用系统的各个环节均进行了相应的安全防护。


首先,在数据采集层,对源数据进行分类,使用户的关键隐私数据可以与其他非敏感数据进行区分。


其次,在数据处理层,设立数据安全网关,旨在对数据敏感度、广告投放等方面进行安全管理,使得处理后的数据在对外提供前得到相应的安全处理。


同时,该企业还为其大数据应用系统加载了维护 4A 平台,为平台进行操作维护、加密算法升级、行为审计等安全防护。


通过上述对数据应用各个环节的安全措施,该企业的大数据应用平台也成为了可安全对外提供数据服务的数据网络防泄密平台。


1、大数据采集与存储的安全防护


由于大数据具有数量大、数据类型复杂等特点,所以在大数据的全处理流程初期,在采集与存储阶段对源数据进行相应的安全处理,是保障大数据安全的关键。许多企业也看重大数据的这一特点,对数据的安全采集与存储进行了相应研究,分别推出了相应的安全方案与产品。图4是某企业的安全数据应用处理流程模型。

图4  某企业数据应用处理流程

由图4可见,该方案在原始数据采集后,即对其进行了脱敏预处理,而将脱敏后的数据分别存储,统一进行数据挖掘,最后进行数据交付。这样,大数据在存储前就在一定程度上减轻了敏感数据泄露的风险。


而在数据存储阶段,如何对数据库进行更好的加密,使大数据的存储变得更加安全,则更是大数据处理全流程中的基础。图5是某企业的数据库透明加解密系统。

图5  某企业数据库透明加解密系统

数据库透明加解密系统分为3个子系统。


(1)对 Oracle 数据库内部进行开发改造的安全代理子系统,该系统可接收安全服务子系统对数据库内的数据表、单数据条目的加密处理,并对密文进行管理,同时具备对管理员提供透明展现的能力。


(2)为数据库提供远程加密的安全服务子系统,该系统通过共享内存、TCP通信方式对数据库进行远程加密或发送密文及对数据库的访问、操作行为进行审计与溯源。


(3)对上述两个子系统进行管理的安全管理子系统,该系统通过 Oracle 对外API 接口,实现数据库的透明展现,同时通过安全策略中心向安全服务子系统部署各类策略。

通过上面3个子系统,企业的数据管理、审计监督人员可实时对数据库进行全局掌控。


2、大数据挖掘与应用的安全防护


大数据的重要价值之一是帮助已有业务增加用户触点,并进行多场景交叉营销,特别是对异网营销有明显推动作用。但是,大数据使用不当会导致用户投诉,引起法律纠纷,严重影响企业的品牌形象,从而使业务发展和市场营销工作陷入困境。安全先行、数据安全是发展任何信息服务业务的基础,而一些企业也将防护大数据安全的重点放在挖掘与应用阶段。图6是某企业的数据安全网关构架。

图6  某企业数据安全网关架构

如图6所示,该方案通过安全网关,将用户的数据进行挖掘并分为两个安全域:数据信任域与互联网非信任域。


通过对源数据的挖掘,该系统将用户的源数据细分为用户号码、用户终端、用户位置、用户应用、用户访问行为以及用户属性几大方面。而这些经挖掘处理、分类后的源数据,将被保存在系统的数据信任域内,进行全面的安全防护。而在安全网关处理后,将这些挖掘数据再进行封装处理,去除了用户的敏感信息,将数据投放至互联网等非信任域。经过两层挖掘处理,投放至互联网的大数据既可为用户提供个性化的数据应用,也防止了数据应用阶段的信息泄露问题。


3、大数据安全审计


上面描述的安全实践属于在大数据处理流程中,对各个环节的处理技术本身进行改造,从而达到数据应用流程的安全处理。而有些企业则将大数据安全防护的重点放在了人员管理上。此处的“人员管理”是指对大数据系统中的各类行为进行监控,如对数据库的访问记录进行监控,再对这些行为进行审计,分析出是否在系统中存在着违规访问行为,最后再通过溯源技术,对该违规访问进行追溯,达到了在后台对大数据进行安全防护,即达到了对大数据的安全审计与溯源。


大数据的审计阶段,各企业开展安全防护的研究。图7是某企业的数据使用行为审计与溯源方案。

图7  某数据使用行为审计与溯源方案

上述方案将侧重放在大数据的后期处理阶段。首先通过对数据库访问网络包、访问控制网关日志、挖掘系统运行、发布日志等系统信息的监控,对数据访问行为、挖掘行为、数据发布行为进行审计,再对违规操作进行溯源,最后再将各个违规事件进行透明化输出,防范了系统中的管理员、处理人员对大数据的泄露风险。


4、大数据安全评估与安全管理


保障大数据安全,不仅需要安全技术,还需要专业的安全管理,因此建立针对大数据特点的安全管理、安全评估模型也是安全防护的重点工作。


在开展大数据运营工作之前,某企业从业主调研、同行调研、学界调研3个层面,对数据应用中的安全与隐私难题进行研究。


(1)从业主调研结果来看,低于半数的被访互联网商宣称有相应的内部制度进行管控,并且大多并未能在技术和行政管理层面有效执行。值得关注的是很少有企业单独为应用数据建立专门的管控制度,更多的企业认为数据的有效变现更为关键,即业务效率高于安全性诉求,将数据安全风险视为业务成本,同时绝大部分数据的处理和挖掘由内部团队执行。被访互联网商原则上多认可数据模糊化、数据分区化、数据访问控制、数据层次化等大方向。


(2)从安全产业界调研结果来看,更多的安全公司认为应用数据安全项目前期应该是一个安全咨询类为主的项目,而并非实施类。这类项目一般有两个倾向:一是合规,二是实效,实践中多以合规为主。


(3)从学术界调研结果来看,都提到了同态加密(homomorphic encryption)可以作为一个技术基础来考虑,但进一步了解发现该技术目前的成熟度较低。


因此,该企业对大数据安全管理提出了基本建议:需要建立完整的安全和风险评估模型,包括数据收集、产生、处理、存储、使用、发布全过程,涉及不同层面接触数据的人员,评估不同层面的数据风险性,并考虑分权机制进行管理,同时,对数据隐私被破坏后的安全风险进行分级评估,设立监控审计过程和处置预案。此外,还需要建立统一标准注重实效的企业内部隐私保护规范,引进专家根据国内外法规并结合企业实际考量确定内部规范,根据可操作性将规范细化为不同的制度。


根据上述建议,该企业提出两类精准营销合作模式。第一类模式中,数据在内部使用,规避了安全性问题,但是技术难度大,涉及整个广告投放系统开发,与第三方合作仅限流量资费。第二类模式的可合作范围广,不用开发投放系统和平台,但是数据使用存在一定安全性问题。因此,该企业建议将业务发展和安全保护结合考虑:先根据特定的业务需求,量身订做数据产品,避免过早对外开放全部数据,而是围绕受控的有限度数据来做业务发展,通过缩小数据使用边界来避免项目涉及维度过大。


四、结语


随着保护大数据安全的需求越来越高,各类企业也开始从各个方面对其数据进行安全防护。通过本文的介绍,可以看到无论是从物理层面入手,对数据中心的服务器、网络进行安全防护,还是通过加强Hadoop等大数据处理工具来保护大数据安全,业界主流厂商均对大数据安全投入了大量的人力与财力。并且针对大数据应用特点,从大数据处理、数据管理的全流程上提出了各类的解决方案。总之,保护大数据安全,已经成了保障企业声誉,决定企业大数据运营成败的关键。

微信公众号:计算机与网络安全

ID:Computer-network

【推荐书籍】
登录查看更多
14

相关内容

FPGA加速系统开发工具设计:综述与实践
专知会员服务
62+阅读 · 2020年6月24日
【干货书】现代数据平台架构,636页pdf
专知会员服务
250+阅读 · 2020年6月15日
大数据安全技术研究进展
专知会员服务
90+阅读 · 2020年5月2日
报告 | 2020中国5G经济报告,100页pdf
专知会员服务
97+阅读 · 2019年12月29日
【德勤】中国人工智能产业白皮书,68页pdf
专知会员服务
294+阅读 · 2019年12月23日
【大数据白皮书 2019】中国信息通信研究院
专知会员服务
133+阅读 · 2019年12月12日
【电子书】C++ Primer Plus 第6版,附PDF
专知会员服务
83+阅读 · 2019年11月25日
【白皮书】“物联网+区块链”应用与发展白皮书-2019
专知会员服务
90+阅读 · 2019年11月13日
工行基于MySQL构建分布式架构的转型之路
炼数成金订阅号
15+阅读 · 2019年5月16日
干货 | 等保2.0新标准介绍
黑白之道
10+阅读 · 2019年5月11日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
英国情报工作浅析
计算机与网络安全
17+阅读 · 2018年7月27日
即时定位与地图构建技术浅析
计算机与网络安全
6+阅读 · 2018年7月13日
中国古代情报工作浅析
计算机与网络安全
14+阅读 · 2018年7月11日
威胁情报浅析
计算机与网络安全
7+阅读 · 2017年11月15日
图像算法在电商大促中的应用浅析
AI前线
4+阅读 · 2017年11月14日
网络安全态势感知浅析
计算机与网络安全
16+阅读 · 2017年10月13日
边缘计算:万物互联时代新型计算模型
计算机研究与发展
12+阅读 · 2017年5月19日
Arxiv
99+阅读 · 2020年3月4日
Heterogeneous Graph Transformer
Arxiv
27+阅读 · 2020年3月3日
Hierarchy Parsing for Image Captioning
Arxiv
6+阅读 · 2019年9月10日
Arxiv
17+阅读 · 2019年4月5日
VIP会员
相关VIP内容
FPGA加速系统开发工具设计:综述与实践
专知会员服务
62+阅读 · 2020年6月24日
【干货书】现代数据平台架构,636页pdf
专知会员服务
250+阅读 · 2020年6月15日
大数据安全技术研究进展
专知会员服务
90+阅读 · 2020年5月2日
报告 | 2020中国5G经济报告,100页pdf
专知会员服务
97+阅读 · 2019年12月29日
【德勤】中国人工智能产业白皮书,68页pdf
专知会员服务
294+阅读 · 2019年12月23日
【大数据白皮书 2019】中国信息通信研究院
专知会员服务
133+阅读 · 2019年12月12日
【电子书】C++ Primer Plus 第6版,附PDF
专知会员服务
83+阅读 · 2019年11月25日
【白皮书】“物联网+区块链”应用与发展白皮书-2019
专知会员服务
90+阅读 · 2019年11月13日
相关资讯
工行基于MySQL构建分布式架构的转型之路
炼数成金订阅号
15+阅读 · 2019年5月16日
干货 | 等保2.0新标准介绍
黑白之道
10+阅读 · 2019年5月11日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
英国情报工作浅析
计算机与网络安全
17+阅读 · 2018年7月27日
即时定位与地图构建技术浅析
计算机与网络安全
6+阅读 · 2018年7月13日
中国古代情报工作浅析
计算机与网络安全
14+阅读 · 2018年7月11日
威胁情报浅析
计算机与网络安全
7+阅读 · 2017年11月15日
图像算法在电商大促中的应用浅析
AI前线
4+阅读 · 2017年11月14日
网络安全态势感知浅析
计算机与网络安全
16+阅读 · 2017年10月13日
边缘计算:万物互联时代新型计算模型
计算机研究与发展
12+阅读 · 2017年5月19日
Top
微信扫码咨询专知VIP会员