关键数据资产识别
-
date_range 29/07/2019 00:00 infosortSAlabel
关键数据资产识别
概述
IDC、公共网等内部数据存储分布广,情况未知。目前仅能掌握少量关键数据平台的情况,大量业务部门、人员群体的自建数据存储不清楚。
关键数据识别困难。目前大量关键性判定仅基于统计性特征(如频次等),判定的多为热资产,对可能关键的冷资产缺少有效的方法。
数据定密及审计不科学,且非自动化。密级判定规则主要是人为制定,并且在密级审计时仅基于简单的字符匹配,进而配合大量人工来定级。
主要问题
数据资产在哪里?如何描述、如何发现? 要做到对起点、源头的识别(数据仓库)
哪些是关键/重要的数据?如:数据库中很多表,哪些是重要的? 如何以尽可能小的开销(如避免扫描、搜索等),发现关键数据资产,并进行分类(依据给定的分类等级)。包括:与自然人相关的隐私数据、业务关键数据
研究思路
- 通过对数据本身的特征进行判断,如内容、等级、密级等。
- 行为分析:通过行为访问模式(使用模式),衡量是否为关键,并识别风险。如通过使用模式的分析,可以得出数据和表之间的依赖度的信息。
### 主要难点
- 识别的粒度和对象如何确定?如,整个数据仓库,是否会成为一个大节点?识别的对象是数据本身,还是数据的存放地点?
- 如何做到通用性?尽可能在系统层面,流量层面。如果具体到应用层面,则是已经事先知道目标了。
- 冷资产如何判断?行为的分析只能发现热资产。
- 流量加密怎么办?
- 行为分析的开销:全面采集进程、网络、文件访问行为,代价高昂,其规模也难以处理。可以考虑图的压缩、冷数据的丢弃等
- 数据流转行为如何感知?如何感知数据发生了什么,如何流转?如何对数据流转链条判断、追踪?