什么是 DLP
DLP(Data Loss Prevention / Data Leak Prevention),中文译为「数据防泄漏」或「数据丢失防护」,是指通过技术手段对组织中的敏感数据进行识别、监控和保护,防止其通过未授权的渠道离开组织控制范围。
Gartner 定义:在深度内容检查的基础上,对包含敏感信息的消息进行检测和预防性控制的技术,无论该信息处于存储、使用还是传输状态。
数据防泄漏(Data Loss Prevention,DLP)是一类用于检测和防止敏感数据被未授权访问、传输或泄露的技术体系。下方目录将完整内容拆分为八个章节,按需查阅。
DLP(Data Loss Prevention / Data Leak Prevention),中文译为「数据防泄漏」或「数据丢失防护」,是指通过技术手段对组织中的敏感数据进行识别、监控和保护,防止其通过未授权的渠道离开组织控制范围。
Gartner 定义:在深度内容检查的基础上,对包含敏感信息的消息进行检测和预防性控制的技术,无论该信息处于存储、使用还是传输状态。
DLP 系统的核心工作流程通常包含以下四个阶段,构成一个从「发现」到「响应」的闭环。
扫描和盘点组织中的数据资产,自动识别敏感信息类型并分类标记。
定义条件(什么数据)+ 上下文(谁在做)+ 动作(怎么处置)。
多种技术对数据内容深度分析:正则、关键词、EDM、文档指纹、机器学习、OCR。
监控、告警、拦截、加密或隔离——根据策略自动处置违规事件。
DLP 在部署位置和监控对象上分为三种典型形态,企业通常组合使用以实现纵深防御。
部署在网络出口或关键节点,监控通过邮件、HTTP/HTTPS、FTP、IM 等协议传输的数据。覆盖面广,但加密流量需要 SSL/TLS 解密能力。
在 PC、笔记本上安装代理,监控文件操作、剪贴板、打印、USB 拷贝、截屏等行为。是防止内部人员泄露的关键手段。
集成到 SaaS、IaaS、PaaS 中,对云存储、云邮件、协作平台中的数据进行扫描。通过 API 集成或 CASB 实现。
DLP 系统使用多种技术对内容做深度分析,每种方法都有自己的最佳场景和局限。
| 检测方法 | 原理 | 适用场景 | 局限 |
|---|---|---|---|
| 正则表达式 | 预定义模式匹配结构化数据 | 身份证、银行卡、手机号等固定格式 | 格式变化多端时误报率高,需要校验算法辅助 |
| 关键词 / 字典 | 基于敏感词列表或行业术语匹配 | 特定主题文档、行业敏感信息 | 上下文理解不足,同一词在不同语境含义不同 |
| 精确数据匹配(EDM) | 与预加载的数据集精确比对 | 已知客户/员工数据的保护 | 需要维护基准数据集,数据量大时性能开销高 |
| 文档指纹 | 局部敏感哈希识别文档副本 | 合同、报告等文档的传播控制 | 对大幅改写的内容识别率下降 |
| 机器学习 | 训练分类器自动识别文档类型 | 难以用规则描述的复杂内容 | 需要标注数据训练,可解释性较差 |
| 高速DLP核心引擎 | 高性能多模式匹配 | 大量正则规则的并行匹配 | 规则编写有一定限制 |
| OCR | 图像中的文字识别和提取 | 截图、扫描件、图片中的敏感信息 | 识别准确率受图片质量影响,处理速度较慢 |
DLP 不是孤立存在的,它与防火墙、IAM、CASB、SIEM 等技术共同构成纵深防御体系。理解差异有助于正确选型与组合。
| 技术 | 核心关注点 | 与 DLP 的区别 |
|---|---|---|
| 防火墙 / IDS / IPS | 网络层攻击检测和阻断 | 关注网络威胁,不理解数据内容;DLP 关注数据本身,无论传输渠道是否「安全」 |
| 加密(Encryption) | 数据的机密性保护 | 加密保护数据不被未授权读取,但不能阻止授权用户复制解密数据;DLP 在加密之上增加内容感知 |
| IAM / 访问控制 | 谁能访问什么资源 | IAM 控制访问权限,但不监控授权用户的具体操作;DLP 关注是否在做不应做的事 |
| CASB | 云服务的安全代理 | CASB 提供云应用可见性和控制,部分产品集成 DLP;独立 DLP 的内容检测通常更深入 |
| SIEM | 安全事件聚合和分析 | SIEM 收集和关联日志,DLP 专注内容检测;DLP 事件常作为 SIEM 的数据源之一 |
| EDR / XDR | 终端 / 扩展威胁检测响应 | EDR 关注恶意行为,DLP 关注数据流向和内容;内部威胁场景两者互补 |
| 数据分类工具 | 数据的标记和分级 | 数据分类是 DLP 的前置步骤;很多 DLP 产品已内置自动分类能力 |
过于激进的策略会产生大量误报,影响正常业务并导致「告警疲劳」。需要持续调优策略,结合上下文减少误报。
HTTPS 普及后,网络 DLP 需要 SSL/TLS 解密才能检测加密流量,带来性能和隐私合规挑战。
数据散布到 SaaS、移动设备和远程办公各处。传统的网络边界 DLP 必须结合终端代理和 API 集成。
有合法访问权限的内部人员造成的泄露最难应对,需要结合用户行为分析(UEBA)技术。
需要支持中、日、韩等 CJK 字符集和不同编码格式(UTF-8、GBK 等)的内容检测。
DLP 监控本身可能触及员工隐私法规,部署时需要明确告知、最小必要和审计追溯。
DLP Insight 当前采用高速DLP核心引擎做多模式预筛(可回退至纯正则),支持 PDF / Word / Excel / PPT / 图片 / 纯文本等多格式解析,集成高速OCR引擎和 IP 地理画像,检测规则涵盖中国身份证、手机号、银行卡(Luhn 校验)、邮箱、护照、美国 SSN、香港身份证、IBAN 等 8 类敏感信息。