Technology

DLP 技术详解

数据防泄漏（Data Loss Prevention，DLP）是一类用于检测和防止敏感数据被未授权访问、传输或泄露的技术体系。下方目录将完整内容拆分为八个章节，按需查阅。

什么是 DLP

DLP（Data Loss Prevention / Data Leak Prevention），中文译为「数据防泄漏」或「数据丢失防护」，是指通过技术手段对组织中的敏感数据进行识别、监控和保护，防止其通过未授权的渠道离开组织控制范围。

Data at Rest · 数据在哪里

发现存储在终端、服务器、数据库和云存储中的敏感数据。

Data in Motion · 数据去哪里

监控通过网络、邮件、即时通讯和文件传输流动的敏感数据。

Data in Use · 数据在做什么

检测终端上正在被访问、复制、打印或截屏的敏感数据。

Gartner 定义：在深度内容检查的基础上，对包含敏感信息的消息进行检测和预防性控制的技术，无论该信息处于存储、使用还是传输状态。

DLP 工作原理

DLP 系统的核心工作流程通常包含以下四个阶段，构成一个从「发现」到「响应」的闭环。

数据发现与分类

扫描和盘点组织中的数据资产，自动识别敏感信息类型并分类标记。

策略定义

定义条件（什么数据）+ 上下文（谁在做）+ 动作（怎么处置）。

内容检测

多种技术对数据内容深度分析：正则、关键词、EDM、文档指纹、机器学习、OCR。

执行与响应

监控、告警、拦截、加密或隔离——根据策略自动处置违规事件。

常见敏感数据类型

个人身份信息（PII）身份证号、护照号、社会安全号、驾照号

金融信息银行卡号、IBAN、支付账户信息

联系信息手机号、邮箱地址、家庭住址

医疗健康信息（PHI）病历、诊断记录、处方信息

企业机密源代码、商业计划、财务报表、客户名单

身份凭证API Key、密码、证书、Token

三种部署形态

DLP 在部署位置和监控对象上分为三种典型形态，企业通常组合使用以实现纵深防御。

网络 DLP

部署在网络出口或关键节点，监控通过邮件、HTTP/HTTPS、FTP、IM 等协议传输的数据。覆盖面广，但加密流量需要 SSL/TLS 解密能力。

终端 DLP

在 PC、笔记本上安装代理，监控文件操作、剪贴板、打印、USB 拷贝、截屏等行为。是防止内部人员泄露的关键手段。

云 DLP

集成到 SaaS、IaaS、PaaS 中，对云存储、云邮件、协作平台中的数据进行扫描。通过 API 集成或 CASB 实现。

核心检测技术

DLP 系统使用多种技术对内容做深度分析，每种方法都有自己的最佳场景和局限。

检测方法	原理	适用场景	局限
正则表达式	预定义模式匹配结构化数据	身份证、银行卡、手机号等固定格式	格式变化多端时误报率高，需要校验算法辅助
关键词 / 字典	基于敏感词列表或行业术语匹配	特定主题文档、行业敏感信息	上下文理解不足，同一词在不同语境含义不同
精确数据匹配（EDM）	与预加载的数据集精确比对	已知客户/员工数据的保护	需要维护基准数据集，数据量大时性能开销高
文档指纹	局部敏感哈希识别文档副本	合同、报告等文档的传播控制	对大幅改写的内容识别率下降
机器学习	训练分类器自动识别文档类型	难以用规则描述的复杂内容	需要标注数据训练，可解释性较差
高速DLP核心引擎	高性能多模式匹配	大量正则规则的并行匹配	规则编写有一定限制
OCR	图像中的文字识别和提取	截图、扫描件、图片中的敏感信息	识别准确率受图片质量影响，处理速度较慢

与相关安全技术的区别

DLP 不是孤立存在的，它与防火墙、IAM、CASB、SIEM 等技术共同构成纵深防御体系。理解差异有助于正确选型与组合。

技术	核心关注点	与 DLP 的区别
防火墙 / IDS / IPS	网络层攻击检测和阻断	关注网络威胁，不理解数据内容；DLP 关注数据本身，无论传输渠道是否「安全」
加密（Encryption）	数据的机密性保护	加密保护数据不被未授权读取，但不能阻止授权用户复制解密数据；DLP 在加密之上增加内容感知
IAM / 访问控制	谁能访问什么资源	IAM 控制访问权限，但不监控授权用户的具体操作；DLP 关注是否在做不应做的事
CASB	云服务的安全代理	CASB 提供云应用可见性和控制，部分产品集成 DLP；独立 DLP 的内容检测通常更深入
SIEM	安全事件聚合和分析	SIEM 收集和关联日志，DLP 专注内容检测；DLP 事件常作为 SIEM 的数据源之一
EDR / XDR	终端 / 扩展威胁检测响应	EDR 关注恶意行为，DLP 关注数据流向和内容；内部威胁场景两者互补
数据分类工具	数据的标记和分级	数据分类是 DLP 的前置步骤；很多 DLP 产品已内置自动分类能力

实施常见挑战

误报管理

过于激进的策略会产生大量误报，影响正常业务并导致「告警疲劳」。需要持续调优策略，结合上下文减少误报。

加密流量检测

HTTPS 普及后，网络 DLP 需要 SSL/TLS 解密才能检测加密流量，带来性能和隐私合规挑战。

云和移动场景

数据散布到 SaaS、移动设备和远程办公各处。传统的网络边界 DLP 必须结合终端代理和 API 集成。

内部威胁

有合法访问权限的内部人员造成的泄露最难应对，需要结合用户行为分析（UEBA）技术。

多语言与编码

需要支持中、日、韩等 CJK 字符集和不同编码格式（UTF-8、GBK 等）的内容检测。

合规与隐私平衡

DLP 监控本身可能触及员工隐私法规，部署时需要明确告知、最小必要和审计追溯。

关键术语

Content Inspection

内容检测

对数据内容进行深度分析以识别敏感信息，包括正则、关键词、文档指纹等方法

Context Analysis

上下文分析

基于数据来源、目标、用户身份、时间等上下文判断操作是否合规

Policy

策略

定义什么类型数据在什么条件下允许或禁止什么操作的规则集

Data Fingerprinting

数据指纹

对结构化数据计算特征哈希，用于精确匹配特定数据集

Exact Data Match (EDM)

精确数据匹配

将待检测内容与预定义敏感数据集进行精确比对，如员工信息表

Document Fingerprinting

文档指纹

对非结构化文档计算哈希特征，识别完整或部分副本的传播

OCR

光学字符识别

对图片和扫描文档中的文字进行识别和提取，防止通过截图绕过检测

False Positive / Negative

误报 / 漏报

误报：将正常数据识别为敏感；漏报：未能检测到真正的敏感数据。需要平衡

Incident Response

事件响应

DLP 检测到违规后触发的处理流程，包括告警、拦截、隔离和通知

UEBA

用户行为分析

基于行为基线检测异常的内部活动，常与 DLP 联动应对内部威胁

本平台的技术实现

DLP Insight 当前采用高速DLP核心引擎做多模式预筛（可回退至纯正则），支持 PDF / Word / Excel / PPT / 图片 / 纯文本等多格式解析，集成高速OCR引擎和 IP 地理画像，检测规则涵盖中国身份证、手机号、银行卡（Luhn 校验）、邮箱、护照、美国 SSN、香港身份证、IBAN 等 8 类敏感信息。

高速DLP核心引擎

多模式匹配引擎，单次扫描完成大量正则规则的并行预筛，毫秒级响应。

多格式文本提取

PDF / DOCX / XLSX / PPTX / TXT / CSV / JSON / XML 一站式解析。

图像 OCR

中英文图像文字识别，防止通过截图或扫描件绕过文本级检测。

IP 地理画像

定位上传源 IP 的地理位置，结合地区合规法规给出风险建议。

Luhn 校验

银行卡号经过 Luhn 算法验证后才记为命中，显著降低误报率。

8 地区合规库

预置中国 PIPL、欧盟 GDPR、美国 HIPAA、香港 PDPO 等 8 个地区的合规要点。