數據脫敏是數據安全領域落地場景較為成熟的技術手段,在數據深層次、大范圍的共享開放的今天,數據脫敏在不影響數據使用的前提下保護敏感隱私數據,已成為數據安全建設重要內容。
本文通過對數據脫敏技術及應用場景等進行梳理,為各行業用戶更好的實施數據脫敏技術提供指南,主要內容包括以下四個方面:
▼數據脫敏法規政策合規依據
▼數據脫敏技術定義及實施過程解析
▼數據脫敏典型應用場景
▼數據脫敏管理體系的建立
數據脫敏法規政策合規依據
《網絡安全法》第四十二條:網絡運營者不得泄露、篡改、毀損其收集的個人信息;未經被收集者同意,不得向他人提供個人信息。但是,經過處理無法識別特定個人且不能復原的除外。
《數據安全法》第二十七條:開展數據處理活動應當依照法律、法規的規定,建立健全全流程數據安全管理制度,采取相應的技術措施和其他必要措施,保障數據安全。
《個人信息保護法》第五十一條:個人信息處理者應當根據個人信息處理目的、處理方式、個人信息的種類以及對個人權益的影響、可能存在的安全風險等,采取相應的加密、去標識化等安全技術措施。
《信息安全技術 網絡安全等級保護基本要求》明確規定:二級以上保護則需要對敏感數據進行脫敏處理。H.4.3安全計算環境 “大數據平臺應提供靜態脫敏和去標識化的工具或服務組件技術。” H.4.5安全運維管理 “應在數據分類分級的基礎上,劃分重要數字資產范圍,明確重要數據進行自動脫敏或去標識使用場景和業務處理流程。”
《網絡數據安全管理條例(征求意見稿)》第十二條:數據處理者向第三方提供個人信息,或者共享、交易、委托處理重要數據的,應當遵守:(一)向個人告知提供個人信息的目的、類型、方式、范圍、存儲期限、存儲地點,并取得個人單獨同意,符合法律、行政法規規定的不需要取得個人同意的情形或者經過匿名化處理的除外。
典型行業:金融行業合規要求
《中國銀行業“十二五”信息科技發展規則監管指導意見》:加強數據、文檔的安全管理,逐步建立信息資產分類分級保護機制。完善敏感信息存儲和傳輸等高風險環節的控制措施,對數據、文檔的訪問應建立嚴格的審批機制。對用于測試的生產數據要進行脫敏處理,嚴格防止敏感數據泄露。
《金融行業網絡安全等級保護實施指引》:應將開發環境、測試環境、實際運行環境相互分離,敏感數據經過脫敏后才可在開發或測試中使用。
《金融數據 安全數據生命周期安全規范》:開發測試等過程的數據,應事先進行脫敏處理,防止數據處理過程中的數據泄露,國家及行 業主管部門另有規定的除外。
《商業銀行信息科技風險現場檢查指南》: 開發過程中是否使用了生產數據,使用的生產數據是否得到高級管理層的批準并經過脫敏或相關限制。”“測試用例是否有生產數據,當使用生產數據測試時是否得到高級管理層的審批并采取相關限制及進行脫敏處理。
典型行業:電信和互聯網行業合規要求
《電信和互聯網行業數據安全 標準體系建設指南》:數據處理 數據處理標準用于規范敏感數據、個人信息的保護機制 及相關技術要求,明確敏感數據保護的場景、規則、技術方 法,主要包括匿名化/去標識化、數據脫敏、異常行為識別等標準。
《電信和互聯網行業提升網絡數據安全保護能力專項行動方案》:指導電信和重點互聯網企業加強內部網絡數據安全組織保障,推動設立或明確網絡數據安全管理責任部門和專職人員,負責承擔企業內部網絡數據安全管理工作,督促協調企業內部各相關主體和環節嚴格落實操作權限管理、日志記錄和安全審計、數據加密、數據脫敏、訪問控制、數據容災備份等數據安全保護措施,組織開展數據安全崗位人員法律法規、知識技能等培訓。
《電信網和互聯網數據脫敏技術要求與測試方法》:提出了數據脫敏技術應用架構,并且總結了在實際應用數據脫敏技術過程中,主要涉及的三個要素:脫敏算法、脫敏規則、脫敏策略。此外標準還提出了數據脫敏后的效果評估策略。
《電信網和互聯網數據安全評估規范》:查驗企業數據脫敏處理管理規范和制度文件,是否明確數據脫敏處理使用應用場景,明確數據脫敏規則、脫敏方法、數據脫敏處理流程、涉及部門及人員的職責分工等。查驗企業數據脫敏處理管理規范和制度,企業業務和業務支撐系統在數據權限和資源的申請階段,是否由該數據的數據安全管理負責人員評估使用真實數據的必要性,以及確定該場景下適用的數據脫敏規則及方法。
查驗數據脫敏處理管理規范和制度,是否建立數據脫敏處理技術應用安全評估機制,對脫敏后的數據可恢復性進行安全評估,是否對于可恢復形成原始數據的脫敏方法(含算法)進行安全加強。演示企業業務測試系統數據庫,企業是否使用未脫敏的數據用于業務系統的開發測試。查驗演示企業數據脫敏工具,是否能對數據脫敏處理過程相應的操作進行記錄,提供數據脫敏處理安全審計能力。
數據脫敏技術定義及實施過程解析
01
數據脫敏的定義
數據脫敏是指對某些敏感信息通過脫敏規則進行數據的變形,實現敏感隱私數據的可靠保護。在涉及客戶安全數據或者一些商業性敏感數據的情況下,在不違反系統規則條件下,對真實數據進行改造并提供測試使用,如身份證號、手機號、卡號、客戶號等個人信息都需要進行數據脫敏。
02
數據脫敏發展歷程:
▼人工脫敏階段:多為SQL腳本方式,在ETL處理過程中進行脫敏,該方式工作量大、數據處理效率低,同時存在數據質量差、無法保證數據結構的完整性、數據間的關聯性。
▼平臺脫敏階段:融合了敏感數據自動發現、系統流程化脫敏、支持豐富數據源、脫敏算法庫充足、敏感類型豐富等功能,從而減輕人工成本的同時提升效率,保證數據脫敏的基本訴求。
▼自動脫敏階段:通過應用機器學習等技術,結合各類數據分類分級規則及已實際使用的數據脫敏策略及規則,實現自動化實時敏感數據發現、自動化脫敏規則匹配等智能化數據脫敏的結果。同時,具備分布式等多種部署支持,智能性能分析,自動化調優等能力。
03
數據脫敏關鍵技術能力:
1、高仿真能力:
▼保持數據原始業務特征
▼保持數據之間的關聯性
▼保持數據之間邏輯一致性
▼業務依賴數據對象同步
2、豐富數據源支持
▼關系型數據庫支持
▼大數據平臺支持
▼特殊文件類型支持
▼消息列隊支持
3、內置豐富脫敏規則
▼支持多種數據脫敏算法
▼支持組合脫敏、自定義分段規則
▼具備細粒度數據處理能力
4、高處理效率
▼單臺設備性能最大化
▼具備增量脫敏能力
▼支持分布式部署
04
數據脫敏分類:
類型 | 常用場景 | 具體例子 |
靜態數據脫敏 | 靜態數據脫敏通常用于非實時場景。 | 將生產環境中的數據脫敏用于測試環境。 |
動態數據脫敏 | 動態數據脫敏通常用于生產環境等實時場景,在應用或平臺用戶訪問敏感數據的同時進行脫敏,用于解決根據不同情況對統一敏感數據讀取時需要進行不同級別、類型脫敏的場景。 | 適用于對生產數據共享或時效性很高的數據訪問場景等,實現對生產數據庫中的敏感數據進行透明、實時脫敏。 |
如上圖所示:動態脫敏會對數據進行多次脫敏,更多應用于直接連接生產數據的場景,在用戶訪問生產環境敏感數據時,通過匹配用戶IP或MAC地址等脫敏條件,根據用戶權限采用改寫查詢SQL語句等方式返回脫敏后的數據。例如運維人員在運維工作中直連生產數據庫,業務人員需要通過生產環境查詢客戶信息等
05
脫敏算法推薦形態
算法 | 描述 | 適用數據類型 | 推薦脫敏形態 |
重排 | 跨行隨機互換原始敏感數據,打破原始敏感數據與本行其他數據關聯關系。 | 通用 | 動態脫敏、靜態脫敏 |
關系映射 | 原始敏感數據間存在業務關聯關系,需要在數據脫敏后仍舊保持關系。因此在脫敏處理中,利用算法表達式對脫敏后的數據進行函數映射,使其脫敏后仍舊保持業務關聯關系。 | 通用 | 動態脫敏、靜態脫敏 |
偏移取整 | 按照一定粒度進行偏移取整。 | 日期、時間、數字 | 動態脫敏、靜態脫敏 |
散列 | 對原始數據通過散列算法計算,使用計算后的散列來代替原始數據。 | 通用 | 動態脫敏、靜態脫敏 |
加密 | 通過加密密鑰和算法對原始數據進行加密,從而使敏感數據變成不可讀的密文。 | 通用 | 靜態脫敏 |
格式保留算法(FPE) | 一種特殊的加密脫敏算法,對敏感數據進行加密脫敏,密文與原始數據保持格式一致。 | 通用 | 靜態脫敏 |
常量替換 | 使用常量偽裝數據對原始數據進行替換(偽裝數據生成與原始數據值無關)。 | 通用 | 動態脫敏、靜態脫敏 |
隨機替換 | 保持數據格式,按照特定原始數據的編碼規則重新生成一份新的數據。 | 通用 | 動態脫敏、靜態脫敏 |
截斷 | 截斷內容 | 通用 | 動態脫敏、靜態脫敏 |
標簽化 | 按照預定類別進行分類,將使用類別標簽替換原始敏感數據。 | 通用 | 動態脫敏、靜態脫敏 |
泛化 | 用更一般的值取代原始數據,降低敏感數據精確度,達到無法識別個體的目的。 | 通用 | 動態脫敏、靜態脫敏 |
匿名 | 通過對數據內容的處理,保證在數據表發布時,數據中存在一定量的準標識符上不可區分的記錄。 | 通用 | 靜態脫敏 |
差分隱私 | 在原數據中加入噪音信息,使得滿足差分隱私的數據集能夠抵抗任何對隱私數據的分析。 | 數據集 | 數據脫敏 |
浮動 | 通過浮動脫敏算法,上浮、下降5%。 | 數據集 | 靜態脫敏 |
歸零 | 通過歸零算法對原數據381.38進行脫敏。 | 數據集 | 靜態脫敏 |
均化 | 通過均化算法進行脫敏。 | 數據集 | 靜態脫敏 |
分檔 | 將數據按照規模分為高、中、低三檔,分別進行脫敏。 | 數據集 | 靜態脫敏 |
掩碼 | 對原始數據的部分內容用通用字符進行統一替換,從而使敏感數據僅保持部分內容公開。 | 字符串 | 動態脫敏、靜態脫敏 |
06
數據脫敏常用算法與實例
算法名稱 | 算法說明 | 示例 | 使用場景(僅做參考) |
固定映射 | 通過設置映射種子,在映射種子不變的情況下,相同原數據脫敏后結果相同,并保留原始業務特征 |
映射種子:111 原數據:張三 一次脫敏結果:李四 二次脫敏結果:李四 |
中文姓名、身份證、電話、銀行卡、電子郵箱、地址、IP地址 日期、通用字符串、鍵、貨幣金額 醫療機構登記號、醫師資格證書、醫師執業證書 營業執照、社會統一信用代碼、組織機構代碼、稅務登記證、開戶許可證 護照、軍官證、中國護照、港澳通行證、永久居住證、臺灣同胞大陸通行證 證券名稱、證券代碼、基金名稱、基金代碼 |
隨機映射 | 對數值、字符或字符串進行隨機,并保留原業務特征 |
原數據:19841222 脫敏結果:19900211 |
中文姓名、身份證、電話、銀行卡、電子郵箱、地址、郵政編碼、IP地址 CCV碼 貨幣金額、通用字符串、字符串 醫療機構登記號、醫師資格證書、醫師執業證書 營業執照、社會統一信用代碼、稅務登記證、開戶許可證、組織機構代碼、組織機構名稱 護照、軍官證、中國護照、港澳通行證、永久居住證、臺灣同胞大陸通行證 證券名稱、證券代碼、基金名稱、基金代碼 |
遮蓋 | 通過設置遮蓋符,對原數據全部或部分進行遮蓋處理 |
遮蓋符:* 原數據:13512345678 脫敏結果:135****5678 |
中文姓名、身份證、電話、銀行卡、電子郵箱、地址、CCV碼、IP地址 組織機構代碼、組織機構名稱、營業執照、社會統一信用代碼 醫療機構登記號、醫師資格證書、醫師執業證書 護照、稅務登記證、開戶許可證、軍官證、中國護照、港澳通行證、永久居住證、臺灣同胞大陸通行證 證券名稱、證券代碼、基金名稱、基金代碼 |
范圍內隨機 (泛化脫敏) |
對日期或金額,在一個指定的范圍內進行隨機,并保留原業務特征 |
范圍1000至9999 原數據:38472.00 脫敏結果:8394.00 |
日期 貨幣金額 通用數值 |
保留隨機 | 選中分段保留,其他分段隨機 |
原數據:2020年10月10日 脫敏算法:【1900-2018】年、【01-12】月、【01-30】日 |
日期 |
浮動 | 對日期或金額,上浮或下降固定值或百分比,并保留原業務特征 |
上浮、下降5% 原數據:1000.00 脫敏結果:1049.00 |
日期 |
歸零 | 對于數值,清空并置為0.00 |
原數據:381.38 脫敏結果:0.00 |
通用數值 |
截取 | 對字符串按照起始位置進行截取 |
開始位置:2,結束位置6 原數據:abcdefghijk 脫敏結果:bcdef |
通用字符串 |
截斷 | 對字符串保留除起始位置意外的內容 |
開始位置:2,結束位置6 原數據:abcdefghijk 脫敏結果:aghijk |
通用字符串 |
數字截斷 | 將數字截斷,只保留指定位數 | 如12345678,保留“3位”,則為678。 | 通用數值 |
加密 | 通過不同的加密算法進行加密,脫敏后顯示的數據為密文數據 | SHA1加密、MD5加密、SHA256加密、AES對稱加密、RSA非對稱加密、SMS4加密等 |
中文姓名、身份證、電話、銀行卡、電子郵箱、地址、IP地址 郵政編碼(SHA1加密、MD5加密) 營業執照、社會統一信用代碼、組織機構代碼、稅務登記證、開戶許可證 醫療機構登記號、醫師資格證書、醫師執業證書 護照、稅務登記證、開戶許可證、軍官證、中國護照、港澳通行證、永久居住證、臺灣同胞大陸通行證 證券名稱、證券代碼、基金名稱、基金代碼 |
替換 | 將數據替換為一個常量,常用作不需要改敏感字段時 |
原值:566 原值:789 脫敏后: 566 - 0 789 - 0 |
通用字符串 |
匹配替換 | 通過EXCL表格導入替換規則,完成匹配替換 |
1111替換為2222 3333替換為4444 |
通用字符串 |
水印 | 通過數字水印打上水印標簽 | 偽行、偽列或者不可見字符 | 日期 |
偏移 | 小數點往左或往右進行偏移 | 如設定偏移量【2】,則脫敏結果可能為【28.00】 |
貨幣金額 通用數值 |
取整 | 對數字位數進行取整 |
如取整位數為2,則1988.65脫敏后為1900 如12345678,整數“3位”,則為12345000 |
貨幣金額 通用數值 |
分段 | 主要針對數字進行脫敏,可以將同一范圍的數值脫敏為相同的數值 |
如1~99的數值,統一脫敏未1 100~199的數值,統一脫敏為2 200~299的數值,統一脫敏為3 |
貨幣金額 |
其它脫敏算法:
算法名稱 | 算法說明 | 示例 | 使用場景(僅做參考) |
均值脫敏 | 我們先計算它們的均值,然后使脫敏后的值在均值附近隨機分布,從而保持數據的總和不變。 |
如學科總分500分 脫敏后各科學分相加還是為500分。 |
貨幣金額 |
哈希 | 將數據映射為一個hash值 |
Jim,Greenà456393 34453 |
用作將不定長的數據映射為定場的hash值。 |
07
數據脫敏策略
在設定具體場景下數據脫敏策略時應充分考慮數據脫敏后數據自身可用性及數據保密性尋求兩者間的平衡。數據脫敏策略的選擇如下顯示。數據脫敏的目標包括:
▼避免攻擊者識別出原始個人信息主體;
▼控制重標識的風險,確保重標識風險不會增加;
▼在控制重標識風險的前提下,確保脫敏后的數據集盡量滿足其預期目的;
▼選擇合適的數據處理方式保證信息攻擊成本不足以支撐攻擊動機。
08
數據脫敏實施流程:
1、敏感數據識別,對生產系統中敏感數據的識別,主要包括:
▼存儲位置:明確敏感數據所在的數據庫、表、字段(列);
▼數據分類、分級:明確敏感數據所屬類別及敏感級別。
2、策略選擇、算法配置,脫敏算法配置主要包括:數據脫敏后保持原始特征的分析、數據脫敏算法的選擇和數據脫敏算法參數配置。
▼保持原始數據的格式、類型;
▼保持原有數據之間的依存關系;
▼保持引用完整性、統計特性、頻率分布、唯一性、穩定性。配置需要脫敏的目標(數據庫名/表名/字段名)以及適當的脫敏算法參數,根據業務需求完成其他算法的參數配置。
3、數據脫敏任務執行階段,按照不同需求選擇,動態脫敏處理步驟和靜態脫敏處理步驟:
動態脫敏處理步驟:
▼協議解析:解析用戶、應用訪問大數據組件網絡流量;
▼語法解析:對訪問大數據組件的語句進行語法分析;
脫敏規則匹配:根據用戶身份信息及要訪問的數據;
▼下發脫敏任務:由脫敏引擎調度脫敏任務;
脫敏結果輸出:將脫敏后的數據輸出,保證原始數據的不可見。
靜態脫敏處理步驟:
▼數據選擇/策略配置:選擇待脫敏的數據庫及表,配置脫敏策略及脫敏算法,生成脫敏任務;
▼執行脫敏處理:對不同類型數據進行處理,將數據中的敏感信息進行刪除或隱藏;
▼將脫敏后的數據按用戶需求,裝載至不同環境中,包括文件至文件,文件至數據庫,數據庫至數據庫,數據庫至文件等多種裝載方式。
審核編輯:劉清
-
SQL
+關注
關注
1文章
780瀏覽量
44803 -
Mac
+關注
關注
0文章
1117瀏覽量
52610 -
機器學習
+關注
關注
66文章
8490瀏覽量
134080
原文標題:深度分析 | 萬字詳解數據安全關鍵技術之數據脫敏
文章出處:【微信號:談思實驗室,微信公眾號:談思實驗室】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
解鎖未來汽車電子技術:軟件定義車輛與區域架構深度解析
NVIDIA Blackwell數據手冊與NVIDIA Blackwell架構技術解析
?Diffusion生成式動作引擎技術解析
直流充電安全測試負載方案解析
充電樁負載測試系統技術解析
數字化車間中,如何有效實施數據中臺?
PLC數據采集在實施過程中存在的問題及解決方案
智能攤鋪壓實施工預警過程監測管理系統
數字孿生技術實施中的挑戰
USB協議分析儀的技術原理和應用場景
解析經典藍牙設備連接過程

評論