在今天,企業的安全和風險負責人需要判斷在研發、運維以及應用程序安全測試中使用人工智能或機器學習是否具有實際價值。他們必須能夠意識到應用人工智能和機器學習意味著需要相應的大量數據和人才,必須能夠預估人工智能安全實施的速度、準確性和其他潛在的現實問題。
▌關鍵挑戰
人工智能(Artificial Intelligence,簡稱AI)和機器學習是十分火爆的營銷術語,讓人難以區分是夸張的營銷還是會給用戶帶來價值。
夸張營銷使人工智能看起來很像一項偉大的新技術。面對復雜的數據分析,數據的安全性需求不斷增長,安全領域被譽為AI技術應用的完美領域。然而,我們并不確定AI是否總是在任何情況下幫助安全專家和風控專家,也不能確定AI是否在所有的場景下都比傳統安全方法更好。
企業數據治理的質量直接影響AI安全系統的效果和質量,AI系統供應商往往不向用戶預先強調這一點,使得AI系統的應用與安全很難見效。
▌建議
為了支持應用和數據安全:
請明確是否使用AI技術的安全產品比傳統產品有更快的速度和更高的準確性,并且效果的提升程度值得花成本更新換代。
請定義相應的質量指標基準,以評估AI技術用于異常檢測和安全分析的效果。
請明確使用AI技術是否可能影響當前業務流程。確認本公司人員的技能是否能夠滿足AI技術應用的要求,確認算法模型需要重新訓練的頻率以及數據整理的工具是否靠譜。
在購買人工智能安全產品前,請使用自己已有的數據和基礎設施運行測試,或建立一個POC系統用于“快速試錯”,從而確定人工智能安全產品的影響范圍。
AI安全系統評估和管理實施人員要熟悉項目所使用的數據類型以及期望的結果,給他們分配必要的資源,使他們將成為您安全流程的重要組件。
▌策略規劃預測
現在10%安全廠商聲稱自己是AI驅動的。到2020年,會有40%的廠商聲稱自己是AI驅動的。
▌介紹
“人工智能”是一個廣泛的術語,涵蓋大量迥然不同的技術和算法。最近,AI在深度學習、機器學習和自然語言處理方面取得很大的進展,AI技術已從一個小眾科技領域提升到主流商業軟件領域,并廣泛應用于客戶支持、安全、預測分析和自動駕駛等領域。
然而,由于技術處于風口,人工智能也成為一種流行的營銷術語,這使得沒有AI背景知識的客戶很難評估其在產品中是否真的使用了該項技術,以及它是否提供比傳統技術更多的好處。根據Gartner的調查,從2015年到2016年,基于對此項新技術的濃厚興趣及獲利心理,有關安全和AI技術相關的項目立項數量增加了三倍以上。
在應用安全性方面這種現象更加普遍, AI技術已經成為安全研發運維環境領域中的常用工具,例如應用程序安全測試(AST)和網絡流量分析,安全信息和事件管理(SIEM),用戶和實體行為分析(UEBA;請參閱“2016年快速發展的安全分析狀態”)等。但是,像所有技術一樣,AI技術也有其局限性,而且實施應用的成功性往往依賴于對現實的結果類型。本文為如何評估人工智能和機器學習提供了指導方針,幫助安全負責人確定本企業是否能夠真正有效的實施AI。常見的可商業化AI技術如圖1所示。
圖1 常見AI商業技術
▌分析
鑒別AI供應商的真實能力,確定他們是否對現有系統有可觀的改進
企業安全負責人應審慎地看待基于AI技術的產品宣傳。雖然AI是一個了不起的營銷術語,但它只會在處理某些安全問題時有效,而這些安全問題往往具備大量易于理解的數據集。
靜態AST中的誤報就是一個很好的實例。即使中等規模的項目,安全測試工具也會產生大量的數據,這些數據都很容易理解,而數據反饋則可以從人類專家那里獲得,輸出的準確性可以按照現有流程進行評估,AI技術的成功應用就順理成章。鑒別AI系統在安全方面是否適用,應具備下列一個或多個特征:
自動化——這是AI工具具備的最基本的特征。如果使用得當,AI工具就是一個能力倍增器,可以統一執行數十或數百名專家的工作,可以快速可靠地部署多個方向的多項任務。訓練有素的人工智能的處理速度比專家團隊快幾個數量級。但如果無法有效的利用資源,草率獲得的自動化結果其實趕不上傳統技術獲得的結果。
準確性——這是AI工具具備的最大優勢。它所具有的專家級別的安全功能可以獲得近似于人類甚至比人類更好的精度。多名專家的技能可以合并成一個分析技能,并根據所使用的技術,對現有問題產生新的見解。
預警——人類專家最終可能會對代碼和測試結果感到疲勞或者忽略一些細節,而機器學習則可以無限期地保持客觀性水平。在整個產品開發中,專家的在專業知識擴展方面的進展始終是困難和昂貴的,而AI技術相對來說比較容易和便宜。
多參數間的關聯——機器學習是針對大量數據進行訓練并在生產過程中保持學習,因此,有可能將不相關的事物功能關聯起來,為人類提供有效的數據挖掘,而這些對于人類來講都是難以實現且非常耗時的工作。
例如,IBM為SAST結果提供擴展分析以減少誤報,這種分析能將多個漏洞進行相關聯,以便利用單一方法進行修復。 IBM的這種智能分析(IFA)消除了因誤報、噪音或探索效率低而產生的結果。也可以集中過濾后的結果,過創建“修復組”來分析多個漏洞痕跡。這一功能也逐漸被其他SAST提供商所采用。
通過定義質量的度量基準來評估AI技術用于異常檢測和安全分析的功效
“任何充分操縱的演示都無法判斷產品的真實效果。”
——某牛逼金融服務公司負責安全開發的執行總監
許多供應商對AI技術的宣傳是牛逼的不行,但是對于實際效果,不可不信也不可全信。關鍵在于那些支撐這種宣傳效果的客觀數據。最近,機器學習和深度神經網絡的技術突破大大提高了效果的速度和準確性,所以也許那些夸張的效果是真的,但是也可能是銷售在吹牛。
我們必須保持清醒的認識,新技術并不一定是更好的檢測方法。例如,異常檢測本身就可以通過很多基本技術來實現:
特征指紋技術,適用于攻擊者為已知的條件。
模式匹配和策略技術,適用于攻擊技術為已知的條件。
白名單,適用于其預期的行為已知(并且保持一致)的條件。
基于此,開發獨立于技術本身的評估框架,準確評估新技術與現有解決方案的優劣至關重要。
在技術先進性的評估流程中,第一個目標是定義評估預期結果的質量指標,這些質量指標必須和技術實現路徑無關。以兩個重要的機器學習應用為例:異常檢測(用于提高檢測率)和安全分析自動化(用于減少誤報,聚合原有事件為新事件并產生推薦策略):
異常檢測的質量指標包括部署的范圍(“它能看到一切嗎?”)、檢測率和誤報率。
安全分析自動化的質量指標包括解決事件的平均時間或解決事件的百分比(對照原有基準條件)。
當然獲得公平的評估比較困難,尤其是評估不同時期的不同技術。因此,質量指標應進一步合理化,以保證評估結果更公平。
當評估供應商宣傳的技術時,請提出以下問題:
通過AI技術解決的問題占總問題的百分比是多少?AI技術能否處理實際關鍵問題?
系統是否持續學習,還是需要定期的“逐步學習”?
供應商所提供訓練數據的起源和范圍是什么?它與本公司的數據有多少相似度?
您的結果來自中立的第三方還是案例研究?
這些結果比我們現在使用的傳統技術要好多少?
這是增強了核心安全,還是外圍安全需求?
為了成功的使用AI產品,我需要對現有員工進行哪些改變(例如,我是否需要聘請數據科學家)?
供應商是否實現了“網絡效應”? (可以與其他客戶分享結果)
供應商將什么數據發送到自己的服務器? (這個問題涉及隱私保護)
如有可能,詢問現有客戶已使用的案例,尤其是那些供應商不賺錢的產品。另外,關注整個產品的實施成本,特別是在咨詢和數據治理方面。
例如,一個中型保險公司正在評估一個具有“AI組件”的靜態分析工具。據了解,作為完整結果管理的一部分,該工具的準確度似乎并不比傳統的非AI技術好。經過調查,發現分析單元里根本沒用AI技術,僅僅是毫無關聯的幫助系統用了點AI技術。
使用AI技術造成的流程改變及對員工技能的新要求
機器學習或其他AI技術所獲得的結果在很大程度上取決于用于訓練的數據。如果訓練數據的質量較差,那么最先進的數學算法也無法幫助您實現目標。 “垃圾進垃圾出”的原則非常適用描述這種情況。也就是說,系統輸入不好,輸出結果也不會好。因此,數據治理的缺失往往是導致失敗的關鍵因素。為了獲得有效的成果,您可能需要調整流程和人員配備。
因此,在評估AI產品時,請詢問供應商以下問題:
該模型多長時間需要重新培訓,這項功能是您提供還是我們業主的責任?
有哪些工具可用于數據治理以及需要多少數據做訓練?
我是否需要聘請數據科學家,或者可以使用現有員工代替?
當最終結果失去準確性時,識別和清除產品中的不良數據有多困難?
如果準確的結果隨時間推移而惡化,我需要做什么?
該產品是否支持持續訓練和調整?
購買前建立運行試點或POC,使用自己的數據和測試架構進行快速驗證
安全負責人在購買AI產品前首先要建立數據運行試點,用企業已有的數據進行驗證,或建立POC進行快速驗證。這種方式有助于迅速了解產品存在的問題和是否需要改變現有流程,是否需要聘用專業技術人員以及使用此技術會帶來哪些收益。這也有助于深入理解本單位的數據數據治理的需求,并判斷技術實現的速度和準確性。當然,評估的指標一定要是可量化的指標(例如精度、速度、結果質量等)。
試點之前,有必要設定清晰的可量化目標。如果您希望您的團隊花更少的時間追查誤報,那么量化的指標應該是結果的準確性、分析速度或從錯誤識別到最終修復的周期。
指派專人評估和管理AI,使它成為您安全流程的一個重要組件
隨著數據和產品復雜性的增加,人工智能逐漸成為安全產品中的基本技術。然而,隨著公司并購或撤資,供應商市場也會隨之迅速發生變化。分配一個專門的安全人員來規劃和管理企業內部的AI項目成為必然趨勢。專職人員必須要熟悉您的項目所使用的數據類型,以及您期望的結果類型。
可以考慮聘請一位數據科學家,這類人才需要具備AI技術有效性的評估能力、數據治理方面的專業知識。最好是數據或計算機科學專業,這類人才需要具備機器學習、深度學習、神經網絡或其他AI技術方面的專業知識。針對單個項目或者小公司,這項任務可以由專人承擔,或者可以雇一個兼職顧問。
針對擁有多個項目的大型企業,這項任務應細化到幾個人或一個小團隊。 AI項目責任的集中減少了任務的重復率并提高了工作的一致性。AI團隊的職責應包括:對AI產品的評估,企業數據的管理,AI生命周期的管理以及制定整個公司AI計劃和政策。
在企業層面,這種設置可以避免在不同的部門中割裂專業知識,浪費人員或造成專業知識的瓶頸。隨著人工智能成為一種常見的技術,這種設置將使您的企業更靈活,最快使用靠譜的最新技術,并使您能夠多快好省采購新產品和規劃企業的數據倉庫。
針對最后三點內容,這里用一個很好的實例來說明:一家大型華爾街金融服務公司希望加快其應用程序的安全掃描,并將其作為研發運維升級的一部分,因此它購買了基于機器學習的安全產品。該產品可以發現高風險缺陷和不穩定的編譯問題。理論上,該工具應該非常有效;然而,該公司花了三個月的時間并沒有獲得預期的準確性。
原因是負責該試點項目的員工雖然參與過AI項目,但是并沒有使用該產品的直接經驗,也沒有受過人工智能培訓。于是,該公司聘請了一位數據專家作為顧問,他很快發現訓練數據并沒有得到正確的管理。反饋的數據結果在重新測試之前沒有進行甄別(即將人的反饋放入循環中),而是將所有測試數據是簡單地轉儲到一個大型的、無區分的數據池中訓練的。盡管有些機器學習產品可以理解這種未甄別的反饋數據,但公司測試的產品卻不能。故事的最后,該企業全職雇用了這個數據科學家來管理整個企業的所有AI項目,取得了良好的效果。
▌詞匯術語
Gartner推薦閱讀
"Hype Cyclefor Smart Machines, 2016"
"Artificial Intelligence Primer for 2017"
"Predicts 2017: Artificial Intelligence"
"Top 10 Strategic Technology Trends for 2017: ArtificialIntelligence and Advanced Machine Learning"
"The Fast-Evolving State of Security Analytics, 2016"
"Top 10 Strategic Technology Trends for 2017: A Gartner TrendInsight Report" "How to Define and Use Smart Machine TermsEffectively"
證據
1.根據2015年Gartner客戶有關機器學習和AI在安全方面的詢問數量(約20項查詢)與2016年(約60項)的比較,以及2017年1月至4月期間的約60項。
2.“深度學習 ——擁有大量的計算能力,機器現在可以識別物體并實時轉換語音,人工智能最終變得更加智能。” MIT技術評論。
▌人工智能概念概述
“人工智能”有許多方法,每種技術在應用安全領域都具有一定的優勢。 “人工智能”是一個被銷售濫用的誤導性標簽,不存在一種通用的人工智能可以像人類一樣思考或適用于各種各樣的任務。
AI技術主要指的是根據收集的數據,使用情況分析和其他觀察結果進行預測的系統。換言之,每種方法都是一種特殊的數據分析技術,異常復雜,能夠從示例中學習,并逐步成熟,但專注于一組非常狹窄、定義明確的問題。圖1列出了商業上可用的一些常用技術,每種技術都有獨特的特性,可以將它們彼此區分開來。雖然在數學上有所不同,但在操作要求和一般原則上有相當大的共性。
常規AI技術所包含的要素有:
該產品通常需要大量與該問題相關的數據。
對數據進行治理,添加、標注或刪除特定子集對于實現有效的結果至關重要。
包括數據科學家和領域專家在內的許多人都參與其中。
需要花費數周至數月時間來開發一個能夠產生良好結果的模型。
一旦訓練完成,對于與訓練語料庫完全相同的問題,處理過程可以非常快速且非常準確。
機器學習是一種在安全領域廣泛使用的公認的人工智能學科,作為涵蓋許多基本思想的概念模型,現實世界中的機器學習除了這個簡單的描述外還有許多其他技術、改進和變形。然而,這個模型可以被看作是對一些常見領域中效益處和風險的抽象,我們可以用它來理解在企業安全中評估AI產品的基本流程(參見圖2)。
圖2 評估AI產品的基本流程
AI系統從大量數據訓練開始,或稱為訓練集。這些數據是從要解決的實際問題實例中仔細挑選的,并存儲為知識庫。 例如,在語音識別中,它是一系列以特定語言閱讀的文本。在應用應用安全方面,這可能是AST或大量具有代表性的惡意軟件的輸出。
數據應由專家選擇(策劃),以便于更好的描述所研究的問題并最終形成可以識別的產品模型。 在數據整理期間,為模型提供正例和負例同樣重要 。異常檢測模型同時需要這兩種場景,但是如果負樣例數據太多,或者負樣例不足,都會降低結果的質量。
對數據運行歸一化和聚類,最終確定一組特征向量。使用測試數據,可以驗證模型是否有效,可以獲得期望的結果。特征向量通常包含了太多細分維度的特征值,很難被任何其他系統或人類識別。這樣,機器學習算法被訓練成預測模型,他對驗證集數據的預測結果和已知的標定結果進行比對,可以獲得這個模型預測的精度。持續這種訓練和驗證過程,直到模型足夠精確。最終的生產模型包含數據特征、概率、標簽和其他數據的描述。
對于自進化模型,當模型被應用于現實世界,新的數據不斷輸入,特征向量不斷被提取并應用于產品模型當中,通過不斷的訓練更新模型。
應用于AST時,SAST工具的輸出可以輸入經過訓練的系統,以發現誤報。然后輸出結果將成為一定的置信區間內的誤報列表(或者已經濾除誤報的結果列表)。為了改善結果,可以檢查輸出,識別出新的誤報并將其反饋到訓練集中,并計算新的模型。隨著這個循環的繼續,新的信息被納入預測算法,理想狀態下能夠隨著時間的推移而改進(見圖3)。
圖3
-
人工智能
+關注
關注
1804文章
48789瀏覽量
247035 -
機器學習
+關注
關注
66文章
8494瀏覽量
134179
原文標題:人工智能安全:是營銷炒作還是全新機會
文章出處:【微信號:AI_Thinker,微信公眾號:人工智能頭條】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
NanoEdge AI的技術原理、應用場景及優勢
相位噪聲分析儀的技術原理和應用
電氣安規分析儀的原理和應用
通過開發集和度量指標加速迭代
AI:對物聯網安全的影響
【HarmonyOS HiSpark AI Camera】邊緣計算安全監控系統
基于TPM的系統綜合技術性能評估方法研究
軟件可信評估研究綜述

云模型的網絡異常流量檢測

評論