(文章來源:百家號)
從自動駕駛汽車等基于AI的大規模技術革命到構建非常簡單的算法,您都需要正確格式的數據。實際上,特斯拉和福特一直在通過行車記錄儀,傳感器和倒車攝像頭收集數據,并對其進行分析以制造出無人駕駛和全自動汽車,以確保安全的道路。
收集數據之后的下一步是準備數據的過程,這將成為本文的重點,并將在后續部分中詳細討論。在深入研究數據準備過程的概念之前,讓我們首先了解其含義。作為基于AI創新的大腦的數據科學家,您需要了解數據準備的重要性,以實現模型所需的認知能力。
什么是數據準備?數據是每個組織的寶貴資源。但是,如果我們不進一步分析該聲明,它可能會否定自己。 企業將數據用于各種目的。從廣義上講,它用于制定明智的業務決策,執行成功的銷售和營銷活動等。但是,這些不能僅用原始數據來實現。
數據只有經過清洗,貼標簽,注釋和準備后,才能成為寶貴的資源。數據經過適應性測試的各個階段后,便最終具備進行進一步處理的資格。處理可以采用多種方法-將數據提取到BI工具,CRM數據庫,開發用于分析模型的算法,數據管理工具等。
現在,重要的是您從此信息的分析中收集的見解是準確且值得信賴的。實現此輸出的基礎在于數據的健康狀況。此外,無論您是構建自己的模型還是從第三方那里獲得模型,都必須確保標記,擴充,干凈,結構化的整個過程背后的數據都經過標記,概括,即數據準備。
正如Wikipedia所定義的,數據準備是將原始數據(可能來自不同的數據源)操縱(或預處理)為可以方便,準確地進行分析的形式的行為,例如出于商業目的。數據準備是數據分析項目的第一步,可以包括許多離散任務,例如加載數據或數據攝取,數據融合,數據清理,數據擴充和數據交付。
根據Cognilytica的最新研究,其中記錄并分析了組織,機構和最終用戶企業的響應,以識別在標記,注釋,清理,擴充和豐富機器學習模型的數據上花費了大量時間。數據科學家80%以上的時間都花在準備數據上。盡管這是一個好兆頭,但考慮到隨著良好的數據進入建立分析模型,準確的人會得到輸出。但是,理想情況下,數據科學家應該將更多的時間花在與數據交互,高級分析,培訓和評估模型以及部署到生產上。
只有20%的時間進入流程的主要部分。為了克服時間限制,組織需要利用用于數據工程,標記和準備的專家解決方案來減少在清理,擴充,標記和豐富數據上花費的時間(取決于項目的復雜性)。這將我們帶入了“垃圾中的垃圾”概念,即輸出的質量取決于輸入的質量。數據提取數據工作流程的第一階段是提取過程,通常是從非結構化源(如網頁,PDF文檔,假脫機文件,電子郵件等)中檢索數據。部署從網絡中提取信息的過程稱為網絡刮。
數據概要分析是檢查現有數據以提高質量并通過格式帶來結構的過程。這有助于評估質量和對特定標準的一致性。當數據集不平衡且配置不當時,大多數機器學習模型將無法正常工作。數據清理可確保數據干凈,全面,無錯誤,并提供準確的信息,因為它不僅可以檢測文本和數字的異常值,還可以檢測圖像中無關的像素。您可以消除偏見和過時的信息,以確保您的數據是干凈的。
數據轉換是對數據進行轉換以使其均勻。地址,名稱和其他字段類型之類的數據以不同的格式表示,數據轉換有助于對此進行標準化和規范化。數據匿名化是從數據集中刪除或加密個人信息以保護隱私的過程。數據擴充用于使可用于訓練模型的數據多樣化。在不提取新信息的情況下引入其他信息包括裁剪和填充以訓練神經網絡。
數據采樣識別大型數據集中的代表性子集,以分析和處理數據。特征工程是將機器學習模型分類為好模型還是壞模型的主要決定因素。為了提高模型的準確性,您可以將數據集合并以將其合并為一個。
(責任編輯:fqj)
-
數據
+關注
關注
8文章
7254瀏覽量
91799 -
機器學習
+關注
關注
66文章
8501瀏覽量
134553
發布評論請先 登錄
評論