數據的數量和變化對于大多數 ML 模型(例如深度學習神經網絡模型)的性能非常重要。因此,神經網絡模型的訓練需要一個非常大的數據集。只有它才能達到生產就緒模型中預期的精度。
假設您有少量可用的數據集,不足以訓練模型,并且您不知道如何生成具有所需數據變體的足夠數據集。這正是“數據增強”有助于實現的目標。
什么是數據增強?
數據增強是一種通過向現有數據集添加某些變體并將其添加到原始數據集以生成“略微修改和乘法”數據來人為增加數據集體積的技術。您可以獲取數據集中的所有可用樣本,并以不同的方式對其進行多次修改,以獲得更大的數據集。
數據集在模型訓練中的重要性
機器學習管道的第一階段是生成或獲取用于訓練機器學習模型所需的數據集。機器學習模型足夠智能,可以識別訓練的對象。但是,如果他們不是培訓的一部分,他們就不那么聰明,無法處理不同的場景。
例如,如果訓練模型時所有訓練圖像僅在一個特定方向上對齊,則它可能無法識別水平和/或垂直翻轉圖像中的對象。這樣做的原因是它產生的特征與它在訓練期間學習的特征不同,即使它們屬于同一個對象。
在大多數情況下,高質量數據的可用性始終是一個大問題。它可能少量可用,也可能根本不可用。在這種情況下,收集足以達到所需精度的數據集將是一個挑戰。如果數據集的數量不足或變化程度不高,則可能導致擬合不足或過度擬合。
為什么數據增強很重要?
在機器學習模型中,收集和標記數據是一個繁瑣且成本高昂的過程。數據增強可以轉換為數據集,幫助組織降低運營成本。同時,它解決了數據集大小有限和數據變化有限的問題。這提高了模型在各種方案中的整體性能。
它是如何工作的?
根據數據集的類型,可以使用不同的數據增強技術。有許多數據增強技術可用于圖像/視頻、音頻和文本數據。我們將詳細探討圖像/視頻數據增強方法。
圖像/視頻中的數據增強技術
圖像/視頻將 RGB 信息存儲在 2D 數組中。主要的數據增強技術可能是改變圖像的方向、改變圖像的分辨率/大小以及改變 RGB(像素)值。
這些選項的不同組合可以導致更多的增強方法。imgaug庫提供了許多不同的圖像數據增強選項,如下所示。
算術:-此類操作更改整個圖像或其某些部分的像素值。加法和乘法選項將像素值相加和相乘一個隨機數(在預定義范圍內生成)。對于所有像素,此數字可能相同,對于相鄰像素,此數字可能不同。有一些選項可以將隨機像素或像素簇設置為常量值。類似的選項是為整個圖像添加某些噪點。此外,還可以反轉像素值
藝術的:-此類別提供了將圖像樣式轉換為卡通圖像的選項
模糊:-此類別提供了不同的選項來模糊圖像內容。可能的選項是GaussianBlur,AverageBlur,MedianBlur,BilateralBlur,MotionBlur,MeanShiftBlur
顏色:-此類操作針對色彩空間、亮度、色調和飽和度。色彩空間選項的一個示例是將 RGB 轉換為 HSV,然后將隨機值(每個圖像均勻采樣)添加到 Hue 通道,并轉換回 RGB。有一些選項可以對亮度、飽和度和色調執行加法和乘法運算。
反差:-此類操作專用于對比度處理。可用選項包括伽馬對比度、Sigmoid 對比度、對數對比度、線性對比度
卷 積:-顧名思義,此類操作與具有預定義矩陣值的卷積圖像有關。它提供了更改清晰度、添加浮雕效果和檢測圖像邊緣的選項
空翻:-這是一個廣泛使用的選項,它具有水平和/或垂直翻轉圖像的選項
幾何:-此類操作可以縮放圖像(如放大和縮小),移動圖像(水平和/或垂直)并向圖像的另一端添加填充,以及旋轉圖像
Imgcorruptlike:-此類選項會向圖像添加不同的噪點,例如高斯噪點、散粒噪點、脈沖噪點、散斑噪點。它還提供不同的圖像模糊選項,如高斯模糊、玻璃模糊、散焦模糊、運動模糊、縮放模糊。此外,還可以應用霧、霜、雪和飛濺效果
大小:-此類別的選項執行與圖像大小相關的操作。可以根據特定的高度和寬度或調整大小的百分比調整圖像大小。圖像的裁剪和填充可以應用于圖像的特定大小
圖像數據增強通過生成所需級別的數據集,無疑提高了模型的準確性。
審核編輯:郭婷
-
神經網絡
+關注
關注
42文章
4812瀏覽量
103357 -
機器學習
+關注
關注
66文章
8500瀏覽量
134441 -
深度學習
+關注
關注
73文章
5558瀏覽量
122720
發布評論請先 登錄
評論