Q
我在向客戶介紹如何使用AI方法設計一款客戶產品時,客戶理解,AI嵌入式項目的開發都是圍繞數據展開的,如此,我經常會被問到這樣的問題:客戶的工程師需要采集多少數據,才能形成合適的樣本集,進而開始訓練模型呢?
此時,回答“按需提供”或者“先試試看”似乎會變成一句車轱轆話,看似回答了問題,但客戶還是無從下手。
AI數據樣本的三個原則
這里,我以教孩子認識蘋果和鴨梨為例進行說明。假設一個小孩子不認識蘋果和鴨梨,在對真正的水果和鴨梨做判斷之前,我們只有一些蘋果和鴨梨的圖片可供孩子學習,此時可以做類比:
孩子用來記憶知識的大腦就是AI
預先準備好的圖片就是樣本
通過照片學習的過程就是訓練
脫離照片之后真的在一推水果里能挑選出蘋果和鴨梨的過程,就是推理過程。
好了,我們開始分析。
合適的AI數據集中的樣本數據,需要滿足如下的三個原則:
獨立性。在訓練的初期,盡量選擇用正常的蘋果鴨梨的照片給孩子用于學習,盡量避免使用各種畸形或者怪異的樣本影響孩子的第一印象。如果客觀存在似是而非的情況,我們甚至可以專門為這些特殊的樣本設計第三個分類“不確定”,從而避免對正常樣本的判斷。
平衡性。在提供樣本數量上,盡量讓不同分類的樣本平均分配,例如,如果提供100張蘋果和100張鴨梨的照片,孩子能夠公平地對蘋果和鴨梨都建立相當的印象。但如果用100張蘋果和1張鴨梨的照片提供給孩子學習,孩子對蘋果的印象更加深刻而忽略掉那唯一的一張鴨梨的照片。在實際判別時,也會更傾向于將他看到的任何類似的水果判定為蘋果。
顯著統計性。由于樣本是人工或者外力參與標定的,在反應客觀規律的時候,也可能存在系統偏差,出現少量的異常,或者在信號分析的領域里稱為“噪聲點”。因此,在用于訓練AI模型之前對數據進行預處理的環節,也會利用統計學規律對數據進行初步篩選,例如,使用正態分布的規律,對某一分類下的所有樣本中,遠離平均水平(明顯不靠譜)的數據剔除,否則在后期訓練中容易出現“過擬合”的情況,從而導致最終訓練的AI模型的規模異常增大,并且也有可能偏離實際的規律。
在具體實踐過程中,需要系統專家設計好標定環境,需要人工標注樣本數據的分類,相當于,先為測試考核提供提供參考答案。這涉及到硬件電路系統和軟件工具鏈的搭建工作。
然后,在滿足這三個的基礎上,可以根據實際情況采集少量樣本。實際上,嵌入式系統的數據量通常都比較大產生速度也比較快,例如,在使用AI方法在拉弧檢測的應用中,使用500KSps的ADC采樣率,每秒鐘就可以采集到一條包含50萬個數據點的,而用于判定拉弧的采樣窗口大多在1ms以內,500個采樣點就可以構成一個標定為“有拉弧”或者“無拉弧”的樣本,如果不考慮窗口重疊的情況,每秒鐘就至少可以產生1千條樣本。如此可以看出,在初期很容易獲得數量相當的樣本。
之后,算法工程師使用獲取的樣本集構建AI模型并訓練,試著描述樣本數據的規律,通過分析模型的訓練結果(例如準確率、推理時間等性能),對進一步采集數據提供指導。
如此反復多次,直到AI模型的準確率、性能等指標達到預期,即可收斂。
通過迭代摸索數據的門道
所以,簡而言之的回答,還是“先采集數據,試試看訓練模型,然后逐漸摸索出門道,在循環迭代的過程中完善數據集,最終達到產品要求即可”。
-
嵌入式AI
+關注
關注
0文章
36瀏覽量
1119 -
AI大模型
+關注
關注
0文章
367瀏覽量
509
原文標題:嵌入式AI技術漫談——為訓練AI模型采集樣本數據
文章出處:【微信號:瑞薩MCU小百科,微信公眾號:瑞薩MCU小百科】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
評論