Hello 大家好,今天繼續為大家帶來eIQ Time Series Studio系列講解,上期咱們講到“Utilities”模塊中的“Data Labeling”數據標簽工具。數據標簽工具使用戶能夠通過可視化界面將相應的數據標簽(如電弧或無電弧)應用于當前數據圖形的不同部分,從而對導入的原始數據進行分類。然后,該工具根據標簽對原始數據進行細分,并創建用于訓練機器學習模型的優化數據集。本節會繼續介紹“Utilities”模塊中的“Data Intelligence”數據智能工具。
“Data Intelligence”
數據智能為用戶提供了一種非常有價值的工具,它能夠自動并智能地分析數據集,以完成分類和異常檢測任務。本節介紹數據集分析的過程,并列出了優化和重新收集數據的步驟,以提高性能并從分析結果中獲取更多數據信息。
數據智能的重要性
用戶通常根據自身經驗和對數據的了解導入時間序列數據集。然而,由于經驗和時間等限制,對數據的分析不夠全面無法得出令人滿意的結果。例如,采樣頻率可能高于相應的應用需求?;蛘?,對于分類任務,每個類別的訓練數據量可能不均衡。為了應對這些挑戰,數據智能工具可以幫助用戶評估數據集的平衡性,并確定各個數據通道/軸的重要性。該工具不僅標記不平衡的數據集,還會建議忽略冗余通道。此外,該工具還可以幫助確定最佳采樣頻率和窗口大小,從而優化數據集,提高質量和分析結果。
數據集配置
第一步是配置導入數據的必需參數(以分類示例中風扇狀態檢測為例)。
輸入以下信息:
數據集類型:“Segmented Data”分段數據或“Continuous Data”連續數據。
通道數:每個數據點由有多少個通道組成。
類別數:用戶數據需要分析的類別數。
使用的采樣頻率:用戶原始數據的采樣頻率。
最小頻率:可設置的最低分頻系數。
設置完成后,點擊“Confirm”按鈕,若有設置錯誤,可點擊“Reset”并重新配置。
設置通道數后,用戶可以為每個通道分配單獨的別名,有助于區分各個通道并便于用戶理解分析報告。
數據集導入
數據集配置后,導入用戶數據:
點擊每個類別旁邊的“+”按鈕彈出文件選擇窗口并加載文件。文件中的分隔符、行數和列數都會被自動識別。
請確保每個文件符合指定的設置:當數據分段時,列數必須等于窗口大小乘以通道數。當數據連續時,列數必須等于通道數。同時還可以修改每個類別的別名,以便于標注各類別的表現。
完成這些步驟后,點擊“START DATA ANALYSIS”按鈕,繼續進行數據分析并生成報告。
數據分析報告
點擊“START DATA ANALYSIS”按鈕后,啟動分析,系統會自動處理數據,然后顯示分析結果。
Segmented Data數據分析報告
Segmented Data數據分析報告主要包括:數據平衡,通道相關性,通道重要性和最佳采樣參數分析。
Data Balance-數據平衡
用五星對數據量的平衡進行評價,點亮的星數越多,表明各分類的數據集量越平衡。
Channel Correlation-通道相關性
僅適用于通道數 >= 2 的情況。
顯示混淆矩陣表,說明不同通道之間的相關值。
絕對值越高,通道之間的相關性越高。值越接近于零,表示通道彼此獨立。該信息可用于識別并可能刪除冗余通道。刪除冗余通道有助于優化數據集以用于訓練步驟。
Channel Importance-通道重要性
僅適用于分段數據集。
僅適用于通道數 >= 2 的情況。
在排名欄中顯示每個通道的重要性得分,分數越高說明該通道越重要。
Best Sampling Params-最佳采樣參數
采樣頻率:輸出原始采樣頻率的推薦分頻。此建議旨在幫助消除數據中潛在的高頻噪聲成分。通過這種方式降低頻率,用戶可以節省資源和功耗,同時保留基本信息。
窗口大?。狠敵鐾扑]的窗口大小。對于分段數據,此大小保持不變,僅適用于連續數據。
采樣時長:單個樣本數據的采樣時間。
Continuous Data數據分析報告
前面主要介紹導入“Segmented”數據后的數據分析報告,而導入“Continuous”的數據分析報告略有不同,如“Best Sampling Params”功能描述
在窗口大小和采樣頻率矩陣中,最推薦使用采樣頻率fs/1和窗口大小64的組合。
區分度:僅適用于連續數據。輸出在最佳分段窗口大小和采樣頻率下連續數據的數據區分度。
用戶可以將連續數據導入到“ Data Operation”中。使用生成數據樣本并嘗試推薦的采樣參數,生成用于機器學習的樣本數據集。如果推薦的采樣頻率不是fs/1,則數據會根據分頻和推薦的窗口大小進行降采樣。例如,如果智能分析后得到的分頻為fs/2,則數據集將按如下方式進行降采樣并保存。
最后,用戶可以選擇“quality”并點擊 “Save PDF”按鈕將分析報告保存在本地PC中。
結論
該數據智能工具可自動生成數據集質量報告,并向用戶提供反饋,無需恩智浦的直接工程支持。分析的功能包括數據平衡、通道相關性、通道重要性、最佳采樣參數和窗長。這些功能使用戶能夠就數據重新收集或重新格式化做出明智的決策,確保其數據集處于最佳狀態以供后續處理。
-
恩智浦
+關注
關注
14文章
5948瀏覽量
113298 -
Studio
+關注
關注
2文章
206瀏覽量
29527 -
機器學習
+關注
關注
66文章
8492瀏覽量
134122 -
數據集
+關注
關注
4文章
1223瀏覽量
25283
原文標題:eIQ Time Series Studio 工具使用攻略(十)-數據智能
文章出處:【微信號:NXP_SMART_HARDWARE,微信公眾號:恩智浦MCU加油站】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
恩智浦eIQ Time Series Studio 工具使用攻略(四)-數據導入

恩智浦eIQ Time Series Studio工具使用教程之數據記錄

恩智浦車規級深度學習工具包使新一代汽車應用性能提高30倍
NXP eIQ Time Series Studio 工具使用攻略(九)-數據標簽

《電子發燒友電子設計周報》聚焦硬科技領域核心價值 第14期:2025.06.2--2025.06.6
恩智浦eIQ? Neutron神經處理單元
NVIDIA TAO工具套件功能與恩智浦eIQ機器學習開發環境的集成
恩智浦eIQ AI和機器學習開發軟件增加兩款新工具
恩智浦eIQ Time Series Studio的工作流程

恩智浦eIQ Time Series Studio工具使用教程之仿真

評論