數據科學家的空缺以及各公司努力填補這一空白的持續投入在數據科學界并不算什么新聞。然而,擁有計算機科學技能、統計知識和與其特定業務問題相關的領域專業知識的數據科學家卻不多見。
一方面,開發分析模型需要依仗領域的專業知識和實踐經驗進行決斷;另一方面,視具體問題而定,進行數據分析可能需要具備傳統的分析技術(如統計和優化)、數據特定的技術(如信號處理和圖像處理)或更新的功能(如機器學習算法)。
事實上,通過在設計過程中使用統計方法和計算技術工具,工程師也可以變成數據科學家。
以一個機器學習的實際案例來說:
一家大型半導體制造公司的工藝工程師正在考慮采用新方法來確保晶圓各層對準,他們發現機器學習或可作為預測層間疊加的方法使用。但作為工藝工程師,他們沒有使用這種新技術的經驗。
通過在 MATLAB 中運行不同的機器學習示例,他們能夠識別合適的機器學習算法,對歷史數據進行訓練,并將其集成到原型疊加控制器中。靈活的 MATLAB 環境允許這些工藝工程師應用他們的領域專業知識來構建數據模型,從而識別可能未被發現的系統和隨機錯誤。
可見,為具備領域知識的工程師提供靈活且可擴展的軟件工具,可以幫助工程師快速掌握機器學習新技術并解決數據問題。
隨著技術的不斷發展,企業必須快速攝取、分析、驗證和可視化海量數據,以便及時提供洞察力,從而抓住商機。如此,領域專家能夠運用并應用數據科學對業務有明顯的好處,但這不可能一蹴而就。
由此帶來的數據分析挑戰還可能影響數據分析的價值。這些挑戰包括:
1. 陡峭的新技術學習曲線
數據分析領域的創新步伐非常快,每項新技術都有自己的學習曲線。特別是對于那些并非專職從事代碼編寫的人來說,學習曲線將更加陡峭。
解決方案:
提供快速啟動和運行的工具,最好是領域專家熟悉的計算平臺中。
像 MATLAB 中的應用程序一樣的點擊式應用程序可以作為這些工程師的一個簡單起點。除此之外,通常還需要編程接口來微調分析以提高穩健性和準確性。企業也應該尋找可以幫助工程師的培訓課程,效果自然遠勝通過試驗和犯錯來學習。
2. 工程師與數據科學家的團隊配合
數據科學家通常在機器學習方面具有很強的背景,卻不熟悉業務及其產品的細節。工程和科學團隊了解業務及其產品,但可能沒有機器學習經驗。
解決方案:
提供靈活可擴展的工具。
針對領域專家降低機器學習標準的同時,為數據科學家提供靈活性和可擴展性。實際上,這意味著采用既具有圖形界面(即應用程序)又具有編程語言的工具。為團隊打造一個可以協作的環境至關重要。
3.數據分析在哪里結束
如果無法與企業的系統、產品和服務集成,成功開發的分析或機器學習模型對企業的價值便十分有限。傳統上,分析是在適合研究和開發的工具中開發的,但不適合在生產中運行分析,因此必須在分析之前將分析重新編碼為不同的編程語言。這一過程通常耗時數周到數月,并且可能會產生錯誤。
解決方案:
將算法打包以在不同生產環境中運行。
MATLAB 提供了用于將分析與 IT 系統中常用的編程語言(例如 Java和 .NET)集成的部署路徑,以及將分析轉換為可在嵌入式設備上運行的獨立 C 代碼。這兩種部署選項都可通過點擊式界面訪問,使其對具備領域知識的工程師具有吸引力。通過將分析轉換為在生產系統中運行的過程實現自動化,這些工具可顯著縮短設計迭代的時間。
數據科學家短缺的問題似乎不會很快得到解決,而領域專家在填補這一空白方面將起到重要的作用。
使領域專家能夠將機器學習和其他數據分析技術應用于他們的工作,這些技術為工程團隊提供了令人興奮的創新機會——包括他們的設計工作流程和他們打造的產品。他們對業務及其產品的了解使他們能夠找到應用數據分析技術的創新方法。
-
數據
+關注
關注
8文章
7241瀏覽量
91013 -
機器學習
+關注
關注
66文章
8492瀏覽量
134092
發布評論請先 登錄
普源示波器如何連接MATLAB實現數據采集與分析
智慧路燈在數據采集與分析方面面臨的挑戰

評論