女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

成功構建文本分析工作流的四個步驟

星星科技指導員 ? 來源:嵌入式計算設計 ? 作者:Seth DeLand ? 2022-11-23 15:15 ? 次閱讀

文本分析(從原始人類語言中發現隱藏模式以實現更好的決策和預測的過程)為工業和預測性維護系統提供了幾個好處。這些分析使工程師能夠利用原始文本數據輕松生成有關維護記錄的見解,并構建故障預測算法以預防潛在問題。

以非公路商業空間為例,在建筑工地上使用重型設備:如果一臺重型設備發生故障,在修復系統所需的時間和成本與施工停滯時現場的停機時間之間,可能會發生代價高昂的故障。傳統上,來自此設備的遙測數據已用于構建可預測未來故障的預測性維護模型。但是,在機械師和操作員的文本注釋中也有關于過去故障及其原因的寶貴信息。工程師可以利用此文本數據來增強預測性維護模型,并確定應解決的模式和故障模式。

文本分析的挑戰在于大量的非結構化原始文本數據集,這可能會使分析工具不堪重負。這使得工程師更難快速直觀地提取用戶可能獲得的所有有價值的信息。但是,工程師可以通過正確的工具和遵守端到端工作流程來克服這些障礙。

當涉及到端到端文本分析工作流程時,工程師需要了解什么?工作流中有四個主要階段:

poYBAGN9yKuALPZSAACS46Gxj18876.png

圖1.端到端文本分析工作流。

第 1 階段:數據訪問和探索

文本數據將來自各種來源,包括數據庫、內部文件存儲庫和 Internet,并且格式多種多樣。正確準備數據是成功工作流程的關鍵因素。適當的數據準備會將原始文本數據清理并預處理為“清理數據”以供分析。

以詞云為例。該模型將數據轉換為一種格式,使工程師能夠快速輕松地可視化正在使用的單詞以及數據池中最常見的短語。當與應用其領域專業知識的工程師相結合時,諸如詞云之類的可視化效果有利于更大的文本分析工作流程,因為工程師可以輕松發現數據可能缺少標記或需要清理的地方,因為他們了解給定環境或用例中的典型問題或問題。

第 2 階段:數據預處理

這些可視化效果還有助于指導需要采取的后續操作。如圖 2 所示,停用詞(不增加價值的低信息詞)很常見,它們的存在會扭曲可視化結果。在工程師開始模型開發過程之前,他們必須清理原始文本數據,以過濾掉這些“停用詞”,并輸入真實、重要的數據以傳遞給建模過程。預處理階段允許用戶從原始文本中提取有意義的單詞。

數據清理通常是數據分析中最耗時的部分,根據數據量,清理步驟可能需要多次迭代。但是,投入所需的額外時間和資源所帶來的投資回報率允許在文本分析工作流的后期使用更準確和成功的模型。在許多情況下,干凈的詞云會傳遞有關文本頁面上實際內容的更多信息。

文本分析工具箱等工具通過提供用于預處理、分析和建模文本數據的算法和可視化,幫助用戶為模型構建過程做好準備,從而為工程師解決數據清理痛點。

這些工具從流行的文件格式中提取文本,從設備日志、新聞提要、調查、操作員報告和社交媒體等來源預處理原始文本,提取利用文本、數字和其他類型的數據的單個單詞或多詞短語 (n-gram),將文本轉換為數字表示,然后構建統計模型。

第 3 階段:預測模型構建

清理和預處理數據后,就可以開始使用機器學習深度學習算法構建預測模型了。

這就是文本分析的優勢所在:它發現數據中隱藏的模式并以直觀的格式顯示它們,允許用戶消化數據,然后采取糾正措施解決問題,然后再進一步進入工作流程。

以將干凈的文本數據轉換為數字形式為例。工程師可以應用“詞袋”等建模方法,該方法根據提供的文本數據創建一個數字矩陣,顯示每個單詞的使用頻率。從那里,工程師可以使用預測模型,如潛在狄利克雷分配(LDA)模型,該模型可以擬合到單詞/頻率矩陣中,以發現文本數據集中隱藏的主題和見解。

LDA 模型可以生成與數據中“隱藏主題”相關的詞云,顯示將文本數據擬合到此預測模型中后如何開始出現模式,從而幫助為創建相應問題的解決方案提供信息。

使用新的敘述對模型(如上面示例中的模型)進行測試以驗證模型的預測是否正確后,可以建立自動警報,以便系統在需要注意的任何問題上向響應團隊發送標志。如果位置數據也可用,則結果會發現某些主題(例如,標記的問題)與其位置數據之間存在相關性,因此該模型還可以通過使用多個數據流來補充文本數據來提醒響應團隊潛在的更大基礎設施問題。

第 4 階段:見解和預測模型部署

使用文本分析設置模型并驗證其可接受的性能后,可通過多種方式與工程團隊和/或管理層共享結果和模型,包括生成報告或交互式筆記本(例如 MATLAB Live 編輯器)、將數據傳送到桌面或 Web 應用程序(例如 MATLAB 應用程序設計器),或在生產服務器或 Web 應用程序服務器上托管應用程序。

對于工業自動化、機械、汽車制造、航空航天設計或能源分配等行業的工程師來說,文本分析可以幫助他們執行復雜的數值分析,以識別可以帶來更好結果并改進預測性維護等功能的想法和概念組。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 編輯器
    +關注

    關注

    1

    文章

    817

    瀏覽量

    31778
  • 機器學習
    +關注

    關注

    66

    文章

    8492

    瀏覽量

    134117
  • 深度學習
    +關注

    關注

    73

    文章

    5554

    瀏覽量

    122491
收藏 人收藏

    評論

    相關推薦
    熱點推薦

    四個方面深入剖析富捷電阻的優勢

    理成本的電阻產品系列,為電子行業提供了一可靠的選擇。本文將從產品結構、同業對比、成本分析以及品質保障四個方面深入剖析富捷電阻的優勢,展現其如何在激烈的市場競爭中脫穎而出。
    的頭像 發表于 05-09 10:47 ?284次閱讀
    從<b class='flag-5'>四個</b>方面深入剖析富捷電阻的優勢

    非技術人員如何用n8n + DeepSeek打造AI自動化工作流

    ? 是一開源的低代碼自動化工作流工具,允許用戶通過可視化界面連接不同的應用程序和服務,實現任務自動化。 掌握n8n,公司中的非技術人員也能快速上手自動化,通過畫布的方式,構建自動化工作流
    的頭像 發表于 04-09 14:28 ?1647次閱讀
    非技術人員如何用n8n + DeepSeek打造AI自動化<b class='flag-5'>工作流</b>?

    NX CAD軟件:數字化工作流程解決方案(CAD工作流程)

    NXCAD——數字化工作流程解決方案(CAD工作流程)使用西門子領先的產品設計軟件NXCAD加速執行基于工作流程的解決方案。我們在了解行業需求方面累積了多年的經驗,并據此針對各個行業的具體需求提供
    的頭像 發表于 02-06 18:15 ?323次閱讀
    NX CAD軟件:數字化<b class='flag-5'>工作流</b>程解決方案(CAD<b class='flag-5'>工作流</b>程)

    模數轉換電路的四個過程

    模數轉換(Analog-to-Digital Conversion,簡稱ADC)是將模擬信號轉換為數字信號的關鍵過程,廣泛應用于通信、數據采集、信號處理等領域。模數轉換電路的設計與實現涉及多個關鍵步驟,通常可以分為四個主要過程:采樣、保持、量化和編碼。本文將詳細
    的頭像 發表于 02-03 16:12 ?1255次閱讀

    AI工作流自動化是做什么的

    AI工作流自動化是指利用人工智能技術,對工作流程中的重復性、規則明確的任務進行自動化處理的過程。那么,AI工作流自動化是做什么的呢?接下來,AI部落小編為您分享。
    的頭像 發表于 01-06 17:57 ?615次閱讀

    如何使用自然語言處理分析文本數據

    使用自然語言處理(NLP)分析文本數據是一復雜但系統的過程,涉及多個步驟和技術。以下是一基本的流程,幫助你理解如何使用NLP來
    的頭像 發表于 12-05 15:27 ?1367次閱讀

    數據科學工作流原理

    數據科學工作流包括數據收集、數據預處理、數據探索與可視化、特征選擇與工程、模型選擇與訓練、模型評估與優化、結果解釋與報告、部署與監控等環節。
    的頭像 發表于 11-20 10:36 ?492次閱讀

    淺談無刷電機的工作流

    上一期的芝識課堂,我們跟大家一起分析了無刷電機的四個功能單元,并詳細分析了PWM和逆變器單元的工作情況,今天我們繼續來熟悉無刷電機工作流程中
    的頭像 發表于 11-12 13:46 ?1103次閱讀
    淺談無刷電機的<b class='flag-5'>工作流</b>程

    NVIDIA發布全新AI和仿真工具以及工作流

    NVIDIA 在本周于德國慕尼黑舉行的機器人學習大會(CoRL)上發布了全新 AI 和仿真工具以及工作流。機器人開發者可以使用這些工具和工作流,大大加快 AI 機器人(包括人形機器人)的開發工作
    的頭像 發表于 11-09 11:52 ?727次閱讀

    全新NVIDIA AI工作流可檢測信用卡欺詐交易

    工作流由 AWS 上 的 NVIDIA AI 平臺驅動,可幫助金融服務機構節省資金并降低風險。
    的頭像 發表于 10-30 11:41 ?755次閱讀

    使用OPA180運放構建差分放大器,如何確定四個電阻的大小?

    我目前打算使用OPA180運放構建差分放大器。如下圖所示 如果我的放大倍數取0.4,那么取R1=R2=300K,RF=RG=120K,和R1=R2=30K,RF=RG=12K這兩選取哪一組比較好。或者有什么方法可以用來確定這四個
    發表于 08-16 12:36

    行云流水線 滿足你對工作流編排的一切幻想~skr

    的核心組成部分,旨在加速軟件交付、提高質量和實現持續改進。流水線的核心是流水線模型,是實現工作流編排,執行的重要基石,一優秀的流水線模型可以覆蓋用戶更多的實踐場景,按照用戶的所思所想支持編排相應的工作流程,通過模型的分層設計,
    的頭像 發表于 08-05 13:42 ?495次閱讀

    IGBT的四個主要參數

    IGBT的四個主要參數對于選擇合適的IGBT器件至關重要。本文將介紹IGBT的四個主要參數:電壓等級、電流等級、開關頻率和熱性能。 1. 電壓等級 電壓等級是IGBT的一重要參數,它決定了IGBT能夠承受的最大電壓。電壓等級的
    的頭像 發表于 07-25 11:05 ?7017次閱讀

    利用TensorFlow實現基于深度神經網絡的文本分類模型

    要利用TensorFlow實現一基于深度神經網絡(DNN)的文本分類模型,我們首先需要明確幾個關鍵步驟:數據預處理、模型構建、模型訓練、模型評估與調優,以及最終的模型部署(盡管在本文
    的頭像 發表于 07-12 16:39 ?1423次閱讀

    卷積神經網絡在文本分類領域的應用

    在自然語言處理(NLP)領域,文本分類一直是一重要的研究方向。隨著深度學習技術的飛速發展,卷積神經網絡(Convolutional Neural Network,簡稱CNN)在圖像識別領域取得了
    的頭像 發表于 07-01 16:25 ?1115次閱讀