女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

快速掌握特征構建的常用方法

格創東智 ? 2018-12-12 11:49 ? 次閱讀

在之前格物匯的文章中,我們介紹了工業數據預處理的方法以及特征工程的基本知識,今天要帶大家來了解如何做特征構建。


特征構建常用方法


特征構建的常用方法是屬性分割和結合,這一般根據我們具體的問題所決定。我們通過具體的應用場景來看看:


時間列處理

時間戳屬性通常需要分離成多個維度比如年、月、日、小時、分鐘、秒鐘。通常時間序列數據會含有一定的趨勢和周期性,這時需要我們去構建趨勢因子和周期因子


分解類別屬性

一些屬性是類別型而不是數值型,舉一個簡單的例子,由{紅,綠、藍}組成的顏色屬性,最常用的方式是把每個類別屬性轉換成二元屬性,即從{0,1}取一個值。因此基本上增加的屬性等于相應數目的類別,并且對于你數據集中的每個實例,只有一個是1(其他的為0),這也就是獨熱(one-hot)編碼方式。我們在前面的文章中介紹過了,在此不再贅述。


分箱和分區

有時候,將數值型屬性轉換成類別呈現更有意義,同時能使算法減少噪聲的干擾,通過將一定范圍內的數值劃分成確定的塊。舉個例子,我們預測一個人是否擁有某款衣服,這里年齡是一個確切的因子。其實年齡組是更為相關的因子,所以我們可以將年齡分布劃分成1-10,11-18,19-25,26-40等年齡段,分別表示 幼兒,青少年,青年,中年四個年齡組,讓相近的年齡組表現出相似的屬性。此外,我們還可以對分箱,分區做一些統計量字段作為數據的特征。


只有在了解屬性的領域知識的基礎,確定屬性能夠劃分成簡潔的范圍時分區才有意義。即所有的數值落入一個分區時能夠呈現出共同的特征。在實際應用中,當你不想讓你的模型總是嘗試區分值之間是否太近時,分區能夠避免出現過擬合。例如,如果你所感興趣的是將一個城市作為整體,這時你可以將所有落入該城市的維度值進行整合成一個整體。分箱也能減小小錯誤的影響,通過將一個給定值劃入到最近的塊中。如果劃分范圍的數量和所有可能值相近,或對你來說準確率很重要的話,此時分箱就不適合了。

交叉特征

交叉特征是特征工程中重要的方法之一,交叉特征是一種很獨特的方式,它將兩個或更多的類別屬性組合成一個。當組合的特征要比單個特征更好時,這是一項非常有用的技術。數學上來說,是對類別特征的所有可能值進行交叉相乘。當然我們不僅僅會去查找交叉項關系,還可以去尋找更加復雜的二次項,三次項乃至更復雜的關系,這根據問題求解的需要決定。


經度與緯度的組合便是交叉特征的應用實例,一個相同的經度對應了地圖上很多的地方,緯度也是一樣。但是一旦你將經度和緯度組合到一起,它們就代表了地理上特定的一塊區域,區域中每一部分是擁有著類似的特性。

小結

一般我們會收集與問題相關的數據作為我們的特征,但是這些特征有時不足以解釋我們的問題,我們還是會通過特征構建來增加解釋能力。這其實是對數據進行升維操作,總的來說,特征構建可以給我們的模型提供一些關鍵的信息,來解決模型解釋能力不足的情況。但如果我們收集的數據包含了過多的特征,如何對這些特征進行提純呢?請繼續關注格物匯,我們將在之后的文章中詳細講解。


本文作者:格創東智 OT團隊 (轉載請注明來源及作者)


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 智能制造
    +關注

    關注

    48

    文章

    5835

    瀏覽量

    77484
  • 工業互聯網
    +關注

    關注

    28

    文章

    4356

    瀏覽量

    94845
收藏 人收藏

    評論

    相關推薦
    熱點推薦

    PLC梯形圖編程方法(PPT版)

    梯形圖經驗設計法 經驗設計方法也叫試湊法,經驗設計方法需要設計者掌握大量的典型電路,在掌握這些典型電路的基礎上,充分理解實際的控制問題,將實際控制問題分解成典型控制電路,然后用典型電路
    發表于 05-30 16:46

    瑞芯微RK平臺開發必備的20個常用命令,幫您效率翻倍

    本文將系統地梳理飛凌嵌入式RK平臺主控產品在開發過程中常用的命令,助力更多開發者快速掌握RK系列芯片的開發方法
    的頭像 發表于 04-16 15:36 ?702次閱讀
    瑞芯微RK平臺開發必備的20個<b class='flag-5'>常用</b>命令,幫您效率翻倍

    如意玲瓏應用構建的基礎知識

    在Linux生態中,軟件包的分發與管理一直是開發者與用戶關注的焦點。如意玲瓏(Linyaps)作為一種新興的容器化應用格式,憑借其輕量化、強隔離、跨發行版兼容等特性,正在為 Linux 應用生態注入新的活力。無論是開發者還是技術愛好者,掌握玲瓏應用的構建
    的頭像 發表于 03-03 09:53 ?374次閱讀
    如意玲瓏應用<b class='flag-5'>構建</b>的基礎知識

    《HarmonyOS第一課》煥新升級,賦能開發者快速掌握鴻蒙應用開發

    《HarmonyOS第一課》煥新升級,賦能開發者快速掌握鴻蒙應用開發 隨著HarmonyOS NEXT發布,鴻蒙生態日益壯大,廣大開發者對于系統化學習平臺和課程的需求愈發強烈。近日,華為精心打造
    發表于 01-02 14:24

    tmp117有快速測試的方法嗎?

    項目使用tmp117進行腋下測溫時,室溫22度,5S內腋下可升溫到34度。但再往上上升就是0.01度的速度進行,上升到36.5度需要一二十分鐘。 請教下有快速測試的方法嗎?
    發表于 12-05 07:08

    新能源磷酸鐵鋰電池充電正確方法,你掌握了嗎?

    磷酸鐵鋰電池133-2632-1310作為一種重要的動力電池,其正確的充電方法至關重要。掌握正確的充電方式,不僅可以延長電池的使用壽命,還能確保行車安全。下面就為大家詳細介紹新能源磷酸鐵鋰電池的正確充電方法
    的頭像 發表于 11-26 17:07 ?4752次閱讀
    新能源磷酸鐵鋰電池充電正確<b class='flag-5'>方法</b>,你<b class='flag-5'>掌握</b>了嗎?

    常用的devops工具集成方法

    常用的devops工具集成方法涵蓋了軟件開發和運維的各個方面,從版本控制到自動化構建、測試、部署和監控。這些工具的有效集成可以幫助團隊提高協作效率,減少溝通障礙,實現快速、高質量的軟件
    的頭像 發表于 10-09 11:21 ?471次閱讀

    特瑞仕DC/DC轉換器實機特性比較工具的特征和使用方法

    本篇文章說明了特瑞仕在官網公開的實機特性比較工具的特征和使用方法
    的頭像 發表于 09-26 17:03 ?2259次閱讀
    特瑞仕DC/DC轉換器實機特性比較工具的<b class='flag-5'>特征</b>和使用<b class='flag-5'>方法</b>

    高光譜成像的黃瓜病蟲害識別和特征波長提取方法

    高光譜成像的黃瓜病蟲害識別和特征波長提取方法黃瓜霜霉病和斑潛蠅是制約黃瓜產業發展的嚴重病蟲害。
    的頭像 發表于 08-12 15:36 ?1038次閱讀
    高光譜成像的黃瓜病蟲害識別和<b class='flag-5'>特征</b>波長提取<b class='flag-5'>方法</b>

    手動構建Docker鏡像的方法

    不推薦使用docker commit命令,而應該使用更靈活、更強大的dockerfile來構建docker鏡像。
    的頭像 發表于 08-05 15:30 ?817次閱讀
    手動<b class='flag-5'>構建</b>Docker鏡像的<b class='flag-5'>方法</b>

    DC/DC模擬器的特征和使用方法

    本篇介紹了特瑞仕在官網提供的DC/DC模擬器的特征和使用方法
    的頭像 發表于 07-18 16:17 ?1203次閱讀
    DC/DC模擬器的<b class='flag-5'>特征</b>和使用<b class='flag-5'>方法</b>

    神經網絡預測模型的構建方法

    神經網絡模型作為一種強大的預測工具,廣泛應用于各種領域,如金融、醫療、交通等。本文將詳細介紹神經網絡預測模型的構建方法,包括模型設計、數據集準備、模型訓練、驗證與評估等步驟,并附以代碼示例。
    的頭像 發表于 07-05 17:41 ?1431次閱讀

    人臉檢測的五種方法各有什么特征和優缺點

    人臉檢測是計算機視覺領域的一個重要研究方向,主要用于識別和定位圖像中的人臉。以下是五種常見的人臉檢測方法及其特征和優缺點的介紹: 基于膚色的方法 特征:基于膚色的
    的頭像 發表于 07-03 14:47 ?1459次閱讀

    基于神經網絡算法的模型構建方法

    神經網絡是一種強大的機器學習算法,廣泛應用于各種領域,如圖像識別、自然語言處理、語音識別等。本文詳細介紹了基于神經網絡算法的模型構建方法,包括數據預處理、網絡結構設計、訓練過程優化、模型評估
    的頭像 發表于 07-02 11:21 ?958次閱讀

    smt貼片加工常用的檢測修理方法有哪些

    出現一些問題,例如組裝不良、焊接錯誤等,這些問題會直接影響電子產品的品質和性能。因此,了解和掌握SMT貼片加工常用的檢測修理方法是至關重要的。 一、SMT貼片加工常見問題及分析 1. 組裝不良 組裝不良是SMT貼片加工中常見的問
    的頭像 發表于 06-13 09:32 ?918次閱讀