特征選擇,這是一個(gè)在機(jī)器學(xué)習(xí)中非常重要的東西,那些好的特征可以從整體上來(lái)提升模型的性能,可以幫助我們更加清晰的理解真?zhèn)€數(shù)據(jù)的特點(diǎn)及底層結(jié)構(gòu),對(duì)于后面的模型,算法有著非常重要的作用。
備注:在很多情況下,特征選擇并非必要的,業(yè)務(wù)特征的選擇有很強(qiáng)烈的業(yè)務(wù)契合度在里面,代表著這些特征在業(yè)務(wù)中的重要性也是很高,如果去掉,很有可能會(huì)有一定的副作用,但是無(wú)法說(shuō)清這個(gè)副作用,這個(gè)需要進(jìn)入到訓(xùn)練中去訓(xùn)練數(shù)據(jù)來(lái)驗(yàn)證這個(gè)效果。
特征選擇作用
這里有些同學(xué)可能是剛開(kāi)始接觸做特征選擇,并不是很了解為什么要做特征選擇,做了有什么作用?是否只是簡(jiǎn)單地減少特征?是否這樣子做了,對(duì)結(jié)果有沒(méi)有影響?
這里每個(gè)人都有自己的理解,小編根據(jù)自己的經(jīng)驗(yàn),總結(jié)有兩個(gè),參考一下:
1、減少特征的數(shù)量,降低維度,這樣子可以在一定程度上加強(qiáng)模型的泛化能力,從而盡可能地減少過(guò)擬合,這里要注意一下:過(guò)擬合只能減少,無(wú)法消滅,好比這個(gè)世上,其實(shí)沒(méi)有最優(yōu)解的一樣,擁有的只有不滿足。
2、在一定程度上降低特征后,從直觀上來(lái)看,很多時(shí)候可以一目了然看到特征與特征值之間的關(guān)聯(lián),這個(gè)場(chǎng)景,需要實(shí)際業(yè)務(wù)的支撐,生產(chǎn)上的業(yè)務(wù)數(shù)據(jù)更加明顯,有興趣的同學(xué)可以私信我加群,一起研究。
特征選擇從何入手
這是一個(gè)非常重要的問(wèn)題,有很多同學(xué)可能剛開(kāi)始接觸或者想往這方面發(fā)展,拿到了一組數(shù)組,很多時(shí)候就是直接拿了一個(gè)算法,直接做分類或者做回歸或者做聚類,但是這樣子正常情況下,數(shù)據(jù)會(huì)存在很多噪音(科普:噪音可以理解為一些垃圾數(shù)據(jù),對(duì)我們的結(jié)果或者期望造成了干擾),這樣子的數(shù)據(jù)不會(huì)很好。
那如果我要特征選擇呢,又不知從何入手?
這里有兩個(gè)方法,可以作為參考:
1、從業(yè)務(wù)范圍分析,直接觀察特征與業(yè)務(wù)的相關(guān)性,這點(diǎn)非常重要,那些對(duì)業(yè)務(wù)有著直接指標(biāo)的數(shù)據(jù),建議保留,否則,可以考慮手動(dòng)刪除掉。
2、從發(fā)散特性分析,這個(gè)很多同學(xué)畢業(yè)后,就忘了這個(gè)東西,簡(jiǎn)單用成語(yǔ)一個(gè)成語(yǔ)來(lái)理解一下:一成不變。如果這個(gè)特征滿足這種條件,那證明不發(fā)散,其實(shí)在數(shù)學(xué)中,用方差來(lái)計(jì)算的,這種不發(fā)散的特征,基本就沒(méi)有什么差異性了,例如某一項(xiàng)特征都是0,怎么有影響呢,這樣子的特征其實(shí)就沒(méi)什么用。
特征選擇的三種方法
進(jìn)行特征選擇的時(shí)候,其實(shí)有一定的方法或者規(guī)律可言,總結(jié)起來(lái)有三個(gè)
1、過(guò)濾法:目前這是小編用的最普遍的方法,因?yàn)樽詈?jiǎn)單,與業(yè)務(wù)契合度最高,操作過(guò)程就是我可以設(shè)定某一個(gè)閾值,然后根據(jù)數(shù)據(jù)的發(fā)散情況或者與業(yè)務(wù)是否相關(guān)來(lái)打分,一般都是當(dāng)?shù)陀谶@個(gè)閾值的時(shí)候,就可以考慮過(guò)濾掉。
2、嵌入法:這個(gè)方法無(wú)法直接從字面來(lái)理解,但是其實(shí)也是很好的東西,小編把它叫做過(guò)濾法的進(jìn)化版。如何理解這個(gè)進(jìn)化版,原先我們采用過(guò)濾法的時(shí)候,很多時(shí)候是人肉直接擼一擼,但是這時(shí)候特征多呢,給你200個(gè)特征,然后我就可能瞎了或者手廢掉了,此時(shí)的做法是此案用機(jī)器學(xué)習(xí)的算法或者模型來(lái)訓(xùn)練,然后可以得到各個(gè)特征的權(quán)重值,做個(gè)排序,干掉那些排序地的,例如樹(shù)的特征選擇,這些算法,后面會(huì)逐一介紹。
3、包裝法:聽(tīng)這個(gè)名字,是不是也是很迷糊,其實(shí)這個(gè)也比較好理解,不斷循環(huán)訓(xùn)練模型,進(jìn)行目標(biāo)函數(shù)的計(jì)算,一般我們是采用預(yù)測(cè)的效果來(lái)評(píng)分,逐一選擇一定量的特征來(lái)做,不斷循環(huán),得到結(jié)果進(jìn)行對(duì)比,這樣就可以看到哪些特征不好。不過(guò)這個(gè)小編比較少用,計(jì)算上比較費(fèi)時(shí)費(fèi)力,后面的具體算法也會(huì)介紹到。
-
算法
+關(guān)注
關(guān)注
23文章
4710瀏覽量
95403 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8503瀏覽量
134630
發(fā)布評(píng)論請(qǐng)先 登錄
精選好文!噪聲系數(shù)測(cè)量的三種方法
雙極型三極管放大電路的三種基本組態(tài)的學(xué)習(xí)課件免費(fèi)下載
FPGA頻率測(cè)量的三種方法

傳統(tǒng)機(jī)器學(xué)習(xí)方法和應(yīng)用指導(dǎo)

如何選擇云原生機(jī)器學(xué)習(xí)平臺(tái)
ADS8688,ADS8688A,ADS8688AT三種型號(hào)有什么區(qū)別?如何選擇?
三種常見(jiàn)平方根算法的電路設(shè)計(jì)及Verilog實(shí)現(xiàn)與仿真

數(shù)據(jù)準(zhǔn)備指南:10種基礎(chǔ)特征工程方法的實(shí)戰(zhàn)教程

三相異步電動(dòng)機(jī)三種調(diào)速方法
光纖測(cè)試方法有哪三種
單片機(jī)的三種總線結(jié)構(gòu)
vim的三種工作模式是什么?如何切換
【「時(shí)間序列與機(jī)器學(xué)習(xí)」閱讀體驗(yàn)】時(shí)間序列的信息提取
MCUXpresso IDE下在線聯(lián)合調(diào)試雙核MCU工程的三種方法

評(píng)論