數(shù)據(jù)清洗怎么做(一):準(zhǔn)備工作
拿到數(shù)據(jù)表之后,先做這些準(zhǔn)備工作,方便之后的數(shù)據(jù)清洗。
1. 給每一個(gè)sheet頁(yè)命名,方便尋找
2. 給每一個(gè)工作表加一列行號(hào),方便后面改為原順序
3. 檢驗(yàn)每一列的格式,做到每一列格式統(tǒng)一
4. 做數(shù)據(jù)源備份,防止處理錯(cuò)誤需要參考原數(shù)據(jù)
5. 刪除不必要的空行、空列
數(shù)據(jù)清洗怎么做(二):統(tǒng)一數(shù)值口徑
這是個(gè)無(wú)聊而必要的步驟。例如我們統(tǒng)計(jì)銷售任務(wù)指標(biāo),有時(shí)用合同金額有時(shí)用回款金額,口徑經(jīng)常不統(tǒng)一。統(tǒng)計(jì)起來(lái)就很麻煩。所以將不規(guī)范的數(shù)值改為規(guī)范這一步不可或缺。
數(shù)據(jù)清洗怎么做(三):刪掉多余的空格
原始數(shù)據(jù)中如果夾雜著大量的空格,可能會(huì)在我們篩選數(shù)據(jù)或統(tǒng)計(jì)時(shí)帶來(lái)一定麻煩。如何去掉多余的空格,僅在字符間保留一個(gè)空格?
1. 手動(dòng)刪除。如果只有三五個(gè)空格,這可能是最快的方式。
2. 函數(shù)法
在做數(shù)據(jù)清洗時(shí),經(jīng)常需要去除數(shù)據(jù)兩端的空格,那么TRIM、LTRIM、RTRIM這3個(gè)函數(shù)就可以幫到你啦~
TRIM函數(shù):主要是用來(lái)去除單元格內(nèi)容前后的空格,但不會(huì)去除字符之間的空格。表達(dá)式:=TRIM(文本)
數(shù)據(jù)清洗怎么做(四):字段去重
強(qiáng)烈建議把去重放在去除空格之后,因?yàn)槎鄠€(gè)空格導(dǎo)致工具認(rèn)為“顧納”和“顧 納”不是一個(gè)人,去重失敗。
按照“數(shù)據(jù)”-“刪除重復(fù)項(xiàng)”-選擇重復(fù)列步驟執(zhí)行即可。(單選一列表示此列數(shù)據(jù)重復(fù)即刪除,多選表示多個(gè)字段都重復(fù)才刪除。)
數(shù)據(jù)清洗怎么做(五):填補(bǔ)缺失值
由于人工錄入或者數(shù)據(jù)爬蟲等多方面的原因,會(huì)出現(xiàn)缺失值的情況,這就需要我們尋找漏網(wǎng)之“數(shù)據(jù)”,填充空缺值。
如何統(tǒng)計(jì)有多少缺失值?先看ID唯一列有多少行數(shù)據(jù),參考excel右下角的計(jì)數(shù)功能,對(duì)比就可以知道其他列缺失了多少數(shù)據(jù)。
如何定位到所有缺失值?Ctrl+G,選擇定位條件,然后選擇空值。
缺失值的處理方法:
1. 人工補(bǔ)全。適合數(shù)據(jù)量少的情況。
2. 刪除。適用于樣本較大的情況,樣本較小時(shí),可能會(huì)影響最終的分析結(jié)果 。
3. 根據(jù)數(shù)據(jù)的分布情況,可以采用均值、中位數(shù)、或者眾數(shù)進(jìn)行數(shù)據(jù)填充。數(shù)據(jù)均勻,均值法填充;數(shù)據(jù)分布傾斜,中位數(shù)填充。
數(shù)據(jù)清洗怎么做(六): 用模型計(jì)算值來(lái)代替缺失值
回歸:基于完整的數(shù)據(jù)集,建立回歸方程。將已知屬性值代入方程來(lái)估計(jì)未知屬性值,以估計(jì)值來(lái)進(jìn)行空值得填充。
極大似然估計(jì):基于缺失類型為隨機(jī)缺失得條件下,假設(shè)模型對(duì)于完整的樣本是正確的,通過(guò)觀測(cè)數(shù)據(jù)的邊際分布可以對(duì)缺失數(shù)據(jù)進(jìn)行極大似然估計(jì)。
數(shù)據(jù)清洗怎么做(七):插補(bǔ)法
隨機(jī)插補(bǔ)法:從總體中隨機(jī)抽取某幾個(gè)樣本代替缺失樣本。
多重填補(bǔ)法:包含m個(gè)插補(bǔ)值的向量代替每一個(gè)缺失值的過(guò)程,要求m大于等于20。m個(gè)完整數(shù)據(jù)集合能從插補(bǔ)向量中創(chuàng)建。
數(shù)據(jù)清洗怎么做(八):異常值處理
異常值:指一組測(cè)定值中與平均值的偏差超過(guò)兩倍標(biāo)準(zhǔn)差的測(cè)定值。
對(duì)異常值處理,需要具體情況具體分析,一般而言,異常值的處理方法常用有以下3種:
1. 不處理
2.用平均值替代:利用平均值來(lái)代替異常值,損失信息小,簡(jiǎn)單高效。
視為缺失值:將異常值視為缺失值來(lái)處理,采用處理缺失值的方法來(lái)處理異常值。
數(shù)據(jù)清洗怎么做(九):拆分單元格
按照以下步驟對(duì)合并單元格進(jìn)行拆分并填充:
1. 點(diǎn)擊取消合并單元格
2. 空白單元格定位:點(diǎn)擊定位-選擇空白
3. 寫上=上個(gè)單元格
4. Ctrl+Enter
數(shù)據(jù)清洗怎么做(十):分組計(jì)算
通過(guò)VLOOKUP函數(shù)將字段合在一起用于計(jì)算。
VLOOKUP(lookup_value,table_array,col_index_num,range_lookup)
以上是思邁特軟件Smartbi的分享,更多行業(yè)干貨可關(guān)注我們下一期的分享。思邁特軟件Smartbi是知名國(guó)產(chǎn)BI品牌,專注于商業(yè)智能BI與大數(shù)據(jù)BI分析平臺(tái)軟件產(chǎn)業(yè)的研發(fā)及服務(wù)。經(jīng)過(guò)多年持續(xù)自主研發(fā),凝聚大量商業(yè)智能最佳實(shí)踐經(jīng)驗(yàn),整合了各行業(yè)的數(shù)據(jù)分析和決策支持的功能需求。滿足最終用戶在企業(yè)級(jí)報(bào)表、數(shù)據(jù)可視化分析、自助探索分析、數(shù)據(jù)挖掘建模、AI智能分析等大數(shù)據(jù)分析需求。
現(xiàn)個(gè)人版提供全模塊長(zhǎng)期免費(fèi)使用,有興趣的小伙伴可登陸官網(wǎng)免費(fèi)試用。
責(zé)任編輯:tzh
評(píng)論