女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

在Tableau中盒須圖幫你6步篩除異常值

Tableau社區(qū) ? 來源:未知 ? 作者:工程師曾玲 ? 2018-10-02 11:29 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

如果您熟悉盒須圖,那么您也知道這是一個非常好的圖表來檢查數(shù)據(jù)的分布并突出顯示異常值。但有時僅僅顯示異常值是不夠的,我們可能也想篩選掉異常值,因為這些異常值可能是由于數(shù)據(jù)問題或某些我們不希望在分析中包含的特定情況所引起的。那我們該如何在 Tableau 中根據(jù)盒須圖的邏輯篩選出異常值?

如果您不確定盒須圖的樣子,下圖是一個簡單的示意圖。

圖表中的每個圓圈代表 Sample Superstore Sales Excel 文件中美國各個州的總利潤。盒子展示了各個州利潤的中位數(shù)以及上四分位數(shù)(百分位 75)和下四分位數(shù)(百分位 25)之間的范圍。另外兩條須分別代表仍在 1.5 IQR 范圍內(nèi)的最低和最高線。IQR 是四分位數(shù)的范圍 - 上四分位數(shù)和下四分位數(shù)之間的差值。也就是說,每條須都顯示了該范圍之間的數(shù)據(jù)點(diǎn)。

因此,如果我們想要篩除或突出異常值,我們需要計算 IQR 和所有在 IQR+/- 1.5 倍之內(nèi)的數(shù)據(jù)。那么我們該怎么做?

第 1 步計算百分位 25 和百分位 75

首先,我們要計算百分位 25(Q1)和百分位 75(Q3)之間的所有數(shù)據(jù)。也就是盒子內(nèi)的所有數(shù)據(jù)。為此,我們將使用度量(利潤)的百分位數(shù)創(chuàng)建計算字段,并使用布爾運(yùn)算讓該范圍之間的所有數(shù)據(jù)點(diǎn)返回 TRUE 值。

在 P25 和 P75 之間:

RANK_PERCENTILE(SUM([Profit]))<=0.75 and?

RANK_PERCENTILE(SUM([Profit]))>=0.25

此計算將讓 Q1 和 Q3 之間的所有數(shù)據(jù)點(diǎn)返回 True 值。在我們的示例中,我們必須確保計算按州進(jìn)行。因此我們可以將它放置在顏色架上來確保計算是按照我們希望的方式進(jìn)行的。

第 2 步計算盒子的限制 – 下限與上限

我們已經(jīng)在步驟 1 中突出顯示了 Q1 和 Q3 之間的所有數(shù)據(jù)點(diǎn)。現(xiàn)在我們需要計算 Q1 的下限和 Q3 的上限,這樣我們就可以計算出 IQR,這就是百分位 25 和百分 75 之間的差值。通常我們可以使用 LOD 來計算這些數(shù)字,但是由于我們不能在 LOD 中使用表計算,所以我們需要尋找另一個解決方案。為此,我們將在 WINDOW_MAX 中使用 IF 語句,而我們只能獲得百分位 25 和百分位 75 之間的數(shù)據(jù)最大值 – 也就是上限。

Q1 和 Q3 之間的最大值

WINDOW_MAX(IF [Between P25 and P75] THEN SUM([Profit] ELSE NULL END)

我們將用同樣的方法來計算最小值以獲得 Q1 和 Q3 之間的下限。

Q1 和 Q3 之間的最小值

WINDOW_MIN(IF [Between P25 and P75] THEN SUM([Profit] ELSE NULL END)

就像我們在步驟 1 中進(jìn)行計算一樣,在我們的例子中,我們必須確保兩個計算都是按州進(jìn)行。我們還可以將兩個計算放到到詳細(xì)信息中,并將它們添加為參考線,以檢查數(shù)字是否正確,如下圖所示。

這看起來非常像步驟 1 之后的圖像,但是如果您仔細(xì)看圖,您可以發(fā)現(xiàn)使用剛剛建立的計算所制作的兩條參考線,與上下限相互重合了。這表明我們離成功越來越近了!

第 3 步計算 IQR

我們之前也提到過 IQR 是 Q3 和 Q1 之間的差值,也是百分位 25 和百分位 75 之間的數(shù)據(jù)上下限之間的差值。換句話說,也就是我們在步驟 2 中所構(gòu)建的兩個計算之間的差異。可能是這篇文章中最簡單的一步:

IQR:

[Max between Q1 and Q3] – [Min between Q1 and Q3]

第 4 步計算上下須

第 3 步很簡單,而第 4 步也不困難。在上文中,我們已將須擴(kuò)大到了 IQR 1.5 倍以內(nèi)的數(shù)據(jù)。因此,我們只需要使用步驟 2 中構(gòu)建的 Q1 和 Q3 之間的數(shù)據(jù)上下限以及步驟 3 中計算的 IQR 來計算上下須之間的數(shù)據(jù)范圍,如下所示:

下須:

[Min between Q1 and Q3] – (1.5 * [IQR])

上須:

[Max between Q1 and Q3] + (1.5 * [IQR])

請小心并特別注意差值。對于較低的須而言,我們必須減去 1.5 倍的 IQR,并為上須增加 1.5 倍的 IQR。與上文一樣,在我們的例子中,我們必須確保使用州來進(jìn)行此計算。

第 5 步標(biāo)記異常值

我們離成功很近了。現(xiàn)在我們有了來識別異常值的所有值。基本上來說,異常值將是低于我們下須極限或高于我們上須極限的所有數(shù)據(jù)點(diǎn)。我們可以用與步驟 1 非常相似的方式來創(chuàng)建一個計算,讓這些異常值返回 TRUE 值。

異常值:

SUM([Profit]) < [Lower Whisker Limit] OR SUM([Profit])? > [Upper Whisker Limit]

同樣的,請確保使用州(如果您按我們的例子)或代表您標(biāo)記(圓圈)的維度進(jìn)行計算。我們可以將這最后的計算放到顏色架中來突出顯示異常值。

讓異常值變大或變小。

甚至用改變形狀的方式來突出異常值。

第 6 步篩除異常值

按照這篇文章的主要目的,我們現(xiàn)在可以做的是篩除異常值。但請記住,盒子和須將會使用新的數(shù)據(jù)重新計算。例如,如果現(xiàn)在我們將子類別添加到行,我們將獲得這樣的視圖,使用顏色突出顯示異常值,證如我們在步驟 5 中提到的那樣。

但是我不想將我的異常值放在顏色中,我希望刪除盒子和須線,并將異常值計算放到篩選器中,并排除 TRUE 值。然后我可能會添加一個參考線來顯示按子類別劃分的每個州的平均利潤,但不考慮每個子類別的異常值。

完成了!現(xiàn)在我們可以在沒有異常值的情況下查看并分析數(shù)據(jù),我們也可以看到每個州的利潤現(xiàn)在已經(jīng)比以前更好地分布在子類別中。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標(biāo)題:教你 6 步篩除異常值,快來 Pick 盒須圖!

文章出處:【微信號:TableauChina,微信公眾號:Tableau社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    使用AD7656過程采樣值每間隔一段時間會有異常值出現(xiàn)是什么原因?

    使用AD7656過程中發(fā)現(xiàn)采樣值每間隔一段時間(10分鐘不等)會有異常值出現(xiàn)(0x4000或0xBFFF),不知什么原因。求分析。
    發(fā)表于 12-21 06:20

    Stm32H7 spi會帶來更大的adc噪聲,導(dǎo)致小信號異常值的原因?

    [Stm32H7]spi會帶來更大的adc噪聲,導(dǎo)致小信號異常值
    發(fā)表于 03-25 06:10

    異常值概述及檢驗處理

    異常值的處理
    發(fā)表于 04-26 13:13

    基于Python在數(shù)據(jù)流查找異常值的方法

    在上一篇文章,我解釋了流算法的概念,并給出了許多如何應(yīng)用流算法的示例。 其中之一是不保存數(shù)據(jù)流元素的情況下計算數(shù)據(jù)流的滾動平均值。 現(xiàn)在,我想擴(kuò)展這個示例,并在異常值檢測的背景下向您展示另一種流算法的用例。
    的頭像 發(fā)表于 05-03 18:17 ?3297次閱讀
    基于Python在數(shù)據(jù)流<b class='flag-5'>中</b>查找<b class='flag-5'>異常值</b>的方法

    Tableau與Einstein Analytics 合作推動數(shù)據(jù)分析

    Tableau CRM,并繼續(xù) Salesforce CRM 工作流中提供極致的分析和 AI 體驗。 Tableau 可提供強(qiáng)大的數(shù)據(jù)探索和可視化分析能力,支持客戶隨時隨地從任何數(shù)據(jù)
    的頭像 發(fā)表于 10-21 16:35 ?2786次閱讀
    <b class='flag-5'>Tableau</b>與Einstein Analytics 合作推動數(shù)據(jù)分析

    11月6Tableau 儀表盤設(shè)計簡化與技巧分析

    道路上和日常工作受到啟發(fā),少走彎路,深刻了解 Tableau 的有效使用方法和巨大價值。 Tableau 儀表盤設(shè)計簡化與技巧分析 日期:11 月 6 日 時間:10:00- 11:
    的頭像 發(fā)表于 11-02 11:15 ?3327次閱讀

    Tableau 2020.4亮點(diǎn)功能集錦

    集錦 ●?使用瀏覽器Tableau Prep Builder同一個基于 Web 的集成平臺上準(zhǔn)備所有數(shù)據(jù); ●?借助多項增強(qiáng)功能將您的地理空間分析提升
    的頭像 發(fā)表于 12-24 17:46 ?3199次閱讀

    如何借助瀏覽器Tableau Prep Builder準(zhǔn)備數(shù)據(jù)

    ? 隨著 Tableau 2020.4 的發(fā)布,我們自助數(shù)據(jù)準(zhǔn)備方面取得了令人興奮的進(jìn)步。現(xiàn)在,您可以瀏覽器創(chuàng)建新的 Tableau
    的頭像 發(fā)表于 12-24 18:01 ?2947次閱讀

    Tableau Catalog能更快地找到正確的表和數(shù)據(jù)庫

    Tableau 2019.3 發(fā)布以來,數(shù)據(jù)發(fā)現(xiàn)和信任一直是 Tableau Catalog (Tableau Data Management 的組件)的核心原則。每一個版本
    的頭像 發(fā)表于 06-13 14:43 ?1854次閱讀

    基于異常檢測的模型表現(xiàn)對比

    但這種分類方式常因為上下文定義邊界模糊,導(dǎo)致集體異常值和上下文異常值的定義邊界也模糊。上下文異常值的上下文不同文獻(xiàn)通常非常不同。
    的頭像 發(fā)表于 10-18 16:47 ?2284次閱讀

    使用MATLAB進(jìn)行異常檢測(下)

    使用 MATLAB 進(jìn)行異常檢測(上),我們探討了什么是異常值,簡單的一維數(shù)據(jù)異常檢測問題,針對高維數(shù)據(jù)的有監(jiān)督
    的頭像 發(fā)表于 11-24 10:46 ?2827次閱讀

    基于神經(jīng)網(wǎng)絡(luò)的異常值檢測庫介紹

    學(xué)習(xí)節(jié)點(diǎn)的嵌入 (見圖 1)。大多數(shù) GNN 都持有同源性假設(shè),即相連的節(jié)點(diǎn)是相似的;因此,聚合鄰居的信息將有助于學(xué)習(xí)信息量更大的中心節(jié)點(diǎn)表示。中心節(jié)點(diǎn)表示可用于節(jié)點(diǎn)分類、鏈接預(yù)測和異常值檢測 (OD) 等下游任務(wù)。
    的頭像 發(fā)表于 12-08 10:34 ?2632次閱讀

    數(shù)據(jù)清洗、缺失值填充和異常值處理

    綜上所述,數(shù)據(jù)清洗、缺失值填充和異常值處理對數(shù)據(jù)分析非常重要,并且 MATLAB 提供了許多工具來實(shí)現(xiàn)這些步驟。可以根據(jù)具體情況選擇合適的函數(shù)和方法來處理數(shù)據(jù)。
    的頭像 發(fā)表于 06-21 15:30 ?3775次閱讀

    eda機(jī)器學(xué)習(xí)的應(yīng)用

    機(jī)器學(xué)習(xí)項目中,數(shù)據(jù)預(yù)處理和理解是成功構(gòu)建模型的關(guān)鍵。探索性數(shù)據(jù)分析(EDA)是這一過程不可或缺的一部分。 1. 數(shù)據(jù)清洗 數(shù)據(jù)清洗 是機(jī)器學(xué)習(xí)的首要任務(wù)之一。EDA可以幫助識別缺失值、
    的頭像 發(fā)表于 11-13 10:42 ?891次閱讀

    think-cell——Tableau數(shù)據(jù)

    當(dāng)數(shù)據(jù)驅(qū)動元素的源數(shù)據(jù) Tableau 可用時,您可以直接從那里創(chuàng)建圖表和表格。當(dāng) Tableau 的數(shù)據(jù)發(fā)生更改時,您只需單擊一下即
    的頭像 發(fā)表于 01-03 11:47 ?519次閱讀
    think-cell——<b class='flag-5'>Tableau</b>數(shù)據(jù)