女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

10個超級實用的數據可視化圖表

數據分析與開發 ? 來源:愛數據LoveData ? 2023-01-12 10:04 ? 次閱讀

可視化是一種方便的觀察數據的方式,可以一目了然地了解數據塊。我們經常使用柱狀圖、直方圖、餅圖、箱圖、熱圖、散點圖、線狀圖等。這些典型的圖對于數據可視化是必不可少的。除了這些被廣泛使用的圖表外,還有許多很好的卻很少被使用的可視化方法,這些圖有助于完成我們的工作,下面我們看看有那些圖可以進行。

1、平行坐標圖

Parallel Coordinate

我們最多可以可視化 3 維數據。但是我們有時需要可視化超過3維的數據才能獲得更多的信息。我們經常使用PCAt-SNE來降維并繪制它。在降維的情況下,可能會丟失大量信息。在某些情況下,我們需要考慮所有特征,平行坐標圖有助于做到這一點。

3ef562aa-9198-11ed-bfe3-dac502259ad0.png

鳶尾花數據集的平行坐標圖

上面的圖片。橫線(平行軸)表示鳶尾花的特征(花瓣長、萼片長、萼片寬、花瓣寬)。分類是Setosa, Versicolor和Virginica。上圖將該物種編碼為Setosa→1,Versicolor→2,Virginica→3。每個平行軸包含最小值到最大值(例如,花瓣長度從1到6.9,萼片長度從4.3到7.9,等等)。例如,考慮花瓣長度軸。這表明與其他兩種植物相比,瀨蝶屬植物的花瓣長度較小,其中維珍屬植物的花瓣長度最高。

有了這個圖,我們可以很容易地獲得數據集的總體信息。數據集是什么樣子的?讓我們來看看。

3f2362d6-9198-11ed-bfe3-dac502259ad0.png

讓我們用Plotly Express庫[1]可視化數據。Plotly庫提供了一個交互式繪圖工具。


		

importplotly.expressaspx df=px.data.iris() fig=px.parallel_coordinates(df,color="species_id",labels={"species_id":"Species", "sepal_width":"SepalWidth","sepal_length":"SepalLength", "petal_width":"PetalWidth","petal_length":"PetalLength",}, color_continuous_scale=px.colors.diverging.Tealrose, color_continuous_midpoint=2) fig.show()

output

3f31f2c4-9198-11ed-bfe3-dac502259ad0.png

除了上圖以外我們還可以使用其他庫,如pandas、scikit-learnmatplotlib來繪制并行坐標。

2、六邊形分箱圖

Hexagonal Binning

六邊形分箱圖是一種用六邊形直觀表示二維數值數據點密度的方法。


		

ax=df.plot.hexbin(x='sepal_width',y='sepal_length', gridsize=20,color='#BDE320')

output

3f42d008-9198-11ed-bfe3-dac502259ad0.png

Pandas允許我們繪制六邊形binning [2]。我已經展示了用于查找sepal_widthsepal_length列的密度的圖。

如果仔細觀察圖表,我們會發現總面積被分成了無數個六邊形。每個六邊形覆蓋特定區域。我們注意到六邊形有顏色變化。六邊形有的沒有顏色,有的是淡綠色,有的顏色很深。根據圖右側顯示的色標,顏色密度隨密度變化。比例表示具有顏色變化的數據點的數量。六邊形沒有填充顏色,這意味著該區域沒有數據點。

其他庫,如matplotlibseabornbokeh(交互式繪圖)也可用于繪制它。

3、等高線密度圖

Countour

二維等高線密度圖是可視化特定區域內數據點密度的另一種方法。這是為了找到兩個數值變量的密度。例如,下面的圖顯示了在每個陰影區域有多少數據點。


		

importplotly.expressaspx fig=px.density_contour(df,x="sepal_width",y="sepal_length") fig.update_traces(contours_coloring="fill",contours_showlabels=True) fig.show()

output

3f534f82-9198-11ed-bfe3-dac502259ad0.png

為了生成上面的圖表,我這里使用了plotly庫,因為它可以方便地繪制交互式的圖表。我們這里繪制了兩個變量sepal_widthsepal_length的密度。 當然,也可以使用其他庫,如seabornmatplotlib等。

4、QQ-plot

QQ plot是另一個有趣的圖。QQQuantile - Quantile plot的縮寫(Quantile/percentile是一個范圍,在這個范圍內數據下降了指定百分比。例如,第10個quantile/percentile表示在該范圍下,找到了10%的數據,90% 超出范圍)。這是一種直觀地檢查數值變量是否服從正態分布的方法。讓我解釋一下它是如何工作的。

3f617936-9198-11ed-bfe3-dac502259ad0.png

(a)樣本分布(b)標準正態分布

圖(a)是樣本分布;(b)是標準正態分布。對于樣本分布,數據范圍從10到100(100% 數據在 10 到 100 之間)。但對于標準正態分布,100%的數據在-3 到3(z 分數)的范圍內。在QQ圖中,兩個x軸值均分為 100個相等的部分(稱為分位數)。如果我們針對x和y軸繪制這兩個值,我們將得到一個散點圖。

3f70a9b0-9198-11ed-bfe3-dac502259ad0.png

QQ-plot

散點圖位于對角線上。這意味著樣本分布是正態分布。如果散點圖位于左邊或右邊而不是對角線,這意味著樣本不是正態分布的。

導入必要的庫


		

importpandasaspd importnumpyasnp importmatplotlib.pyplotasplt importseabornassns

生成正態分布數據。


		

np.random.seed(10) #GenerateUnivariateObservations gauss_data=5*np.random.randn(100)+50

繪制數據點的分布。

sns.histplot(data=gauss_data,kde=True)

output

3f7fa8f2-9198-11ed-bfe3-dac502259ad0.png

該圖顯示數據是正態分布的。我們用數據點做qq-plot來檢驗它是否正態分布。


		

importstatsmodels.apiassm #q-qplot sm.qqplot(gauss_data,line='s') plt.show()

output

3f8b07c4-9198-11ed-bfe3-dac502259ad0.png

該圖顯示散點位于對角線上。所以它是正態分布的。

小提琴圖

Violin Plot

小提琴圖與箱線圖相關。我們能從小提琴圖中獲得的另一個信息是密度分布。簡單來說就是一個結合了密度分布的箱線圖。我們將其與箱線圖進行比較。 在小提琴圖中,小提琴中間的白點表示中點。實心框表示四分位數間距 (IQR)。上下相鄰值是異常值的圍欄。超出范圍,一切都是異常值。下圖顯示了比較。

3f99d83a-9198-11ed-bfe3-dac502259ad0.png

盒狀圖和小提琴狀圖的常見組成。所有學術級別的薪酬總額

讓我們看看小提琴圖的可視化。


		

importseabornassns sns.violinplot(data=df,y="sepal_width")

output

3fab5380-9198-11ed-bfe3-dac502259ad0.png

我們還可以通過傳遞名稱來繪制不同物種的小提琴圖。


		

importseabornassns sns.violinplot(data=df,x='species',y="sepal_width")

output

3fc285d2-9198-11ed-bfe3-dac502259ad0.png

還可以使用其他庫,如plotlymatplotlib等來繪制小提琴圖。

箱線圖的改進版

Boxen plot

Boxenplotseaborn庫引入的一種新型箱線圖。對于箱線圖,框是在四分位數上創建的。但在Boxenplot中,數據被分成更多的分位數。它提供了對數據的更多內存。

鳶尾花數據集的Boxenplot顯示了sepal_width的數據分布。

sns.boxenplot(x=df["sepal_width"])

output

3fed6702-9198-11ed-bfe3-dac502259ad0.png

上圖顯示了比箱線圖更多的盒。這是因為每個框代表一個特定的分位數。

sns.boxenplot(data=df,x="species",y='sepal_width')

output

3ffac2d0-9198-11ed-bfe3-dac502259ad0.png

不同物種sepal_widthBoxenplot圖。

點圖

下圖中有一些名為誤差線的垂直線和其他一些連接這些垂直線的線。讓我們看看它的確切含義。

40092686-9198-11ed-bfe3-dac502259ad0.png

點圖是一種通過上圖中顯示的點的位置來表示數值變量集中趨勢的方法,誤差條表示變量的不確定性(置信區間)[4]。繪制線圖是為了比較不同分類值的數值變量的變異性 [4]。

讓我們舉一個實際的例子—-我們繼續使用seaborn庫和iris數據集(在平行坐標部分中提到)。


		
			importseabornassns sns.pointplot(data=df,x="species",y="sepal_width")

output

402829e6-9198-11ed-bfe3-dac502259ad0.png

分簇散點圖

Swarm plot

Swarm plot是另一個受“beeswarm”啟發的有趣圖表。通過此圖我們可以輕松了解不同的分類值如何沿數值軸分布[5]。它在不重疊數據點的情況下繪制數據。但它不適用于大型數據集。


		

importseabornassns sns.swarmplot(data=df,x="species",y="sepal_width")

output

4036d66c-9198-11ed-bfe3-dac502259ad0.png

旭日圖

Sunburst Chart

它是圓環圖或餅圖的定制版本,將一些額外的層次信息集成到圖中 [7]。

4041d4ae-9198-11ed-bfe3-dac502259ad0.png

Sunburst Chart

整個圖表被分成幾個環(從內到外)。它保存層次結構信息,其中內環位于層次結構的頂部,外環位于較低的[7]階。

404fb330-9198-11ed-bfe3-dac502259ad0.png


		

importplotly.expressaspx df=px.data.tips()

output

405f854e-9198-11ed-bfe3-dac502259ad0.png

繪制旭日圖


		

fig=px.sunburst(df,path=['sex','day','time'], values='total_bill',color='time') fig.show()

output

406b3bc8-9198-11ed-bfe3-dac502259ad0.png

sunburst類的path屬性提供了層次結構,其中性別位于層次結構的頂部,然后是日期和時間。

詞云

Word Cloud

詞云圖的想法非常簡單。假設我們有一組文本文檔。單詞有很多,有些是經常出現的,有些是很少出現的。在詞云圖中,所有單詞都被繪制在特定的區域中,頻繁出現的單詞被高亮顯示(用較大的字體顯示)。有了這個詞云,我們可以很容易地找到重要的客戶反饋,熱門的政治議程話題等。


		

數據集 https://opendatacommons.org/licenses/odbl/1-0/

導入數據集

importpandasaspd
data=pd.read_csv('/work/android-games.csv')
data.head()

output

4079271a-9198-11ed-bfe3-dac502259ad0.png

我們統計每個類別的數據數量


		

data.category.value_counts() GAMECARD126 GAMEWORD104 GAMEACTION100 GAMEADVENTURE100 GAMESTRATEGY100 GAMEPUZZLE100 GAMESIMULATION100 GAMECASUAL100 GAMEARCADE100 GAMEROLEPLAYING100 GAMETRIVIA100 GAMEBOARD100 GAMECASINO100 GAMERACING100 GAMEEDUCATIONAL100 GAMESPORTS100 GAMEMUSIC100 Name:category,dtype:int64

然后我們來進行可視化。


		

#importingthemodulefromwordcloudlibrary fromwordcloudimportWordCloud importmatplotlib.pyplotasplt #creatingatextfromthecategorycolumnbytakingonlythe2ndpartofthecategory. text="".join(cat.split()[1]forcatindata.category) #generatingthecloud word_cloud=WordCloud(collocations=False,background_color='black').generate(text) plt.imshow(word_cloud,interpolation='bilinear') plt.axis("off") plt.show()

output

該圖表顯示了頻率最高的所有類別。我們也可以用這個圖從文本中找到經常出現的單詞。

總結

數據可視化是數據科學中不可缺少的一部分。在數據科學中,我們與數據打交道。手工分析少量數據是可以的,但當我們處理數千個數據時它就變得非常麻煩。如果我們不能發現數據集的趨勢和洞察力,我們可能無法使用這些數據。希望上面介紹的的圖可以幫助你深入了解數據。

以下是本文的引用

https://plotly.com/python/parallel-coordinates-plot/https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.plot.hexbin.html

Hintze, V. P. A Box Plot-Density Trace Synergism. Am. Sat, (52), 181 (Open Access Journal).

seaborn.pointplot — seaborn 0.12.1 documentation (pydata.org)

seaborn.swarmplot—seaborn0.12.1documentation(pydata.org)CreateasunburstchartinOffice—MicrosoftSupport

審核編輯 :李倩



聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據
    +關注

    關注

    8

    文章

    7241

    瀏覽量

    91023
  • 可視化
    +關注

    關注

    1

    文章

    1246

    瀏覽量

    21643
  • 數據集
    +關注

    關注

    4

    文章

    1223

    瀏覽量

    25278

原文標題:總結歸納了10個超級實用的數據可視化圖表

文章出處:【微信號:DBDevs,微信公眾號:數據分析與開發】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    工業設備可視化管理系統是什么

    工業設備可視化管理系統是一種基于物聯網(IoT)、大數據、云計算、數字孿生等技術,對工業設備的運行狀態、性能參數、維護信息等進行實時監測、數據整合與可視化呈現的智能管理平臺。它通過將復
    的頭像 發表于 05-27 14:56 ?132次閱讀
    工業設備<b class='flag-5'>可視化</b>管理系統是什么

    可視化組態物聯網平臺是什么

    可視化含義:組態是一種用于構建復雜物聯網系統的工具,它提供了豐富的圖形組件和可視化元素,使得用戶可以通過簡單的拖拽操作來創建自定義的界面。可視化則強調將物聯網系統產生的大量
    的頭像 發表于 04-21 10:40 ?195次閱讀

    VirtualLab Fusion中的可視化設置

    摘要 VirtualLab Fusion中的全局選項對話框可以輕松定制軟件的外觀和感覺。還可以保存和加載全局選項文件,以便可以輕松地將偏好設置從一設備轉移到另一設備。本文檔說明了與可視化和結果
    發表于 02-25 08:51

    七款經久不衰的數據可視化工具!

    工具 · D3.js:D3.js 是一基于 JavaScript 的數據可視化庫,允許開發者創建豐富的交互式圖表。它具有極大的靈活性,但需要編程知識,因此適合開發者或具有技術背景的
    發表于 01-19 15:24

    什么是大屏數據可視化?特點有哪些?

    介紹: 特點 直觀易懂:大屏數據可視化通過圖表、圖形和其他可視化元素,將復雜的數據轉化為直觀易懂的形式,使得用戶無需深入挖掘
    的頭像 發表于 12-16 16:59 ?616次閱讀

    如何找到適合的大屏數據可視化系統

    選擇合適的大屏數據可視化系統是企業或組織在數字轉型過程中至關重要的一步。一優秀的大屏數據可視化
    的頭像 發表于 12-13 15:47 ?411次閱讀

    Minitab 數據可視化技巧

    數據分析領域,數據可視化是一種將數據以圖形或圖像的形式展示出來的技術,它可以幫助我們更直觀地理解數據,發現
    的頭像 發表于 12-02 15:40 ?1240次閱讀

    智慧能源可視化監管平臺——助力可視化能源數據管理

    博達可視化大屏設計平臺在智慧能源領域的價值體現在實時監控、數據可視化、決策支持和效率提升等方面。借助該平臺,企業可以輕松搭建智慧能源類可視化大屏,更加精確和高效地管理生產和生活,實現能
    的頭像 發表于 11-29 10:00 ?849次閱讀
    智慧能源<b class='flag-5'>可視化</b>監管平臺——助力<b class='flag-5'>可視化</b>能源<b class='flag-5'>數據</b>管理

    智慧樓宇可視化的優點

    監控與管理:智慧樓宇可視化系統可以實時監測樓宇各項數據指標,包括能耗、水量、空氣質量、安全等情況,讓管理者隨時了解樓宇運行狀態,及時發現問題并做出調整。 2.數據可視化呈現:通過
    的頭像 發表于 11-19 14:25 ?420次閱讀

    智慧園區數據可視化優勢體現在哪些地方

    智慧園區數據可視化是當今數字化時代的重要工具,為園區管理者和決策者提供了強大的分析和展示數據的能力。以下是智慧園區數據可視化的應用優勢,詳細
    的頭像 發表于 11-15 10:30 ?474次閱讀
    智慧園區<b class='flag-5'>數據</b><b class='flag-5'>可視化</b>優勢體現在哪些地方

    大屏數據可視化 開源

    在當今信息爆炸的時代,數據已經成為各個行業決策制定和業務發展的關鍵。為了更直觀、準確地理解和利用海量數據, 大屏數據可視化 成為一種強大的工具。通過將
    的頭像 發表于 06-27 16:06 ?665次閱讀
    大屏<b class='flag-5'>數據</b><b class='flag-5'>可視化</b> 開源

    如何實現園區大屏可視化?

    如何實現園區大屏可視化? 1.建立孿生模型:首先需要建立園區的孿生模型,即一個數字化的虛擬模型,反映了園區的實際情況、結構、設備、人員等信息。這個模型可以通過傳感器、監控設備、GIS 數據等實時獲取和更新,確保與實際情況保持
    的頭像 發表于 06-19 15:39 ?707次閱讀
    如何實現園區大屏<b class='flag-5'>可視化</b>?

    物聯網時代,為什么需要可視化數據大屏

    效率、能耗水平等信息,從而合理優化并采取措施,促進企業的數字轉型。 由于人類大腦對視覺信息的處理優于對文本的處理,因此使用圖表、圖形和設計元素把數據進行可視化,可以幫助更容易的了解
    的頭像 發表于 06-18 13:53 ?683次閱讀
    物聯網時代,為什么需要<b class='flag-5'>可視化</b><b class='flag-5'>數據</b>大屏

    態勢數據可視化技術有哪些

    智慧華盛恒輝態勢數據可視化技術是一種將數據以圖形、圖像、動畫等視覺形式展現出來的技術,特別是在處理和分析態勢數據時,該技術能夠將復雜的數據
    的頭像 發表于 06-11 15:47 ?615次閱讀