編者按:在日常工作中,數據可視化是數據科學家不可或缺的一個“好幫手”。它能以圖像的形式生動有趣地把數據信息有效傳遞給他人,是人與人、部門與部門之間高效溝通交流的工具。但是,這些作用也決定了它必須兼具美學和統計功能:太繁則華而不實;太簡則晦澀難懂。如何把握設計與功能之間的平衡,創建出簡潔直觀的可視化圖像?這是個連行業老人都感到頭疼的問題。
本文來自資深統計學家Nathan Yau,他向我們展示了如何基于目標問題,為同一個數據集設計14種不同的可視化圖像。
不久前,我寫了一篇關于如何構建動態金字塔圖表的教程。寫完文章后,我偶然看到了一張金字塔圖,制圖人Lisa Charlotte Rost根據當前德國各年齡段男性、女性人數,用兩個完全不同的圖表展示了社會兩性人口分布和社會兩性人數在未來的變化趨勢。
同一個數據集,不同的焦點。我覺得這很有趣,于是做了一版美國版的動態金字塔圖:
如上圖所示,這幅可視化關注的是2015-2060年間各年齡段男性、女性人口的分布情況。
而這是用相同數據繪制的第二幅可視化圖表,可以發現,雖然它仍關注在具體某個年齡段是男性多還是女性多,但它能反映整個年齡段的總人口趨勢,這個信息是第一幅圖欠缺的。
那么,哪幅圖更好呢?
答案取決于你想知道什么。如果你只想知道是男性多還是女性多,那么第一幅圖更直觀;但是,如果你想知道總人口的變化情況,而不是男女人數差異大小,第二幅圖更合適。
這個例子告訴我們,在可視化數據之前,多問問自己可視化的目的會幫我們更好地選擇圖表。可視化圖像不應該只是一堆漫無目的、沒有重點的圖形,我們不一定要在上面呈現翔實的數據——盡管它們對分析和探索很有用,但必須明確闡釋數據之間的密切聯系,這是數據演示的意義所在。
接下來,就讓我們仍以上述美國人口數據集為例,看看可視化在實踐中是如何運作的。
首先,這里有一個數據樣本:
Year Age Gender Projected.Population
2014 0 Female 1939928
2014 0 Male 2031919
2014 1 Female 1933019
2014 1 Male 2024845
2014 2 Female 1941924
2014 2 Male 2030157
...
數據集地址:wonder.cdc.gov/
已知數據集來源可靠,里面的所有內容都由美國衛生與人類服務部提供。數據集中共4個特征:年份、居民年齡、居民性別和預計人口。其中年份的范圍是2014-2060,居民年齡分布在0至100以上之間,性別分為男性/女性,預計人口在9000到270萬之間。
針對以上信息,現在我們可以提出一些問題并實現相應可視化。
這個數據集大致反映了什么?
如果可視化的目標是解答這個問題,動態金字塔圖能提供對整個數據集的整體反饋。如下圖所示,隨著人口年齡的增長,圖中色塊會往縱向不斷延伸;隨著人口總數的增加,圖中色塊會橫向變寬。圖中展示的內容已經足以概括數據集,如果實在要跳錯,它確實有一個小問題,就是沒有直觀展示兩性人口數的對比情況。
和現在相比,2060年一共有多少人?
如果你只關心總人口而不是年齡、性別,一個簡單的條形圖就足夠了。
或者,你也可以把它總結為一句話:從2018年至2060年,人口預計將增長26.5%。
男多女少or女多男少?
對于這個問題,其實我們可以用文首的動態金字塔圖來解釋。但它的不足之處是多了一個年齡維度,這就使看圖的人只能對比每個年齡段的男女人口,而沒法直接看出兩性的總人口差距(要估計曲線下方的區域)。
因此,為了解決這個問題,我們可以用最基礎的可視化圖像之一——折線圖,一條表示女性,一條表示男性,上方曲線人多,下方曲線人少。如下圖所示,在未來幾十年內,美國將繼續維持女多男少的局面。
如果想表現男性和女性人數之間的差距將隨著時間推移而減少,你可以在兩條線之間補充一些垂線,更直觀地表現趨勢:
你也可以把人口差算出來,繪制人數差距圖:
如果不想用折線圖,連接的散點圖也是一種比較男性和女性人口隨時間變化的方法:
如上圖所示,左上區域表示女性人數,又下區域表示男性人數,中間的黑色虛線表示兩性人數相等的狀態。由于美國女多男少,表示實際人口的藍色散點線目前在女性一側,但隨著時間推移,藍線會不斷向對角線靠近,表示人數差距將越來越小。
如何比較男性和女性的年齡分布?
一般情況下,如果要顯示某一時間點某區域的男女比例和年齡構成,人口金字塔是所有可視化圖像中的首選。之前我們展示了一幅動態金字塔圖,它的優點是能體現總人數變化和年齡分布趨勢,但考慮到這里我們的目標是比較男女年齡分布,鏡像圖結構不夠直觀,動態變化也會為對比帶來麻煩,所以靜態人口金字塔圖更合適。
一種方法是把男女圖像排列一側,直接上下對比:
另一種方法是重疊圖表進行強制比較。無論選擇什么樣的展示方法,直觀簡介始終是第一位的。
每年增加多少人口?
人口增長率是一種常見可視化對象,對于一個國家而言,人口增長的速度肯定不是一成不變的,我們可以計算人口的同比增長變化,更合理地反映社會情況:
除了增速,人口的實際增長量也是人們感興趣的點,我們可以用下面的圖可視化每年的絕對增長量:
每個年齡的預計變化是多少?
如果你感興趣的目標是年齡,我們也可以統計每個年齡的人口數變化范圍,如下圖所示,線段越長,人口增長地越多:
那么全國哪個年齡的人數最多呢?下面的圖能給我們答案:
到目前為止,我們應該已經看出不同問題對具體可視化方法的巨大影響了。這給了我們一些啟發:
拿到數據集時,原問題只是一個開始,它可能會帶來更多問題
問題提供了關注焦點,因為圖形是對特定問題的解答
要過濾一切不需要呈現的內容
-
可視化
+關注
關注
1文章
1256瀏覽量
21735 -
數據集
+關注
關注
4文章
1223瀏覽量
25363
原文標題:數據可視化技巧:提出問題,描繪答案
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
評論