目前已有的可視化技術可處理的節點規模上限在十萬量級。當網絡中節點數超過該上限時,布局算法的效率便急劇下降。上海交通大學Acemap團隊便提出了一種突破百萬量級壁壘的可視化繪圖新方法。本文以Acemap數據庫中收集的Nature雜志論文引用關系數據集為例,展現了超大規模學術網絡可視化的破冰之旅!
數據可視化通俗來說就是使用圖形來表達抽象數據的結構、變化、聯系、或趨勢。數據可視化的發展已經有幾百年的歷史,而上世紀五十年代計算機的發明使人類處理數據的能力有了質的提升。
與此同時,隨著計算機技術的飛速發展,人類開始創造各式各樣體型龐大的數據集。數據集的內容變得越來越抽象且復雜,簡單的可視化方法已經無法滿足人們的需求。
數據可視化用來創造一條快速認識數據集的捷徑,圖形化的數據表示方法能夠將人類的注意力吸引到重要目標,搭建人類與數據進行溝通的橋梁。根據不同數據集的特點,對數據可視化方法進行研究,從而最終得到可視化結果的過程本身并不容易,因此大數據可視化本身就是一門藝術。
圖1統計學家John Wilder Tukey:信息可視化理論的重要奠基者(1915—2000)
目前已有的網絡可視化算法如Force Atlas,ForceAtlas2,Fruchterman Reingold,Yifan Hu等算法可處理的節點規模上限在十萬量級。當網絡中節點數超過該上限時,布局算法的效率便急劇下降。而學術網絡中的節點數量通常在百萬量級甚至更高,算法的性能瓶頸和實際需求間的巨大差異對于揭示實際學術大數據空間結構形態造成了巨大障礙,面臨諸多嚴峻的技術挑戰。
上海交通大學Acemap團隊聚焦此項問題,另辟蹊徑,提出了一種突破百萬量級壁壘的可視化繪圖新方法,為超大規模可視化的可實現性提供了新的突破口,開啟了學術大數據空間可視化新紀元。接下來,本文將以acemap數據庫中收集的Nature雜志論文引用關系數據集為例,向您展現超大規模學術網絡可視化的破冰之旅!
超大規模學術網絡——Nature雜志論文引用關系數據集
Nature雜志論文引用關系數據集來源于Acemap數據庫,數據集包含了Nature雜志中的所有論文與這些論文引用的其他論文總共2053310篇。其中囊括了生物、物理、機械、化學、心理學等19個領域。從直觀上來說,數據可視化完成后在整體上將會有明顯的聚類效果,因為相同領域內的引用關系一定會比不同領域間的引用關系更加密切。除此之外,數據集中包含3426847條邊,用來表示數據集中論文之間的引用關系。
破冰之斧——ForceAtlas2布局算法
ForceAtlas2布局算法是一種力引導算法。該算法整合了包括Barnes Hut近似,度決定性斥力,全局與局部迭代速度自適應調整等技術。相比于Force Atlas算法,ForceAtlas2運行速度更快,并且處理的圖的規模更大。算法運行時,節點與節點之間將會相互排斥,存在連邊的兩個節點將會相互吸引。當算法穩定后,用戶將得到一個穩定的布局。
斧之利刃——分割繪圖法
當數據體量增長到一定程度后,以往的可視化方法無論從計算的準確性,還是可視化結果的可展示性都將遇到瓶頸,直接將所有數據放入布局算法中進行計算似乎是不可行的。于是我們提出使用分割繪圖法對大規模學術網絡進行可視化的方法。
分割繪圖法的整體思路就是使用某種啟發式算法,在數據進行可視化之前,檢測數據的結構,并根據數據在結構上的聯系將數據集分割為多個社區。分割后的單個數據集已經在布局算法可以處理的范圍之內,這時我們需要將這些數據集進行分別布局,然后將布局完成的小圖,以某種合理的方式進行拼接,最后再使用布局算法進行微調,即可得到最終的可視化。
破冰之旅——使用分割繪圖法對學術網進行可視化
數據分割
我們使用啟發式算法根據數據集節點在結構上的聯系對其進行分割,分割的具體流程如下。
圖2使用啟發式算法實現數據集數據的結構分割流程圖
圖3為社區劃分結果統計:
圖3社區標號與社區中節點關系
圖4社區劃分數量分布統計
圖3顯示了社區劃分完成后4917個社區中節點數量的分布,圖4顯示不同社區節點數量級中社區數的分布。在社區數量分布來說,社區節點數量最多分布在1000以下,總共占總體的97%,社區中節點數量超過1000的占總體的3%,其中更是有兩個社區節點的數量超過了12萬,可見這些社區中核心節點的影響力之大。
根據社區劃分的數量與最終的模塊度可以看出:社區劃分的效果較好,可知該數據集本身就具有非常強的結構性,且這種強結構性對后面圖結構等效模型的提出有很好的啟蒙作用。
等效結構的獲取
為了解決社區的塊間布局的計算,我們重新對基于引斥力模型的ForceAltlas2算法進行研究。在ForceAltlas2算法中,決定節點位置的最本質因素是一個節點所受的引力和斥力。同理,一個社區的最終位置也由該社區所受的引力和斥力決定,且社區內各個節點之間的力不會影響社區之間的引力和斥力。我們通過將社區中的所有節點等效為一個節點,進而得到數據集結構的等效模型。
圖5為等效結構的Gephi渲染結果
圖5 Nature雜志引用關系數據等效結構模型
該結構由社區節點數大于等于1000的149個社區進行等效,因為大圖的總體社區結構應由節點數較多的社區決定,節點數較少的社區可能會對圖的局部布局產生影響,但不會對整體結構形狀造成影響,因此這些節點的作用可以暫時忽略。該圖中的綠色節點表示社區的等效節點;綠色節點間的連邊表示不同社區之間的等效連邊,他們有不同的權重;綠色節點外的白色節點的作用是為了平衡不同社區之間的斥力。
子圖的分別布局
我們使用ForceAtlas2算法對劃分的結果進行分別布局,圖6為ForceAtlas2算法收斂后選取的部分社區的可視化結果:
圖6 ForceAtlas2算法對部分社區進行可視化的結果
在圖6中社區以不同的結構形態聚集在一起,有些社區存在多個核心,比如community_4,community_5,community_8,這些社區所包含的領域中的論文可謂是“百花齊放”;有些社區只存在一個核心,比如說community_1,這些社區中核心論文可謂是“一枝獨秀”。
子圖的拼合
當我們得到Nature雜志引用關系數據的等效結構與每個社區在ForceAtlas2算法下的布局后,我們現在就可以進行社區的拼合工作。
首先,由于我們得到的結構是一個相對真實結構等比例縮放的結構,他不一定能夠較好地容納各個社區。因此,我們需要對得到的等效結構進行等比例縮放,以適用每個社區的大小,并且避免每個社區之間有過多的重疊或者社區之間的距離過大的問題。對結構進行縮放非常簡單,只需要將結構中的每個中心節點的坐標乘上一個縮放因子即可,即:
由于拼合完成的圖結構最終還需要進行微調,所以進行拼合時不需要將結構計算的非常精確,因此我們只需要手動調節參數λ到圖結構合適即可。
當完成圖結構大小的調節后,我們需要進行圖的拼接。圖的拼接同樣很簡單,假設等效結構中某社區的中心節點為
,該社區的各個節點的坐標為
,則該社區中每個節點在大圖中的位置為:
合并圖的微調
在前面的操作當中,我們通過對社區進行分別布局,進而得到了Nature雜志論文引用關系數據布局的局部最優解,但通過上述的拼合方式得到的布局并不是全局的最優解,因此我們需要使用微調的方式來消除上述拼合過程中產生的誤差。
為了保留數據的完整性,我們需要將先前忽略的數據補全。當完成數據補全后,我們可以開始圖的微調工作了。微調完成后,我們已經得到所有節點的位置信息。到此時,節點布局的基本工作已經完成,這時我們需要將節點信息通過Gephi渲染,圖7為Gephi最終渲染的結果:
圖7 Nature雜志論文引用關系數據可視化結果(2053310個節點,3426847條邊)
圖8圖例
由圖7可見,Nature雜志論文引用關系數據存在較強的結構性。圖中最外層一圈細細的圓環是數據集中度為0的點,他們沒有引力的作用,因此呈現在圖的最外層;圖中產生了超級大的紅色節點,該點屬于生物學領域,論文名稱為“Cleavage of Structural Proteins during the Assembly of the Head of Bacteriophage T4”,據不完全統計,這篇文章已經達到了118282的引用量,引用數已經到達數據總量的1/20,達到了生物學領域數據量的1/10,可見這篇文章的影響力之大。圖7能夠顯示出較好的聚類效果,紅色區域表示生物學領域,生物學領域的文章的數量占據了Nature雜志一半還要多,在圖中能夠有較好的體現;然后物理學與機械領域分別占據了11.17%和9.11%;這些領域之間存在相互交疊的,交疊表示兩個領域之間存在學科交叉。
理想彼岸終到達——可視化結果的呈現
完成數據的可視化后,我們還進行了節點的重疊去除,圖的分層加載,由于篇幅限制,在此不再贅述。一下為可視化結果不同放大級別的展示。
圖9
圖10
圖11
圖12
新紀元下的展望——分割繪圖法的衍生應用
分割繪圖法開創性地突破了網絡大數據可視化百萬量級的屏障,為超大規模作圖帶來了新鮮血液。該方法可將大部分學術網絡一次性畫出,從而有望揭示整個學術領域的全貌,以及世界范圍內的精準學術定位,并對世界范圍內的學術地圖繪制提供重要思路。分割繪圖法除了在超大規模學術網絡可視化中發揮巨大作用外,該方法同樣可以擴展到其他具有結構性的超大規模網絡,例如大規模社交網絡。
超大規模數據可視化領域仍有許多屏障需要我們去突破,這正是吾輩需要努力之處。總之,革命尚未成功,同志仍需努力!
-
算法
+關注
關注
23文章
4698瀏覽量
94742 -
可視化
+關注
關注
1文章
1245瀏覽量
21638 -
數據集
+關注
關注
4文章
1223瀏覽量
25276
原文標題:簡單幾步可視化Nature論文引用關系,百萬量級數據全搞定
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
從使用效果來看,數據可視化工具離不開數據中臺嗎?
只有報表直觀了,不能算真正的數據可視化
能做數據治理的數據可視化工具,又快又靈活
請問怎么把BI數據可視化報表發給領導看?
怎么做以中國地圖為底圖的數據可視化報表?
財務數據分析?奧威BI數據可視化工具很擅長
一鍵生成可視化圖表/大屏 這13款數據可視化工具很強大

評論