《Science》、《Nature》和《Cell》三大學(xué)術(shù)期刊在學(xué)術(shù)界可謂是家喻戶曉,那么發(fā)表在其上的文章到底有什么與眾不同之處呢?本文便構(gòu)建了這三大刊的學(xué)術(shù)畫像,深趴了其牛文的獨(dú)特性質(zhì),揭開CNS的神秘面紗。
說起《Science》、《Nature》和《Cell》這三本學(xué)術(shù)期刊,相信大家都不會陌生,甚至網(wǎng)上有流傳說,學(xué)者們獲評院士的必要條件之一,便是要發(fā)表過《Nature》或《Science》的文章。
《Science》、《Nature》和《Cell》被統(tǒng)稱為CNS三大刊。大家可能會好奇:
CNS三大刊上的文章為什么如此受青睞?
其和普通文章相比究竟有何特別的氣質(zhì)?
它們的刊登背后有何共同規(guī)律和現(xiàn)象可以為我們所掌握?
手握大把的《Nature》或《Science》是否真的對學(xué)者們的職位上升有決定性的作用?
這些學(xué)者中有多少人擁有漫長的學(xué)術(shù)生涯,又有多少人僅僅是“one hits wonder”?
也有人想好奇地了解,CNS三大刊的大牛們在合作模式上有何特點,他們究竟愛和大牛們維持合作還是樂于采用廣發(fā)合作帖的模式?
另外,除了學(xué)者的自身信息,CNS文章作者們所在的機(jī)構(gòu)、文章的領(lǐng)域等是不是都蘊(yùn)含著各種我們意想不到的信息量?
要回答這么多問題,就需要獲取CNS的相關(guān)數(shù)據(jù)進(jìn)行分析。然而,目前網(wǎng)絡(luò)上還沒有包含這三個學(xué)術(shù)期刊的數(shù)據(jù)庫,而且就算有了它們的學(xué)術(shù)信息,我們也很難直接從字符串里得到清晰、立體的學(xué)術(shù)信息。
于是,帶著對這三個期刊學(xué)術(shù)信息的好奇心,小編決定從頭構(gòu)建它們的學(xué)術(shù)畫像,以此來深趴一下發(fā)表在CNS三大刊上的牛文究竟有哪些方面的獨(dú)到特質(zhì),希望這些特質(zhì)或多或少可以幫助廣大民眾揭開CNS的神秘面紗,還原其niubility養(yǎng)成的廬山真面,以此滿足廣大民眾對CNS長期以來持有的各類好奇心。
CNS三大刊的學(xué)術(shù)畫像如何構(gòu)建?
在期刊的官網(wǎng)上爬取公開的學(xué)術(shù)論文信息
爬取的內(nèi)容包括:標(biāo)題、作者、作者所屬機(jī)構(gòu)、發(fā)表時間、論文領(lǐng)域以及引用的文獻(xiàn)信息。
對爬取得到的數(shù)據(jù)進(jìn)行規(guī)范化和補(bǔ)足處理
由于官網(wǎng)上的論文信息時間跨度很大,早年幾乎都沒有收錄機(jī)構(gòu)信息和領(lǐng)域信息;而且隨著時間變化,同一機(jī)構(gòu)的名稱在表達(dá)上也會有些出入。
對最終數(shù)據(jù)進(jìn)行可視化處理
在可視化階段,對于論文合作者關(guān)系,我們充分考慮學(xué)術(shù)信息在時間維度上的變化情況,開創(chuàng)性地每十年劃分一個數(shù)據(jù)集,制作出合作者關(guān)系變遷圖;對于機(jī)構(gòu)信息,我們讓機(jī)構(gòu)與其實際地理位置產(chǎn)生聯(lián)系,繪制出含經(jīng)緯度信息的機(jī)構(gòu)地圖。除此以外,我們還繪制出了論文引用網(wǎng)絡(luò)以及幾個有趣指標(biāo)在時間跨度上的演變。
圖中關(guān)系怎么表示?
在合作者關(guān)系圖中,用節(jié)點表示合作者,連邊表示合作者合作完成過一篇學(xué)術(shù)論文,節(jié)點越大,就表示它參與的工作越多;在引文網(wǎng)絡(luò)中,用節(jié)點表示論文,連邊表示論文的引用關(guān)系,節(jié)點越大,就表示它的被引用量越多。
機(jī)構(gòu)地圖怎么聯(lián)系節(jié)點與實際位置?
我們將機(jī)構(gòu)與其地理位置(國家/州)進(jìn)行匹配,再用匹配好的地理名稱區(qū)匹配經(jīng)緯度。在用Gephi繪圖時,使用插件GeoLayout來放置節(jié)點。
文引用網(wǎng)絡(luò)中的節(jié)點都來自同一期刊嗎?
當(dāng)然不是來自同一期刊的文章。但是構(gòu)建的過程是先引入某一期刊(如《Cell》)的所有論文,再將這些文章的引用引入到Gephi中,所以引文網(wǎng)路中的文章是不能保證均出自同一期刊的。
從學(xué)術(shù)畫像中得到的有趣發(fā)現(xiàn)
在完成可視化后,我們在學(xué)術(shù)畫像中得到了一些有趣的發(fā)現(xiàn)。下面給大家一一道來!O(∩_∩)O
《Nature》合作者關(guān)系
圖1 《Nature》合作者關(guān)系變遷圖
圖2 《Nature》合作者關(guān)系總覽圖
從圖1最直觀的可以看到的是,隨著時間變化,重要性高(合作數(shù)高)的點(藍(lán)點)越來越小,數(shù)目也在不斷增加,說明隨著時間變化,學(xué)術(shù)大牛也在不斷增加,但是和 他們合作的人也越來越多,呈現(xiàn)了一個學(xué)術(shù)不斷發(fā)展壯大的趨勢。
另外,隨著時間增 長,圖的復(fù)雜度也在不斷地增長。還可以觀察到的是,在 1900 到 1950 這段時間里,重要性高的點非常分散且位于圖的邊緣,而重要性低的點往往聚在一起且交錯復(fù)雜,可以猜測這段時間里,學(xué)術(shù)大牛往往喜歡單人作業(yè)或和少數(shù)人合作,而其他人則喜歡聚在一起完成一些項目。
值得注意的是,從20世紀(jì)初到20世紀(jì)70年代,藍(lán)點學(xué)者W. F.Denning一直活躍在《Nature》學(xué)術(shù)界,擁有超高的合作量。通過搜索了解到,原來這位學(xué)者是來自英國的William Frederick Denning,他是一位業(yè)余的天文學(xué)家,這就是說,他并沒有接受過專業(yè)的科學(xué)培養(yǎng)。他的主要成就在于對彗星的發(fā)現(xiàn),比如周期性的72P/Denning–Fujikaw彗星和失落彗星D/1894 F1。
《Cell》合作者關(guān)系
圖3 《Cell》合作者關(guān)系變遷圖
圖4 《Cell》合作者關(guān)系總覽圖
從時間維度上看,圖譜邊緣區(qū)域游離的社區(qū)在不斷的減少,從一開始的游離在中心外的社區(qū)變成中期游離的節(jié)點或一組有合作關(guān)系的節(jié)點,到最后節(jié)點數(shù)量大減;中心區(qū)域的節(jié)點不斷增多,社區(qū)結(jié)構(gòu)不斷復(fù)雜化,到最后看不出來有社區(qū)結(jié)構(gòu)存在。
這兩個 區(qū)域的變化都暗示了 《Cell》 雜志上的論文合作都朝著領(lǐng)域交叉的方向進(jìn)行。
圖5 《Cell》 合作者關(guān)系圖(2010-2019)
在2010-2019年的圖中,圖中出現(xiàn)了肉眼可見的巨變,游離的節(jié)點驟減,中心區(qū)域的結(jié)構(gòu)也發(fā)生了很大的變化。在中心區(qū)域的邊緣,出現(xiàn)了一群藍(lán)點學(xué)者包括 Li Ding, Matthew H. Bailey 和 Jianfang Liu 等(他們在癌癥和基因等方面有所發(fā)文),在這?年里,他們互相之間和與其他較低合作數(shù)的學(xué)者進(jìn)行了高強(qiáng)度的合作。但是他們的研究可能和其他的學(xué)者之間聯(lián)系并不那么密切,導(dǎo)致他們飛到了中心區(qū)域邊緣。
《Science》合作者關(guān)系
圖6 《Science》合作者關(guān)系變遷圖
圖7 《Science》合作者關(guān)系總覽圖
《Science》 雜志和其他期刊很不同的一點在于:它在很長一段時間里,都沒有大量的學(xué)者合作交流,所以從時間上來看,它的變化僅僅在于合作者數(shù)量不斷增加。但是到了 21 世紀(jì),可能是學(xué)術(shù)界的一股交流合作浪潮,讓 《Science》 的合作關(guān)系圖也開始變得交錯復(fù)雜起來。
1990年代的時候,圖中大社區(qū)開始萎縮,周圍的游離點也開始相應(yīng)的萎縮,這可能和雜志社的刊文策略有關(guān),可能在這一年代里,雜志社減少了學(xué)術(shù)論文的刊載,增加了科普性文章的刊載,導(dǎo)致合作者數(shù)量減少。
《Nature》機(jī)構(gòu)地圖
圖8 《Nature》機(jī)構(gòu)地圖
以信息最為豐富的 《Nature》 圖為例。總的來說,美國在這三張圖上有絕對的領(lǐng)先優(yōu)勢:
首先,它擁有全球最多的機(jī)構(gòu)數(shù)量;
其次,它擁有全球發(fā)文數(shù)量最多的機(jī)構(gòu):加州大學(xué)系列,MIT等;
最后,它的總體發(fā)文數(shù)量也是最多的。
再把目光移到南美洲,巴西、智利和阿根廷等國家,發(fā)現(xiàn)它們也有很強(qiáng)的科研能力。旁邊的北非、東非、南非也實力不菲,如肯尼亞、加納,他們都在這張地圖里占據(jù)了很大的版面。整個歐洲也擁有與美國匹敵的機(jī)構(gòu)數(shù)量和發(fā)文數(shù)量,其中以英法德三國最為矚目。
再將目光駐足到亞洲地區(qū),可以發(fā)現(xiàn)中印日三國的實力也不可小覷,但是相較而言,在《Nature》 的刊物發(fā)表上,中國還有上升空間。從世界角度看,若把節(jié)點大小(發(fā)文量)看作是機(jī)構(gòu)的科研實力的某種維度體現(xiàn)的話,除了美國,英國,澳大利亞外,其他國家還沒有科研實力非常出眾的機(jī)構(gòu)。
從大洲的層面上看,歐洲足以和北美分庭抗禮,而其他幾個大洲里,亞洲主要靠中日印以四國的科研力量領(lǐng)跑第二階梯,澳洲的兩個國家和非洲南美的差距不算太大。
《Nature》領(lǐng)域分布
圖9 《Nature》領(lǐng)域分布
圖9.1 《Nature》領(lǐng)域分布 圖例
在采集到Nature 的機(jī)構(gòu)信息和領(lǐng)域信息后,我們決定將兩個信息放到一起來發(fā)現(xiàn)領(lǐng)域與機(jī)構(gòu)/地理位置的關(guān)系。圖中的機(jī)構(gòu)節(jié)點按該機(jī)構(gòu)發(fā)文數(shù)量最多的領(lǐng)域染色。
我們可以看到,在全球范圍里,機(jī)構(gòu)發(fā)文中Health sciences的數(shù)量最多,Scientific community andsociety次之,Earth and environmental sciences數(shù)量最低,這一大小比例和2010年代合作者領(lǐng)域關(guān)系是基本吻合的。雖然橙色的Physical science占比不高,但是它仍然在歐美板塊中占據(jù)了一些影響力較高的機(jī)構(gòu)。
由于本圖領(lǐng)域劃分過大,導(dǎo)致圖中的顏色較為分散,如果進(jìn)一步細(xì)分領(lǐng)域,我們可能會獲得更多有趣的信息。
《Cell》引文網(wǎng)絡(luò)
圖10 《Cell》引文網(wǎng)絡(luò)
從圖10可以看出,由左下到右上,時間不斷增長,圖的復(fù)雜交錯性也在不斷增長,這是由于年代越新,引用文獻(xiàn)的年代越復(fù)雜造成的。另外,在這條對角線上,基本上各個年代都會出現(xiàn)少量重要性高的文章,這一點很有趣,而且他們都在各自年代的圖的中部位置。
而到了 00 和 10 年代后,這些重要性高的文章變得更多了,但是相對的重要程度卻變低了。這個現(xiàn)象有兩個解釋:a. 年代久遠(yuǎn)的文章,被引用的時間去見更久,所以重要性更大,而今年的 文章還沒有足夠多的時間被其他文章引用;b. 近年來的學(xué)術(shù)發(fā)展,大牛不斷增加,這一結(jié)果 和之前的作者合作關(guān)系圖不謀而合。
CNS論文的標(biāo)題長度、論文合作者數(shù)量、論文合作機(jī)構(gòu)數(shù)量隨時代的變遷趨勢。
圖11 論文標(biāo)題長度變遷
圖12 論文合作者數(shù)量變遷
圖13 論文合作機(jī)構(gòu)數(shù)量變遷
從圖形上看,可發(fā)現(xiàn)CNS三大刊的論文標(biāo)題基本呈高斯分布,且不同年代的峰值也會發(fā)生偏移。綜合對比,可發(fā)現(xiàn)三大刊的高斯峰值點無外乎均在5、10、15附近波動,而Science在1960和2010年代甚至還在20附近出現(xiàn)了二次小高峰,甚是有趣。
在機(jī)構(gòu)數(shù)量和合作者數(shù)量方面,我們可以看到曲線基本是隨數(shù)量增多而下降的,說明一篇文章的作者數(shù)和機(jī)構(gòu)數(shù)并非多多益善,存在著一個合作的最佳尺度!
按時間維度來分析,在論文標(biāo)題長度和論文合作者數(shù)量上,《Nature》和《Science》都是隨時間變化而增長,而《Cell》與其他們的變化相反;在機(jī)構(gòu)數(shù)量變遷上,三本期刊的單篇文章機(jī)構(gòu)數(shù)都在上升,這一點有兩個原因:1. 隨著時間變化,網(wǎng)站上關(guān)于機(jī)構(gòu)的信息越來越豐富了;2. 需時間變化,機(jī)構(gòu)間的合作也更加密切了。
總結(jié)
本次研究中,我們深度挖掘了潛藏在期刊(《Nature》,《Science》和《Cell》)數(shù)據(jù)中的有趣信息,如各個期刊的學(xué)術(shù)發(fā)展脈絡(luò),學(xué)術(shù)界的合作關(guān)系演變,領(lǐng)域的興起,融合和衰落,標(biāo)題的長度演變等。這些分析結(jié)果可以將研究人員從大量的原始數(shù)據(jù)中解脫出來,通過研究學(xué)術(shù)畫像的形式,更加輕松地獲取潛藏其中的信息,進(jìn)而揭示學(xué)術(shù)界眾多領(lǐng)域的發(fā)展歷程和規(guī)律,尋找各領(lǐng)域中的關(guān)鍵學(xué)者、關(guān)鍵論文,探索可拓展的交叉新興領(lǐng)域,并預(yù)測未來研究熱點。
未來展望
雖然在本篇推文中我們引入了時間和空間維度的概念,但是我們要么是單獨(dú)討論時間維度,要么是單獨(dú)討論空間維度,并沒有將二者真正結(jié)合在一起。為了達(dá)成這個目的,我們可以在機(jī)構(gòu)地圖中加入時間信息,將各國/各洲在時間尺度上的變化動態(tài)地表現(xiàn)出來;也可以在合作關(guān)系中加入作者受教育機(jī)構(gòu)的地理信息(如:大學(xué)本科-研究生-博士),為進(jìn)一步了解合作者關(guān)系提供有力的手段。
-
數(shù)據(jù)庫
+關(guān)注
關(guān)注
7文章
3926瀏覽量
66216 -
可視化
+關(guān)注
關(guān)注
1文章
1262瀏覽量
21862
原文標(biāo)題:可視化Nature、Science、Cell三大刊牛文,學(xué)術(shù)畫像解密大咖
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
突破!華為先進(jìn)封裝技術(shù)揭開神秘面紗
浮思特 | 揭開(IGBT)的神秘面紗,結(jié)構(gòu)原理與應(yīng)用解析

傳統(tǒng)測溫 out 了?熒光光纖測溫,才是工業(yè)溫度監(jiān)測的“真香”技術(shù)!

立訊技術(shù)OmniEdge CRE產(chǎn)品的六大優(yōu)勢

智多晶LPC_Controller IP介紹

發(fā)燒友必看:揭秘邏輯LC電路的神秘作用
什么是MOSFET柵極氧化層?如何測試SiC碳化硅MOSFET的柵氧可靠性?
高性能晶體材料應(yīng)用 晶體材料的特性和分類
揭開觸控技術(shù)的神秘面紗

艾畢勝電子全自動跟拍智能云臺驅(qū)動板方案的神秘面紗

用智能DAC揭開醫(yī)療報警設(shè)計的神秘面紗

OpenAI宣布啟動GPT Next計劃
電感元件的特性是什么性質(zhì)
北斗衛(wèi)星時鐘——揭開“授時”的神秘面紗

評論