科學史話 克倫·施拜克·瓊斯: 每次網絡搜索背后 都離不開她的貢獻
克倫·施拜克·瓊斯(Karen Sp?rck Jones)1935年8月26日生于英國哈德斯菲爾德市,一個紡織業較發達的城市。在她小時候,她的父親在大學里擔任化學講師,晚上還要打工掙錢;母親是挪威人,曾去倫敦為挪威流亡政府工作。由于父母都顧不上照看她,便將她托付給鄉間的一戶人家。在這樣的生長環境中,瓊斯從小便鍛煉出了一定的獨立性。
從11歲到18歲這7年間,瓊斯就讀于一所高水平的文法女校,12歲時,她發愿要上劍橋大學,后終于如愿以償。
1956年,她在劍橋大學獲得歷史學專業的文學學士學位。由于對哲學的興趣,瓊斯又繼續讀了一年哲學。1957年,她加入了劍橋語言研究所,開始接觸計算機在語言研究方面的應用。在此工作期間,她認識了Roger Needham(1935—2003,計算機科學家,英國皇家學會會員),兩人于1958年結婚。1964年,她在劍橋大學獲得哲學博士學位,但博士論文導師對她的幫助不大,她基本上是獨立打拼,編程也是自學的。1968年,瓊斯成為劍橋大學計算機實驗室的全職工作人員,從此以后她在這里耕耘了近50載,一直從事計算語言學和信息檢索研究。
她在計算語言學和信息檢索兩個領域都作出了杰出貢獻。在信息檢索方面,早在1958年,她就與人合著了相關文章。她的最重要貢獻當數1972年提出的逆文本頻率指數(IDF)的概念。這個概念的意思是:如果詞w在一篇文檔d中出現的頻率高,并且在其他文檔中很少出現,則可以認為詞w具有很好的區分能力,可以把文章d和其他文章較好地區分開來。IDF是互聯網搜索引擎普遍采用的思路。可以說,沒有瓊斯的早年貢獻,就沒有谷歌搜索引擎日后的成就。
在計算語言學方面,她1963年完成的博士論文至今仍有價值。該文將統計進路(或曰機器學習進路)與已有資源(做在穿孔卡片上的敘詞表)結合起來,取得了領先于時代的成果。此外,她在計算機自動摘要、結構化數據庫的界面、對話、語義學等多個主題上均有所建樹。
除了本人的學術研究外,她還通過學術社團的活動大大推進了本領域的進步。尤其是1994年她擔任計算語言學學會(ACL)會長期間。計算語言學學會是國際性的社團,當時多數會員是美國學者,她接手學會時,學會的財務狀況不佳,原來的司庫又去世了,一時半會兒招聘不到新的司庫,在這種情況下,瓊斯又要統籌安排學會的學術活動,又要管賬,忙得一塌糊涂。那一陣子是ACL苦痛掙扎的過渡期,在她的有力領導下,ACL走出了困境。除了ACL外,她還是另外好幾個學會的會士。2000—2002年期間,她擔任過英國科學院副院長。在英國有兩所科學院:英國皇家學會相當于自然科學領域的科學院,而英國科學院是人文社會科學領域的科學院。由于語言學這個大類屬于人文學科,瓊斯就憑借其在計算語言學的成就當選為英國科學院的院士。
瓊斯共獲得過7個重要獎項,包括2004年獲得的“計算語言學學會終生成就獎”和2007年獲得的“英國計算機學會勒芙蕾絲獎章”(阿達。勒芙蕾絲是英國大詩人拜倫的女兒,計算機程序的創始人)。
她2002年辦理了退休手續,但繼續在實驗室工作。直到2007年4月4日去世前不久,實驗室里仍有她的身影。
2001年4月10日,電氣電子工程師學會(IEEE)歷史研究中心的Janet Abbate女士采訪了瓊斯。在接受采訪時她說:“人人都在談職業生涯之類的東西。從某種意義上說,我做到了一路向前走,但其實那時并沒有明顯的路徑。你得利用一切存在著的機會。早年的時候,對于女性,即使是在劍橋,工作機會也是極其有限的。看看現在的年輕女性,我是十分羨慕。現在沒有多少女性擁有‘我能行’的心態,但她們其實擁有實現‘我能行’的機會,而我們那時根本就沒有這樣的機會。”
希望我們中國的職業女性以瓊斯為榜樣,抓住機會,奮力前行。
(克倫·施拜克·瓊斯 圖片來源:劍橋大學網站)
概述搜索引擎的起源
1.搜索引擎的起源
1990年,加拿大麥吉爾大學(University ofMcGill)計算機學院的師生開發出Archie。當時,萬維網(World Wide Web)還沒有出現,人們通過FTP來共享交流資源。Archie能定期搜集并分析FTP服務器上的文件名信息,提供查找分別在各個FTP主機中的文件。用戶必須輸入精確的文件名進行搜索,Archie告訴用戶哪個FTP服務器能下載該文件。雖然Archie搜集的信息資源不是網頁(HTML文件),但和搜索引擎的基本工作方式是一樣的:自動搜集信息資源、建立索引、提供檢索服務。所以,Archie被公認為現代搜索引擎的鼻祖。
2.搜索引擎的發展
第一階段
Excite的歷史可以上溯到1993年2月,6個Stanford University(斯坦福大學)大學生的想法是分析字詞關系,以對互聯網上的大量信息作更有效的檢索。到1993年中,這已是一個完全投資項目,他們還發布了一個供webmasters在自己網站上使用的搜索軟件版本,后來被叫做Excite for Web Servers。注:Excite后來曾以概念搜索聞名,2002年5月,被Infospace收購的Excite停止自己的搜索引擎,改用元搜索引擎Dogpile
第二階段
1994年4月,斯坦福大學的兩名博士生,美籍華人楊致遠和David Filo共同創辦了Yahoo!。隨著訪問量和收錄鏈接數的增長,Yahoo目錄開始支持簡單的數據庫搜索。因為Yahoo!的數據是手工輸入的,所以不能真正被歸為搜索引擎,事實上只是一個可搜索的目錄。Yahoo!中收錄的網站,因為都附有簡介信息,所以搜索效率明顯提高。注:Yahoo以后陸續有 Altavista、Inktomi、Google提供搜索引擎服務Yahoo!--幾乎成為20世紀90年代的因特網的代名詞。
第三階段
1995年,一種新的搜索引擎形式出現了——元搜索引擎(Meta Search Engine)。用戶只需提交一次搜索請求,由元搜索引擎負責轉換處理后提交給多個預先選定的獨立搜索引擎,并將從各獨立搜索引擎返回的所有查詢結果,集中起來處理后再返回給用戶。第一個元搜索引擎,是Washington大學碩士生 Eric Selberg 和 Oren Etzioni的 Metacrawler。元搜索引擎概念上非常好聽,但搜索效果始終不理想,所以沒有哪個元搜索引擎有過強勢地位。
第四階段
智能檢索的產生:它利用分詞詞典、同義詞典,同音詞典改善檢索效果,進一步還可在知識層面或者說概念層面上輔助查詢,通過主題詞典、上下位詞典、相關同級詞典檢索處理形成一個知識體系或概念網絡,給予用戶智能知識提示,最終幫助用戶獲得最佳的檢索效果。?
-
計算機
+關注
關注
19文章
7657瀏覽量
90701 -
網絡
+關注
關注
14文章
7810瀏覽量
90868 -
機器學習
+關注
關注
66文章
8501瀏覽量
134537
發布評論請先 登錄
微軟面臨法國反壟斷機構調查
OpenAI免費開放ChatGPT搜索功能
javascript:void(0) 是否影響SEO優化
HTTP 協議對于SEO優化的影響
蘋果為谷歌支付數十億美元辯護,參與搜索案反壟斷審判
SSR的優勢和劣勢分析
阿里國際推出全球首個B2B AI搜索引擎Accio
阿里國際推出B2B領域AI搜索引擎Accio
租用多ip云服務器可以帶來哪些好處?應用場景有哪些?
OpenAI推出ChatGPT搜索功能
Meta開發新搜索引擎,減少對谷歌和必應的依賴
月訪問量超2億,增速113%!360AI搜索成為全球增速最快的AI搜索引擎

評論