女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

谷歌發布查找在線數據的搜索引擎Dataset Search

KIyT_gh_211d74f ? 來源:未知 ? 作者:胡薇 ? 2018-09-11 16:20 ? 次閱讀

9 月 5 日,谷歌發布了一個幫助研究者查找在線數據的免費搜索引擎 Dataset Search。谷歌表示,該引擎面向「科學家、數據記者、數據極客等人群」。該引擎有助于促進數據的開放利用和重復利用。

Dataset Search 與谷歌的其他專用搜索引擎(如用于搜索新聞和圖像的引擎,以及 Google Scholar 和 Google Books)一樣可以免費使用,它基于擁有者對文件和數據庫的分類方式來查找文件和數據集。該引擎讀取文件內容的方式與搜索引擎搜索網頁的方式不同。有專家表示,該引擎填補了這一領域的空白,可以極大地促進開放數據運動的發展,這一運動旨在實現數據的開放利用和重復利用。

政府機構、科學出版社、研究機構甚至是個人研究者在全世界維護著成千上萬的開源數據資源庫,包含了數百萬個數據集。

但那些想知道哪些類型的數據可用,或者那些希望定位已經存在的數據的研究者,通常依賴于口耳相傳的信息。來自加州山景城的 Google AI 計算機科學家 Natasha Noy 說。

對于那些處于研究生涯早期階段且還沒有建立專業聯系網絡的研究者而言,這個問題尤其嚴重,Noy 說。這對于那些做交叉學科研究的人而言也是個嚴重的缺陷。例如,流行病學家需要訪問氣候數據,其可能與某種病毒的傳播相關。

分類搜索

2017 年 1 月,Noy 及其谷歌同事 Dan Brickley 在一篇谷歌博客(https://ai.googleblog.com/2017/01/facilitating-discovery-of-public.html)中首次介紹了解決該問題的策略。

典型的搜索引擎分兩個階段運行。第一個階段是通過在互聯網上持續搜索來索引可用網頁。第二個階段是對索引網頁進行排序,以使用戶輸入搜索詞時,搜索引擎能夠按相關度排序來提供搜索結果。

Noy 和 Brickley 寫道,為了幫助搜索引擎索引現有數據集,擁有數據集的人應該使用一個叫作 Schema.org 的標準化詞匯表來「標記」數據集,Schema.org 是谷歌和另外三個搜索引擎巨頭(微軟、雅虎和 Yandex)一起發起的項目,由 Brickley 管理。谷歌團隊還開發了一種特殊算法來對搜索結果中的數據集進行排序。

由于谷歌在網頁搜索中的主導地位,谷歌正在快速轉入數據生態系統的消息刺激主要搜索引擎巨頭進入該戰場,對元數據進行標準化處理,倫敦數據共享公司 Figshare CEO Mark Hahnel 說道。(Figshare 由霍爾茨布林克出版集團管理,該集團也對 Nature 的出版公司持有大量股份。)

「到 11 月,我們接觸的所有大學的數據都已經標記完成。我認為這對學界的開放數據而言是一項重要變革。」Hahnel 說道。

Hahnel 認為,融資機構有時強制要求研究數據必須可獲取,而只要信息能夠高效獲取,他們就能達到其最終目的。「這使得投資機構一直嘗試做的事合法化。」

谷歌為用戶提供了能夠同時搜索多個存儲區的單個界面,希望借此改變用戶發布和運用數據的方式。谷歌表示這個項目能夠帶來下列好處:

形成數據共享生態系統,鼓勵數據發布者依照最佳做法來存儲和發布數據;

為科學家提供相應平臺,方便大眾引用他們創建的數據集,展現他們的研究成果所帶來的影響力。

搜索試驗

目前谷歌已經正式對外測試開源數據集搜索引擎,用戶在鍵入數據集名稱或關鍵信息后,該搜索引擎會給出一系列數據源列表,每一個數據源都會有簡要的介紹,例如更新日期、作者、版權和內容說明等。值得注意的是,除了數據集資源,該搜索引擎還能檢索到很多 Kaggle 上的預訓練模型。在機器之心的嘗試中,我們分別以 CIFAR-10、Object Detection 和 SQuAD 為關鍵詞搜索數據集,發現了一些很有意思的結果。

首先我們檢索了十分常用的圖像分類數據集 CIFAR-10,該數據集包含 10 個類別共 60000 張 32x32 的彩色圖像,且分為 50000 張訓練圖像和 10000 張測試圖像。搜索結果共給出了 9 項來源,包括數據集、預訓練模型和對比結果。

例如在排名第一的搜索結果中,數據集來自 Kaggle 的 CIFAR-10 Python。在搜索引擎的簡介頁中,除了給出該數據集的簡要信息(包括引用此數據集的論文),它甚至還展示了該數據集的使用指南。例如,如下展示頁介紹了該數據集在 Keras 的使用方法:

fromosimportlistdir,makedirsfromos.pathimportjoin,exists,expandusercache_dir=expanduser(join('~','.keras'))ifnotexists(cache_dir):makedirs(cache_dir)datasets_dir=join(cache_dir,'datasets')#/cifar-10-batches-pyifnotexists(datasets_dir):makedirs(datasets_dir)#Ifyouhavemultipleinputdatasets,changethebelowcpcommandaccordingly,typically:#!cp../input/cifar10-python/cifar-10-python.tar.gz~/.keras/datasets/!cp../input/cifar-10-python.tar.gz~/.keras/datasets/!ln-s~/.keras/datasets/cifar-10-python.tar.gz~/.keras/datasets/cifar-10-batches-py.tar.gz!tarxzvf~/.keras/datasets/cifar-10-python.tar.gz-C~/.keras/datasets/

點擊第一條數據源就能跳轉到對應的 Kaggle 頁面,下載和額外信息都展示在原頁面中。

在采用關鍵詞「Object Detection」進行搜索的過程中,我們會發現搜索結果遠遠要比上面多得多,大約會有上百條數據來源。依靠關鍵詞同樣檢索到了非常多流行的開源數據集,它們都適用于目標檢測這一領域。例如 Microsoft COCO、Face Detection 和 Vehicle Number Plate Detection 等。

從「Object Detection」的搜索結果來看,來自 Kaggle 的數據集占了一小半,它們都會在 Kaggle 上提供下載與使用指南。其實瀏覽這么多數據源,搜索引擎給出的簡介頁面就顯得非常重要了。我們不需要跳轉到每一個數據集的原地址,僅根據簡介就能了解該數據集的大概應用領域與內容。如下展示了 COCO 數據集的簡介頁面:

最后我們檢索了斯坦福的問答數據集「SQuAD」,搜索結果不僅給出了挑戰賽地址和數據集地址,同時還提供了相似數據集和挑戰賽的地址。但是在我們檢索「SQuAD 2.0」的時候,并沒有搜索到斯坦福大學發布的機器閱讀理解問答數據集 SQuAD 2.0,也可能是該數據集太新,還沒有被搜索引擎收錄。

合作機構

谷歌這一嘗試的早期支持者是美國國家海洋和大氣管理局(NOAA)。該機構的職權范圍從漁業到日冕,其檔案包含近 7 萬個數據集,包括 19 世紀的船舶日志。這些數據的總容量超過 35 PB,相當于 35000 個典型硬盤的容量。

谷歌這一工具 Dataset Search 將幫助 NOAA 完成數據開放的使命,NOAA 首席數據官 Edward Kearns 表示。「我們想探索新的方法,使其他人也能使用這些數據。」

與數據擁有者展開合作是運行 Dataset Search 的關鍵步驟。盡管這一系統未來可能變得更加復雜,谷歌目前不打算像處理網頁和圖像那樣讀取或分析數據。Noy 表示,「只有數據發布者提供的元數據足夠好,這種搜索工具才能夠好。」

和 Google Scholar 一樣,Dataset Search 目前不提供自動化查詢或應用程序編程接口(API),盡管谷歌表示將來可能會增加這一功能。

Noy 表示當研究人員開始使用 Dataset Search 時,谷歌將會觀察他們如何與其交互,并利用這些信息來改進搜索結果。她還表示,公司尚未打算把該服務商業化。

隨著 Dataset Search 的不斷改進,未來它也許會跟 Google Scholar 整合,將特定研究領域的搜索結果關聯到相關數據集。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 谷歌
    +關注

    關注

    27

    文章

    6221

    瀏覽量

    107381
  • 搜索引擎
    +關注

    關注

    0

    文章

    120

    瀏覽量

    13531

原文標題:AI研發者福利!谷歌推出數據集搜索專用引擎Dataset Search

文章出處:【微信號:gh_211d74f707ff,微信公眾號:重慶人工智能】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    微軟面臨法國反壟斷機構調查

    依賴必應(Bing)搜索數據的小型搜索引擎提供劣質搜索結果,從而對這些小型搜索引擎的業務發展造成不利影響。這一指控如果成立,將對微軟在
    的頭像 發表于 02-11 10:57 ?474次閱讀

    LZO Data Compression,高性能LZO無損數據壓縮加速器介紹,FPGA&ASIC

    無損數據壓縮2.可配置的數據塊分段和搜索窗口大小[8KB,16KB,32KB]3.可配置的并行處理等級[搜索引擎的數量,1~32]4.可配置的字典深度[8K,16KB],字典RAM類型
    發表于 01-24 23:53

    蘋果為谷歌支付數十億美元辯護,參與搜索案反壟斷審判

    近日,蘋果公司已正式要求參與谷歌即將在美國舉行的在線搜索反壟斷審判,此舉旨在為其與谷歌之間的收入分成協議進行辯護。該協議使得谷歌成為Safa
    的頭像 發表于 12-26 10:41 ?426次閱讀

    SSR的優勢和劣勢分析

    SSR(Server-Side Rendering,服務器端渲染)的優勢和劣勢分析如下: SSR的優勢 SEO友好 : 由于搜索引擎爬蟲的性質,更容易識別和抓取服務端渲染的頁面內容,因此提升了網站
    的頭像 發表于 11-18 11:27 ?1162次閱讀

    阿里國際推出全球首個B2B AI搜索引擎Accio

    近日,在歐洲科技峰會Web Summit上,阿里國際正式推出了全球首個B2B領域的AI搜索引擎——Accio。這一創新產品面向全球商家開放,標志著阿里國際正式入局當前備受矚目的AI Search賽道。
    的頭像 發表于 11-15 16:53 ?1084次閱讀

    阿里國際推出B2B領域AI搜索引擎Accio

    近日,阿里國際宣布正式進軍AI搜索領域,并面向全球商家推出了首個B2B領域的AI搜索引擎——Accio。這一創新產品的推出,標志著阿里國際在電子商務和人工智能技術結合方面邁出了重要一步。 Accio
    的頭像 發表于 11-14 11:47 ?778次閱讀

    OpenAI推出ChatGPT搜索功能

    查找網絡信息時,往往需要通過傳統的搜索引擎進行檢索,然后從中篩選出有價值的內容。而現在,有了ChatGPT搜索,用戶可以更加便捷地獲取所需信息。 OpenAI表示,ChatGPT搜索
    的頭像 發表于 11-04 10:34 ?604次閱讀

    Meta開發新搜索引擎,減少對谷歌和必應的依賴

    將基于Meta AI聊天機器人進行生成。 據一位曾與Meta搜索引擎團隊交流過的人士透露,Meta希望通過這款搜索引擎降低對谷歌搜索和微軟必應的依賴。目前,這兩家
    的頭像 發表于 10-29 11:49 ?697次閱讀

    榮耀手機新增谷歌Circle to Search功能

    近日,全球知名科技品牌榮耀宣布,在其旗艦智能手機HONOR Magic V3及HONOR 200系列上,正式推出谷歌(Google)Circle to Search功能。這一創新功能將為用戶帶來更加便捷、直觀的搜索體驗。
    的頭像 發表于 10-17 18:16 ?1077次閱讀

    月訪問量超2億,增速113%!360AI搜索成為全球增速最快的AI搜索引擎

    與傳統搜索引擎不同,作為AI原生搜索引擎的360AI搜索基于公開網絡、知識庫、大模型三大支柱。借助首創的 CoE 技術架構,360AI搜索整合了國內主流的16家廠商51款大模型,支持用
    的頭像 發表于 09-09 13:44 ?768次閱讀
    月訪問量超2億,增速113%!360AI<b class='flag-5'>搜索</b>成為全球增速最快的AI<b class='flag-5'>搜索引擎</b>

    恒訊科技分析:香港站群服務器為什么要做偽靜態處理呢?

    提高搜索引擎優化(SEO)效果:偽靜態處理可以使得動態網頁URL看起來像是靜態網頁的URL,這有助于搜索引擎更好地索引網站內容。搜索引擎通常偏好靜態網頁,因為它們認為靜態網頁更穩定、內
    的頭像 發表于 07-31 12:49 ?444次閱讀

    OpenAI推出SearchGPT原型,正式向Google搜索引擎發起挑戰

    在人工智能領域的持續探索中,OpenAI 邁出了重大一步,發布了其最新的 SearchGPT 原型,直接瞄準了 Google 的核心業務——搜索引擎。這一舉動不僅標志著 OpenAI 在技術上的又一次飛躍,也預示著搜索引擎市場即
    的頭像 發表于 07-26 15:11 ?730次閱讀

    微軟計劃在搜索引擎Bing中引入AI摘要功能

    近期,科技界傳來新動向,微軟緊隨百度與谷歌的步伐,宣布計劃在其搜索引擎Bing中引入先進的AI摘要功能,旨在為用戶帶來更加智能、豐富的搜索體驗。
    的頭像 發表于 07-26 14:23 ?676次閱讀

    AI搜索挑戰百度谷歌,重塑信息檢索的市場?

    ? ? 作者:一號 編輯:美美 AI正在顛覆傳統的搜索引擎市場。 隨著ChatGPT等大型語言模型的火爆,AI搜索技術成為了公眾和業界關注的焦點。這些技術不僅能夠提供快速、準確的信息檢索,還能夠通過
    的頭像 發表于 07-04 21:15 ?434次閱讀
    AI<b class='flag-5'>搜索</b>挑戰百度<b class='flag-5'>谷歌</b>,重塑信息檢索的市場?

    揭秘谷歌搜索算法工作原理,與官方聲明存在矛盾

    有著十多年搜索引擎優化經驗的蘭德·菲什金,近日透露他收到一份長達2500頁的文件,據稱這是對谷歌搜索算法工作原理的真實揭示,而非谷歌官方所聲稱的那樣。
    的頭像 發表于 05-29 16:00 ?848次閱讀