要找到一定特定的數據集可以解決各種機器學習問題,是一件很難的事情。越來越多企業或研究機構將自己的數據集公開,已經成為全球的趨勢,這也將有助于大家進行更多研究。
近期,亞馬遜高級技術顧問 Will Badr 分享了 8 種適用于不同機器學習問題的常用數據集,并給出相應的描述,用法示例以及在某些情況下用于解決與該數據集相關的機器學習問題的代碼。
1、Kaggle 數據集
鏈接:
https://www.kaggle.com/datasets
這是當前數據科學領域最熱門,也是最受歡迎的數據集之一。在 Kaggle 中,每個數據集都是對應一項比賽,參賽者可以在這個小社區里討論數據,查找一些公共代碼或在 kernel 中創建自己的項目。Kaggle 中包含大量不同類型,不同大小以及多種不同格式的真實數據集。此外,參賽者還可以看到與每個數據集關聯的 kernel,其中許多數據科學家會上傳自己的 notebooks 來分析數據集,還能找到解決特定數據集問題的算法實現。
2、Amazon 數據集
鏈接:
https://registry.opendata.aws/
Amazon 數據庫包含不同領域的多種數據集,如公共交通,生態資源,衛星圖像等。在數據集官網還有一個搜索框,可以幫助使用者快速找到所需的數據集。每個數據集包含相應的數據集描述和使用示例,數據量非常豐富且易于使用。
此外,依托于 Amazon Web Services (AWS) 平臺,如 Amazon S3,這些儲存在云端的數據集都有高度的可擴展性服務,這對于那些使用 AWS 進行機器學習開發和實驗的用戶來說,將非常方便。因為在云端,數據集的傳輸將非常快。
3、UCI 機器學習數據集
鏈接:
https://archive.ics.uci.edu/ml/datasets.html
這是由加州大學歐文分校(UCI)信息與計算機科學學院的研究者創建的一個包含 100 多種不同類型數據集的大型數據庫。該數據庫根據不同的機器學習問題來對數據集進行分類,在這里,用戶可以找到單變量、多變量時間序列數據集,分類、回歸、推薦系統數據集等。此外,該數據庫中的部分數據集已經經過數據清洗過程,是可以直接為用戶使用。
4、Google 數據集所搜引擎
鏈接:
https://toolbox.google.com/datasetsearch
2018 年 9 月,Google 推出了這項服務,它是一個可以按名稱搜索相應數據集的工具箱,其目標是集成數萬個不同的數據集,并對用戶開放使用。
5、Miscrosoft 數據集
鏈接:
https://msropendata.com/
2018 年 7 月,Miscrosoft 聯合其外部的研究社區聲明發布 Miscrosoft Research Open Data 服務。這項存儲在云端的數據庫,包含了一系列在已發表研究中使用過的數據集,致力于促進全球研究社區的研究合作。
6、Awesome 公開數據集
鏈接:
https://github.com/awesomedata/awesome-public-datasets
Awesome 是一個按不同主題分類的數據庫,其中涵蓋了如生物學,經濟學,教育等不同領域的重要數據集,其中列出的大多數數據集都可供用戶免費試用,但在使用任何數據集之前,用戶需要通過認證已獲得使用許可。
7、government 數據集
在這里你可以找到那些與政府相關的數據集。為顯示政府工作的透明度,許多國家機構公開發布了其國家在一些領域的數據集,如下示例:
EU Open Data:歐洲政府數據集
鏈接:
https://data.europa.eu/euodp/data/dataset
US Gov Data:美國政府數據(非政治問題上的數據集,但自特朗普政府上調以來,該網站數據集暫時無法使用)
鏈接:
https://www.data.gov/
New Zealand’s Government Dataset:新西蘭政府數據集
鏈接:
https://catalogue.data.govt.nz/dataset
Indian Government Dataset:印度政府數據集
鏈接:
https://data.gov.in/
8、Computer Vision 領域數據集
鏈接:
https://www.visualdata.io/
如果是從事圖像處理、計算機視覺或深度學習領域的工作,那么該數據集會是最好的實驗資源。Visual Data 包含一些可用于構建計算機視覺(CV)模型的優秀數據集。使用者可以通過某個特定的 CV 任務來查找相應的數據集,如語義分割(semantic segmentation)、圖像生成標題(image captioning)、圖像生成(image generation),甚至是無人駕駛解決方案所需的數據集。
原文鏈接:
https://towardsdatascience.com/top-sources-for-machine-learning-datasets-bb6d0dc3378b
-
機器學習
+關注
關注
66文章
8499瀏覽量
134394 -
數據集
+關注
關注
4文章
1223瀏覽量
25377 -
數據科學
+關注
關注
0文章
168瀏覽量
10449
原文標題:秘籍 | 機器學習數據集網址大全
文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
用于無線 LAN 的 2.4 GHz 高效前端和適用于藍牙?應用的端口 skyworksinc

適用于 WLAN 和藍牙?應用的 2.4 GHz 高效前端 skyworksinc

2.4 GHz、256 QAM 前端模塊,用于 WLAN/ 和端口,適用于藍牙?應用 skyworksinc

用于 WLAN/ 的 2.4 GHz、256 QAM 前端模塊和適用于藍牙?應用的端口 skyworksinc

適用于PIC MCU的MPLAB XC8 C編譯器用戶指南

適用于TI Sitara?平臺的WL1837MODCOM8I WLAN MIMO和Bluetooth?模塊評估板

適用于機器視覺應用的智能機器視覺控制平臺

評論