很多人不知道,其實我們最常用的表格,在某些情況下也是可以用來做爬蟲的,而且爬下來的數(shù)據(jù)規(guī)整,不需要花太多時間進行數(shù)據(jù)清洗,來看看是怎么實現(xiàn)的。
一、Microsoft Excel
首先教大家一個用Excel爬取數(shù)據(jù)的方法,這里用的Microsoft Excel 2013版本,下面手把手開始教學(xué)~
(1)新建Excel,打開它,如下圖所示
(2)點擊“數(shù)據(jù)”——“自網(wǎng)站”
(3)在彈出的對話框中輸入目標(biāo)網(wǎng)址,這里以全國實時空氣質(zhì)量網(wǎng)站為例,點擊轉(zhuǎn)到,再導(dǎo)入
選擇導(dǎo)入位置,確定
(4)結(jié)果如下圖所示,怎么樣,是不是很贊?
(5)如果要實時更新數(shù)據(jù),可以在“數(shù)據(jù)”——“全部更新”——“連接屬性”中進行設(shè)置,輸入更新頻率即可
非誠勿擾:正在學(xué)習(xí)python的小伙伴或者打算學(xué)習(xí)的,可以私信小編“01”領(lǐng)取資料!
二、Google Sheet
使用Google Sheet爬取數(shù)據(jù)前,要保證三點:使用Chrome瀏覽器、擁有Google賬號、電腦可以科學(xué)上網(wǎng)。如果這三個條件具備了的話,下面我們就開始吧~
(1)打開Google Sheet網(wǎng)站:http://www.google.cn/sheets/about/
(2)在首頁上點擊“轉(zhuǎn)到Google表格”,然后登錄自己的賬號,可以看到如下界面,再點擊“+”創(chuàng)建新的表格
新建的表格如下:
(3)打開要爬取的目標(biāo)網(wǎng)站,一個全國實時空氣質(zhì)量網(wǎng)站http://www.pm25.in/rank,目標(biāo)網(wǎng)站上的表格結(jié)構(gòu)如下圖所示
(4)回到Google sheet頁面,使用函數(shù)=IMPORTHTML(網(wǎng)址, 查詢, 索引),“網(wǎng)址”就是要爬取數(shù)據(jù)的目標(biāo)網(wǎng)站,“查詢”中輸入“l(fā)ist”或“table”,這個取決于數(shù)據(jù)的具體結(jié)構(gòu)類型,“索引”填阿拉伯?dāng)?shù)字,從1開始,對應(yīng)著網(wǎng)站中定義的哪一份表格或列表
對于我們要爬取的網(wǎng)站,我們在Google sheet的A1單元格中輸入函數(shù)
=IMPORTHTML("http://www.pm25.in/rank","table",1),回車后就爬得數(shù)據(jù)啦
(5)將爬取好的表格存到本地
是不是感覺超級簡單?
當(dāng)然,沒有學(xué)習(xí)成本的技能缺陷也是很明顯的,就是在網(wǎng)頁的數(shù)據(jù)排列沒那么規(guī)則的時候,或者說多個頁面的數(shù)據(jù),以上的方法就失效了,這個時候Python就展現(xiàn)出它強大的威力了。
不過,話說回來,這么裝逼的技能,而且不需要學(xué)習(xí)成本,掌握了有什么不好呢,沒準(zhǔn)什么時候就能用上了。
最后多說一句,小編是一名python開發(fā)工程師,這里有我自己整理了一套最新的python系統(tǒng)學(xué)習(xí)教程,包括從基礎(chǔ)的python腳本到web開發(fā)、爬蟲、數(shù)據(jù)分析、數(shù)據(jù)可視化、機器學(xué)習(xí)等。想要這些資料的可以關(guān)注小編,并在后臺私信小編:“01”即可領(lǐng)取。
-
瀏覽器
+關(guān)注
關(guān)注
1文章
1040瀏覽量
36099 -
Excel
+關(guān)注
關(guān)注
4文章
225瀏覽量
56387 -
爬蟲
+關(guān)注
關(guān)注
0文章
83瀏覽量
7381
發(fā)布評論請先 登錄
爬蟲數(shù)據(jù)獲取實戰(zhàn)指南:從入門到高效采集
火語言如何循環(huán)讀取表格

Chart FX之DataGrid電子表格

評論