摸胸视频明星,外国四个黑人RAPPER组合,免费播放日韩影片国产电影

網(wǎng)絡(luò)爬蟲的基本工作流程

通用網(wǎng)絡(luò)爬蟲根據(jù)預(yù)先設(shè)定的一個(gè)或若干初始種子URL開(kāi)始，以此獲得初始網(wǎng)頁(yè)上的URL列表，在爬行過(guò)程中不斷從URL隊(duì)列中獲一個(gè)的URL，進(jìn)而訪問(wèn)并下載該頁(yè)面。頁(yè)面下載后頁(yè)面解析器去掉頁(yè)面上的HTML標(biāo)記后得到頁(yè)面內(nèi)容，將摘要、URL等信息保存到Web數(shù)據(jù)庫(kù)中，同時(shí)抽取當(dāng)前頁(yè)面上新的URL，保存到URL隊(duì)列，直到滿足系統(tǒng)停止條件。其工作流程如圖1所示。

　網(wǎng)絡(luò)爬蟲的基本工作流程

主題爬蟲工作流程

主題爬蟲需要根據(jù)一定的網(wǎng)頁(yè)分析算法，過(guò)濾掉與主題無(wú)關(guān)的鏈接，保留有用的鏈接并將其放入等待抓取的URL隊(duì)列。然后，它會(huì)根據(jù)一定的搜索策略從待抓取的隊(duì)列中選擇下一個(gè)要抓取的URL，并重復(fù)上述過(guò)程，直到滿足系統(tǒng)停止條件為止。所有被抓取網(wǎng)頁(yè)都會(huì)被系統(tǒng)存儲(chǔ)，經(jīng)過(guò)一定的分析、過(guò)濾，然后建立索引，以便用戶查詢和檢索；這一過(guò)程所得到的分析結(jié)果可以對(duì)以后的抓取過(guò)程提供反饋和指導(dǎo)。其工作流程如圖3所示。

　網(wǎng)絡(luò)爬蟲的基本工作流程

深度網(wǎng)絡(luò)爬蟲工作流程

1994年Dr．jillEllsworth提出DeepWeb（深層頁(yè)面）的概念，即DeepWeb是指普通搜索引擎難以發(fā)現(xiàn)的信息內(nèi)容的Web頁(yè)面¨。DeepWeb中的信息量比普通的網(wǎng)頁(yè)信息量多，而且質(zhì)量更高。但是普通的搜索引擎由于技術(shù)限制而搜集不到這些高質(zhì)量、高權(quán)威的信息。這些信息通常隱藏在深度Web頁(yè)面的大型動(dòng)態(tài)數(shù)據(jù)庫(kù)中，涉及數(shù)據(jù)集成、中文語(yǔ)義識(shí)別等諸多領(lǐng)域。如此龐大的信息資源如果沒(méi)有合理的、高效的方法去獲取，將是巨大的損失。因此，對(duì)于深度網(wǎng)爬行技術(shù)的研究具有極為重大的現(xiàn)實(shí)意義和理論價(jià)值。

　網(wǎng)絡(luò)爬蟲的基本工作流程

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴