網(wǎng)站建設(shè)定制網(wǎng)絡(luò)爬蟲
- 編輯:admin -網(wǎng)絡(luò)爬蟲主要有兩個階段:一, URL庫初始化然后開始爬取;二, 爬蟲讀取沒有訪問過的URL, 來確定它的工作范圍。
網(wǎng)絡(luò)爬蟲(又被稱為網(wǎng)頁蜘蛛,網(wǎng)絡(luò)機(jī)器人,在FOAF社區(qū)中間,更經(jīng)常的稱為網(wǎng)頁追逐者),是一種按照一定的規(guī)則,自動的抓取萬維網(wǎng)信息的程序或者腳本。另外一些不常使用的名字還有螞蟻,自動索引,模擬程序或者蠕蟲。網(wǎng)絡(luò)爬蟲主要有兩個階段:一, URL庫初始化然后開始爬取;二, 爬蟲讀取沒有訪問過的URL, 來確定它的工作范圍。其中, 對于所要抓取的URL鏈接, 進(jìn)行以下步驟。(1) 獲取URL鏈接
(2) 解析內(nèi)容, 獲取URL及相關(guān)數(shù)據(jù)
(3) 存儲有價值的數(shù)據(jù)
(4) 對新抓取的URL進(jìn)行規(guī)范化
(5) 過濾掉不相關(guān)的URL
(6) 將要抓取的URL更新到URL庫中
(7) 重復(fù)步驟2, 直到終止條件為止。





