網(wǎng)站建設(shè)定制提高爬蟲效率
- 編輯:admin -深度優(yōu)先搜索和廣度優(yōu)先搜索是網(wǎng)絡(luò)爬蟲的基本爬取策略,在這兩種策略基礎(chǔ)上可以根據(jù)采集信息和網(wǎng)站結(jié)構(gòu)等具體需求,結(jié)合頁面權(quán)重或大站優(yōu)先等抓取策略原則,改進和優(yōu)化網(wǎng)絡(luò)爬蟲的采集效果。
深度優(yōu)先搜索和廣度優(yōu)先搜索是網(wǎng)絡(luò)爬蟲的基本爬取策略,在這兩種策略基礎(chǔ)上可以根據(jù)采集信息和網(wǎng)站結(jié)構(gòu)等具體需求,結(jié)合頁面權(quán)重或大站優(yōu)先等抓取策略原則,改進和優(yōu)化網(wǎng)絡(luò)爬蟲的采集效果。
基于深度優(yōu)先搜索的遞歸爬蟲可以了解,由于是串行的爬蟲,所以采用多線程提高爬蟲速度并不合適,因為深度優(yōu)先的鏈接是逐個獲取,在獲取之前不知道下一個頁面有多少鏈接,調(diào)用多線程的隊列并不能帶來太多速度提升。

多線程配合廣度優(yōu)先搜索比較合適,因為廣度優(yōu)先的遍歷以層次為順序,每層上所有鏈接都遍歷到后才向下一層搜索,每層都可以有大量鏈接能夠在隊列里分配給多線程搜索,所以能夠顯著提高爬蟲效率。
