網(wǎng)站建設(shè)定制采集頻率及采集工具
- 編輯:admin -采集頻率的確定需要考慮網(wǎng)站的更新速度和網(wǎng)頁內(nèi)容的重要程度,一般認(rèn)為自動(dòng)獲取每半年采集一次比較合適?!皩?duì)于更新頻率高的網(wǎng)站要提高采集頻率,如新聞網(wǎng)頁、社交媒體網(wǎng)絡(luò);對(duì)于更新頻率較低的且信息量穩(wěn)定的網(wǎng)站可以延長(zhǎng)采集頻率,如機(jī)構(gòu)的官方網(wǎng)站?!?/p>
采集頻率及采集工具。采集頻率的確定需要考慮網(wǎng)站的更新速度和網(wǎng)頁內(nèi)容的重要程度,一般認(rèn)為自動(dòng)獲取每半年采集一次比較合適。“對(duì)于更新頻率高的網(wǎng)站要提高采集頻率,如新聞網(wǎng)頁、社交媒體網(wǎng)絡(luò);對(duì)于更新頻率較低的且信息量穩(wěn)定的網(wǎng)站可以延長(zhǎng)采集頻率,如機(jī)構(gòu)的官方網(wǎng)站。”

采集頻率的高低還與采集范圍的確定密切相關(guān)。完整型采集范圍廣、內(nèi)容多、耗費(fèi)時(shí)間長(zhǎng),因此采集頻率較低;選擇型采集范圍小、內(nèi)容少,因此采集頻率相對(duì)較高。英國(guó)的UKWA項(xiàng)目每年至少完成一次對(duì)英國(guó)所有網(wǎng)站的自動(dòng)收集任務(wù),但是對(duì)一些重要的網(wǎng)站(通常是新聞網(wǎng)站)會(huì)進(jìn)行更頻繁的采集活動(dòng),有時(shí)甚至一天一采集。

在采集工具的選擇上面,大部分網(wǎng)頁檔案項(xiàng)目都會(huì)運(yùn)用到網(wǎng)絡(luò)爬蟲技術(shù),在此基礎(chǔ)上設(shè)計(jì)的Heritrix和HTTrack是使用較多的兩種采集工具。
