網(wǎng)站建設(shè)定制網(wǎng)頁歸檔的技術(shù)手段和標(biāo)準(zhǔn)建設(shè)還有待提升
- 編輯:admin -黨政機(jī)關(guān)的網(wǎng)頁信息采集主要還是從已經(jīng)確定的網(wǎng)站網(wǎng)頁作為線索出發(fā),可以是靜態(tài)一次性抓取,也可以進(jìn)行動(dòng)態(tài)抓取,再從所抓取的網(wǎng)頁信息中提取出電子檔案信息。
網(wǎng)頁歸檔的技術(shù)手段和標(biāo)準(zhǔn)建設(shè)還有待提升。黨政機(jī)關(guān)的網(wǎng)頁信息采集主要還是從已經(jīng)確定的網(wǎng)站網(wǎng)頁作為線索出發(fā),可以是靜態(tài)一次性抓取,也可以進(jìn)行動(dòng)態(tài)抓取,再從所抓取的網(wǎng)頁信息中提取出電子檔案信息。
從網(wǎng)絡(luò)爬蟲的技術(shù)層面來看,靜態(tài)網(wǎng)頁信息進(jìn)行抓取并不復(fù)雜,但動(dòng)態(tài)網(wǎng)頁抓取比較麻煩。尤其近年來各類新型網(wǎng)頁文件層出不窮,產(chǎn)生了許多其他類型的網(wǎng)頁文件格式,如Java文件、Active X文件、Jpg等這些承載圖片、文字和視頻等多種類型的信息,而對(duì)于上述文件到底是否應(yīng)當(dāng)納入到歸檔范圍,目前對(duì)此還沒有定論。

在某些情況下,從一些網(wǎng)站上采集下來的網(wǎng)頁存檔雖然保存了該網(wǎng)站的原始網(wǎng)頁文件,但若離開了該文件的來源平臺(tái)上所提供的軟硬件支持,該原始網(wǎng)頁很有可能就無法展現(xiàn)和利用。因此,在對(duì)黨政機(jī)關(guān)重要網(wǎng)頁進(jìn)行保存的過程中,首先應(yīng)當(dāng)構(gòu)建和完善重要網(wǎng)頁電子文件的備份體系,以確保所采集下來的網(wǎng)頁歸檔資源能夠全面、及時(shí)、有效地獲得保存和利用。其次,還需要針對(duì)各種來源的網(wǎng)頁文件構(gòu)建起統(tǒng)一的網(wǎng)頁電子文件檔案資源體系,開發(fā)和設(shè)計(jì)能夠滿足各類用戶需求的網(wǎng)頁檔案資源檢索、利用服務(wù),建立起全方位的檢索利用服務(wù)模式,這都是黨政機(jī)關(guān)重要網(wǎng)頁歸檔管理需要探討的問題,只有對(duì)重要網(wǎng)頁文件根據(jù)其內(nèi)容、結(jié)構(gòu)和形式進(jìn)行相應(yīng)的標(biāo)注、組織和分類,才能便于利用和真正實(shí)現(xiàn)網(wǎng)頁文件資源的價(jià)值。
