防止網(wǎng)站被采集的理論分析以及十條方法對策第2/2頁

更新時間：2009年04月08日 20:58:45 作者：

很多防采集方法在施行的時候需要考慮是否影響搜索引擎對網(wǎng)站的抓取，所以先來分析下一般采集器和搜索引擎爬蟲采集有何不同。

7、防盜鏈措施
分析：asp和php可以通過讀取請求的HTTP_REFERER屬性，來判斷該請求是否來自本網(wǎng)站，從而來限制采集器，同樣也限制了搜索引擎爬蟲，嚴(yán)重影響搜索引擎對網(wǎng)站部分防盜鏈內(nèi)容的收錄。

適用網(wǎng)站：不太考慮搜索引擎收錄的網(wǎng)站

采集器會怎么做：偽裝HTTP_REFERER嘛，不難。

8、全flash、圖片或者pdf來呈現(xiàn)網(wǎng)站內(nèi)容
分析：對搜索引擎爬蟲和采集器支持性不好，這個很多懂點seo的人都知道

適用網(wǎng)站：媒體設(shè)計類并且不在意搜索引擎收錄的網(wǎng)站

采集器會怎么做：不采了，走人

9、網(wǎng)站隨機(jī)采用不同模版
分析：因為采集器是根據(jù)網(wǎng)頁結(jié)構(gòu)來定位所需要的內(nèi)容，一旦先后兩次模版更換，采集規(guī)則就失效，不錯。而且這樣對搜索引擎爬蟲沒影響。

適用網(wǎng)站：動態(tài)網(wǎng)站，并且不考慮用戶體驗。

采集器會怎么做：一個網(wǎng)站模版不可能多于10個吧，每個模版弄一個規(guī)則就行了，不同模版采用不同采集規(guī)則。如果多于10個模版了，既然目標(biāo)網(wǎng)站都那么費(fèi)勁的更換模版，成全他，撤。

10、采用動態(tài)不規(guī)則的html標(biāo)簽
分析：這個比較變態(tài)?？紤]到html標(biāo)簽內(nèi)含空格和不含空格效果是一樣的，所以< div >和< div >對于頁面顯示效果一樣，但是作為采集器的標(biāo)記就是兩個不同標(biāo)記了。如果次頁面的html標(biāo)簽內(nèi)空格數(shù)隨機(jī)，那么
采集規(guī)則就失效了。但是，這對搜索引擎爬蟲沒多大影響。

適合網(wǎng)站：所有動態(tài)且不想遵守網(wǎng)頁設(shè)計規(guī)范的網(wǎng)站。

采集器會怎么做：還是有對策的，現(xiàn)在html cleaner還是很多的，先清理了html標(biāo)簽，然后再寫采集規(guī)則;應(yīng)該用采集規(guī)則前先清理html標(biāo)簽，還是能夠拿到所需數(shù)據(jù)。

總結(jié)：
一旦要同時搜索引擎爬蟲和采集器，這是很讓人無奈的事情，因為搜索引擎第一步就是采集目標(biāo)網(wǎng)頁內(nèi)容，這跟采集器原理一樣，所以很多防止采集的方法同時也阻礙了搜索引擎對網(wǎng)站的收錄，無奈，是吧?以上10條建議雖然不能百分之百防采集，但是幾種方法一起適用已經(jīng)拒絕了一大部分采集器了。

上一頁 12閱讀全文