防止網(wǎng)站被采集的理論分析以及十條方法對策第1/2頁
更新時間:2009年04月08日 20:58:45 作者:
很多防采集方法在施行的時候需要考慮是否影響搜索引擎對網(wǎng)站的抓取,所以先來分析下一般采集器和搜索引擎爬蟲采集有何不同。
相同點:
a. 兩者都需要直接抓取到網(wǎng)頁源碼才能有效工作,
b. 兩者單位時間內(nèi)會多次大量抓取被訪問的網(wǎng)站內(nèi)容;
c. 宏觀上來講兩者IP都會變動;
d. 兩者多沒耐心的去破解你對網(wǎng)頁的一些加密(驗證),比如網(wǎng)頁內(nèi)容通過js文件加密,比如需要輸入驗證碼才能瀏覽內(nèi)容,比如需要登錄才能訪問內(nèi)容等。
不同點:
搜索引擎爬蟲先忽略整個網(wǎng)頁源碼腳本和樣式以及html標(biāo)簽代碼,然后對剩下的文字部分進(jìn)行切詞語法句法分析等一系列的復(fù)雜處理。而采集器一般是通過 html標(biāo)簽特點來抓取需要的數(shù)據(jù),在制作采集規(guī)則時需要填寫目標(biāo)內(nèi)容的開始標(biāo)志何結(jié)束標(biāo)志,這樣就定位了所需要的內(nèi)容;或者采用對特定網(wǎng)頁制作特定的正則表達(dá)式,來篩選出需要的內(nèi)容。無論是利用開始結(jié)束標(biāo)志還是正則表達(dá)式,都會涉及到html標(biāo)簽(網(wǎng)頁結(jié)構(gòu)分析)。
然后再來提出一些防采集方法
1、限制IP地址單位時間的訪問次數(shù)
分析:沒有哪個常人一秒鐘內(nèi)能訪問相同網(wǎng)站5次,除非是程序訪問,而有這種喜好的,就剩下搜索引擎爬蟲和討厭的采集器了。
弊端:一刀切,這同樣會阻止搜索引擎對網(wǎng)站的收錄
適用網(wǎng)站:不太依靠搜索引擎的網(wǎng)站
采集器會怎么做:減少單位時間的訪問次數(shù),減低采集效率
2、屏蔽ip
分析:通過后臺計數(shù)器,記錄來訪者ip和訪問頻率,人為分析來訪記錄,屏蔽可疑Ip。
弊端:似乎沒什么弊端,就是站長忙了點
適用網(wǎng)站:所有網(wǎng)站,且站長能夠知道哪些是google或者百度的機(jī)器人
采集器會怎么做:打游擊戰(zhàn)唄!利用ip代理采集一次換一次,不過會降低采集器的效率和網(wǎng)速(用代理嘛)。
3、利用js加密網(wǎng)頁內(nèi)容
Note:這個方法我沒接觸過,只是從別處看來
分析:不用分析了,搜索引擎爬蟲和采集器通殺
適用網(wǎng)站:極度討厭搜索引擎和采集器的網(wǎng)站
采集器會這么做:你那么牛,都豁出去了,他就不來采你了
4、網(wǎng)頁里隱藏網(wǎng)站版權(quán)或者一些隨機(jī)垃圾文字,這些文字風(fēng)格寫在css文件中
分析:雖然不能防止采集,但是會讓采集后的內(nèi)容充滿了你網(wǎng)站的版權(quán)說明或者一些垃圾文字,因為一般采集器不會同時采集你的css文件,那些文字沒了風(fēng)格,就顯示出來了。
適用網(wǎng)站:所有網(wǎng)站
采集器會怎么做:對于版權(quán)文字,好辦,替換掉。對于隨機(jī)的垃圾文字,沒辦法,勤快點了。
5、用戶登錄才能訪問網(wǎng)站內(nèi)容
分析:搜索引擎爬蟲不會對每個這樣類型的網(wǎng)站設(shè)計登錄程序。聽說采集器可以針對某個網(wǎng)站設(shè)計模擬用戶登錄提交表單行為。
適用網(wǎng)站:極度討厭搜索引擎,且想阻止大部分采集器的網(wǎng)站
采集器會怎么做:制作擬用戶登錄提交表單行為的模塊
6、利用腳本語言做分頁(隱藏分頁)
分析:還是那句,搜索引擎爬蟲不會針對各種網(wǎng)站的隱藏分頁進(jìn)行分析,這影響搜索引擎對其收錄。但是,采集者在編寫采集規(guī)則時,要分析目標(biāo)網(wǎng)頁代碼,懂點腳本知識的人,就會知道分頁的真實鏈接地址。
適用網(wǎng)站:對搜索引擎依賴度不高的網(wǎng)站,還有,采集你的人不懂腳本知識
采集器會怎么做:應(yīng)該說采集者會怎么做,他反正都要分析你的網(wǎng)頁代碼,順便分析你的分頁腳本,花不了多少額外時間。
a. 兩者都需要直接抓取到網(wǎng)頁源碼才能有效工作,
b. 兩者單位時間內(nèi)會多次大量抓取被訪問的網(wǎng)站內(nèi)容;
c. 宏觀上來講兩者IP都會變動;
d. 兩者多沒耐心的去破解你對網(wǎng)頁的一些加密(驗證),比如網(wǎng)頁內(nèi)容通過js文件加密,比如需要輸入驗證碼才能瀏覽內(nèi)容,比如需要登錄才能訪問內(nèi)容等。
不同點:
搜索引擎爬蟲先忽略整個網(wǎng)頁源碼腳本和樣式以及html標(biāo)簽代碼,然后對剩下的文字部分進(jìn)行切詞語法句法分析等一系列的復(fù)雜處理。而采集器一般是通過 html標(biāo)簽特點來抓取需要的數(shù)據(jù),在制作采集規(guī)則時需要填寫目標(biāo)內(nèi)容的開始標(biāo)志何結(jié)束標(biāo)志,這樣就定位了所需要的內(nèi)容;或者采用對特定網(wǎng)頁制作特定的正則表達(dá)式,來篩選出需要的內(nèi)容。無論是利用開始結(jié)束標(biāo)志還是正則表達(dá)式,都會涉及到html標(biāo)簽(網(wǎng)頁結(jié)構(gòu)分析)。
然后再來提出一些防采集方法
1、限制IP地址單位時間的訪問次數(shù)
分析:沒有哪個常人一秒鐘內(nèi)能訪問相同網(wǎng)站5次,除非是程序訪問,而有這種喜好的,就剩下搜索引擎爬蟲和討厭的采集器了。
弊端:一刀切,這同樣會阻止搜索引擎對網(wǎng)站的收錄
適用網(wǎng)站:不太依靠搜索引擎的網(wǎng)站
采集器會怎么做:減少單位時間的訪問次數(shù),減低采集效率
2、屏蔽ip
分析:通過后臺計數(shù)器,記錄來訪者ip和訪問頻率,人為分析來訪記錄,屏蔽可疑Ip。
弊端:似乎沒什么弊端,就是站長忙了點
適用網(wǎng)站:所有網(wǎng)站,且站長能夠知道哪些是google或者百度的機(jī)器人
采集器會怎么做:打游擊戰(zhàn)唄!利用ip代理采集一次換一次,不過會降低采集器的效率和網(wǎng)速(用代理嘛)。
3、利用js加密網(wǎng)頁內(nèi)容
Note:這個方法我沒接觸過,只是從別處看來
分析:不用分析了,搜索引擎爬蟲和采集器通殺
適用網(wǎng)站:極度討厭搜索引擎和采集器的網(wǎng)站
采集器會這么做:你那么牛,都豁出去了,他就不來采你了
4、網(wǎng)頁里隱藏網(wǎng)站版權(quán)或者一些隨機(jī)垃圾文字,這些文字風(fēng)格寫在css文件中
分析:雖然不能防止采集,但是會讓采集后的內(nèi)容充滿了你網(wǎng)站的版權(quán)說明或者一些垃圾文字,因為一般采集器不會同時采集你的css文件,那些文字沒了風(fēng)格,就顯示出來了。
適用網(wǎng)站:所有網(wǎng)站
采集器會怎么做:對于版權(quán)文字,好辦,替換掉。對于隨機(jī)的垃圾文字,沒辦法,勤快點了。
5、用戶登錄才能訪問網(wǎng)站內(nèi)容
分析:搜索引擎爬蟲不會對每個這樣類型的網(wǎng)站設(shè)計登錄程序。聽說采集器可以針對某個網(wǎng)站設(shè)計模擬用戶登錄提交表單行為。
適用網(wǎng)站:極度討厭搜索引擎,且想阻止大部分采集器的網(wǎng)站
采集器會怎么做:制作擬用戶登錄提交表單行為的模塊
6、利用腳本語言做分頁(隱藏分頁)
分析:還是那句,搜索引擎爬蟲不會針對各種網(wǎng)站的隱藏分頁進(jìn)行分析,這影響搜索引擎對其收錄。但是,采集者在編寫采集規(guī)則時,要分析目標(biāo)網(wǎng)頁代碼,懂點腳本知識的人,就會知道分頁的真實鏈接地址。
適用網(wǎng)站:對搜索引擎依賴度不高的網(wǎng)站,還有,采集你的人不懂腳本知識
采集器會怎么做:應(yīng)該說采集者會怎么做,他反正都要分析你的網(wǎng)頁代碼,順便分析你的分頁腳本,花不了多少額外時間。
相關(guān)文章
asp 實現(xiàn)當(dāng)有新信息時播放語音提示的效果
最近做一套程序的時候,客戶要求當(dāng)有新信息的時候播放一段語音來提示一下,根據(jù)情況,總結(jié)思路如下2009-06-06
ASP XMLDom在服務(wù)器端操作XML文件的主要方法和實現(xiàn)
我曾經(jīng)測試過不用數(shù)據(jù)庫,把網(wǎng)站的會員信息,商品數(shù)據(jù)信息,交易信息,網(wǎng)站定制信息全部存放在三個xml文件中,運行結(jié)果十分正常,感覺上比數(shù)據(jù)庫快多了,不過沒有作測試,不能確定。2010-02-02
asp隨機(jī)數(shù) 隨機(jī)產(chǎn)生N位由數(shù)字和字母組成的密碼
隨機(jī)產(chǎn)生N位由數(shù)字和字母組成的密碼 asp隨機(jī)數(shù)2010-04-04

