帝國cms采集圖文教程(上,中,下)全集
發(fā)布時(shí)間:2012-05-21 10:50:22 作者:佚名
我要評(píng)論
帝國cms采集圖文教程,現(xiàn)在把上,中,下全部都發(fā)來.給大家方便的看.
上一頁我們介紹了帝國cms采集基本流程,那么我們這一講介紹帝國cms如何采集內(nèi)容分頁。不少的同學(xué)在采集過程中,列表頁和內(nèi)容頁都能可以很好地設(shè)定正則,但往往失敗在內(nèi)容分頁正則上,主要是對(duì)內(nèi)容分頁正則不了解。帝國的內(nèi)容分頁形式有兩種:(1)全部列出式(2)上下頁導(dǎo)航式,但是這兩種內(nèi)容分頁形式有什么區(qū)別,采集內(nèi)容分頁時(shí)該用哪種,官方說得比較模糊,對(duì)此有些同學(xué)感到很頭大,好的,我們先看下例子:
一、全部列出式
全部列表式只需看第一頁的頁面HTML代碼,這一頁的所有分頁鏈接都列出來了。
1、我們以“中華網(wǎng)內(nèi)容分頁(http://auto.china.com/dongtai/yejie/11012724/20120309/17081442.html)”為例:
可以看到這條新聞總共有3條分頁。
2、查看源代碼:

這一頁里除了已經(jīng)采集到的第1條分頁外,還包括了第2條和第3條分頁,所有的分頁都列出來了。
3、取得 分頁區(qū)域正則([!--smallpageallzz--]):

4、取得 分頁鏈接正則([!--pageallzz--]):

二、上下頁導(dǎo)航式
上下頁導(dǎo)航式是分頁采集的難點(diǎn),他需要所有頁面都符合分頁正則才行,在不熟悉的情況下,我們可以用第1頁和第2頁的代碼來進(jìn)行對(duì)比分析然后確定分頁正則。
1、我們以“愛麗網(wǎng)內(nèi)容分頁(http://fashion.aili.com/76/445845.html)”為例:
可以看到這條新聞總共有20條分頁。
2、查看源代碼:

這一頁里除了已經(jīng)采集到的第1條分頁外,還包括了第2,第3,第4,第5,第6,第7,第8,第20條分頁,但是第9到第19條分頁并沒有列出來,這時(shí)候我們拿用第1頁和第2頁的代碼來進(jìn)行對(duì)比分析,來確定分頁正則:
(1)第1頁代碼:

(2)第2頁代碼:

從這兩幅圖片可以看到他們有著相同的“分頁區(qū)域開始代碼”,“分頁鏈接”格式,“分頁區(qū)域結(jié)束代碼”,那么就可以確定“分頁區(qū)域正則”,“分頁鏈接正則”。
3、取得 分頁區(qū)域正則([!--smallpageallzz--]):

4、取得 分頁鏈接正則([!--pageallzz--]):

5、為了方便教程顯示,newstext我采集了標(biāo)題而不是采集內(nèi)容,預(yù)覽結(jié)果:

注意事項(xiàng):
第一、在第一頁的頁面HTML代碼里,內(nèi)容分頁鏈接全部列出來的情況下我們使用“全部列出式”。在第一頁的頁面HTML代碼里,內(nèi)容分頁鏈接沒有全部列出來的情況下我們使用“上下頁導(dǎo)航式”。
第二、用全部列出式時(shí),采集規(guī)則正確但是莫名其妙的出現(xiàn)重復(fù)的分頁,這時(shí)可以利用替換法把它過濾掉(下一講我們?cè)僬f)。
第三、用上下頁導(dǎo)航式時(shí),老是采到第1頁,其他頁連個(gè)影子都沒有見過,這是因?yàn)榉猪搮^(qū)域正則([!--smallpagezz--])截取錯(cuò)誤。
第四、用上下頁導(dǎo)航式時(shí),可以采集到前幾頁了,但是接下來這前幾頁全部重復(fù)循環(huán)到底,這也是因?yàn)榉猪搮^(qū)域正則([!--smallpagezz--])截取錯(cuò)誤,截取范圍過大,導(dǎo)致重復(fù)截取前幾個(gè)分頁鏈接。
好的,這一講就到這里,下一頁我們主要介紹帝國cms采集過濾和替換。
相關(guān)文章

帝國CMS根據(jù)內(nèi)容正文字段[newstext]批量獲取描述簡(jiǎn)介字段[smalltext]的
這篇文章主要介紹了帝國CMS根據(jù)內(nèi)容正文字段[newstext]批量重新生成簡(jiǎn)介字段[smalltext]的方法,需要的朋友可以參考下2023-06-26
帝國CMS 7.2和7.5適用的火車頭采集免登陸發(fā)布模塊配置方法詳解(親測(cè)可
帝國cms7.2版本開始增加了金剛模式,登錄發(fā)布有難度。親測(cè)可用的帝國CMS 7.2/7.5適用免登陸新聞發(fā)布模塊插件配合火車采集器,可以解決這類問題??胺Q完美2022-04-21帝國cms高危SQL注入漏洞(盲注)系統(tǒng)自帶RepPIntvar過濾函數(shù)使用方法
帝國cms開發(fā)的時(shí)候要注意一些危險(xiǎn)的注入漏洞,防止被黑,RepPIntvar為系統(tǒng)自帶函數(shù)可以起到過濾字符的作用,下面就為大家介紹一下使用方法2021-07-26
帝國cms后臺(tái)啟用SESSION驗(yàn)證增加安全性
帝國cms后臺(tái)啟用SESSION驗(yàn)證所有的登錄信息都是保存在服務(wù)器端的,尤其是公共場(chǎng)所登錄用默認(rèn)的cookies是不安全的2021-07-26
帝國CMS7.2版升級(jí)到7.5版的詳細(xì)步驟方法(已測(cè))
最近需要將老版本的帝國cms將7.2升級(jí)到7.5版本,參考這篇文章完美升級(jí),特分享一下給需要的朋友2020-08-02
帝國cms常用標(biāo)簽調(diào)用方法(靈動(dòng)標(biāo)簽和萬能標(biāo)簽的調(diào)用方法)
整理了一些常用的帝國CMS調(diào)用,靈動(dòng)標(biāo)簽和萬能標(biāo)簽的調(diào)用方法舉例,包括幻燈片、標(biāo)題、一級(jí)欄目、二級(jí)欄目、帶模版的友情鏈接(下拉菜單)、判斷內(nèi)容頁字段為空時(shí)是如何調(diào)用2020-02-04
帝國cms網(wǎng)站地圖sitemap.xml的制作方法
這篇文章主要介紹了帝國cms網(wǎng)站地圖sitemap.xml的制作方法,需要的朋友可以參考下2020-02-04
帝國CMS數(shù)據(jù)更新中心設(shè)置教程(更新網(wǎng)站細(xì)節(jié))
在使用帝國cms的時(shí)候有時(shí)候需要把前臺(tái)數(shù)據(jù)都更新一下,那么就可以參考下面的文章了,要不漏掉了部分就達(dá)不到更新的目地了2020-02-04
帝國CMS后臺(tái)登錄界面及后臺(tái)界面修改方法
今天接到網(wǎng)友詢問怎么修改后臺(tái)登錄界面及后臺(tái)界面,特把方法分享出來需要的朋友可以參考下2020-02-04
最近仿站團(tuán)隊(duì)接到很多仿站客戶訂單,這里面有一個(gè)這樣的功能,表單提交,今天花時(shí)間寫個(gè)教程給大家,需要的朋友可以參考下2020-02-02








