dede3.1分頁(yè)文字采集過(guò)濾規(guī)則詳說(shuō)(圖文教程)續(xù)四
更新時(shí)間:2007年04月03日 00:00:00 作者:
至此,分頁(yè)內(nèi)容匹配進(jìn)行完畢。
文章內(nèi)容匹配、分頁(yè)內(nèi)容匹配都進(jìn)行完后,最后就只有“過(guò)濾”了,包括分頁(yè)區(qū)域過(guò)濾和文章內(nèi)容過(guò)濾。據(jù)本人的感覺(jué),上面的兩個(gè)規(guī)則都好寫(xiě),只要找到全部鏈接中的“唯一性”代碼就搞定,但過(guò)濾規(guī)則里卻是欲說(shuō)還休,道不盡的無(wú)窮奧妙……哈哈,感覺(jué)就是這樣。尤其如我一般的新手,對(duì)“正則”這個(gè)東西如臨天書(shū),找了幾個(gè)正則方面的軟件吧仍覺(jué)無(wú)從下手,就只好依樣畫(huà)樣,照貓畫(huà)虎,依葫蘆畫(huà)瓢地摸索了。
好了,閑話了。也累了,聽(tīng)聽(tīng)《加州旅館》吧,在這:加州旅館_老鷹樂(lè)隊(duì)94現(xiàn)場(chǎng) 放松下吧。
你一眼看出來(lái)了過(guò)濾規(guī)則怎么寫(xiě)么,反正我是沒(méi)能看得出來(lái),沒(méi)辦法,新手就是新手呀。不管它,那就依照原范例的分頁(yè)過(guò)濾規(guī)則寫(xiě)個(gè)規(guī)則試試看看結(jié)果吧:
{dede:trim}<td align='center' height='30'>(.*)頁(yè)次{/dede:trim}
采集一下:
分頁(yè)成功了,但廢碼多,還得改!
看下多余的代碼特征,好象是過(guò)濾范圍不夠,后面的很多內(nèi)容都要過(guò)濾掉。那好,把過(guò)濾區(qū)域再往后移,直接移至描紅部分吧(其實(shí)我在改過(guò)濾規(guī)則的時(shí)候,改了好幾次,這里就一次到位吧,不耽誤朋友們的時(shí)間了):

寫(xiě)個(gè)完整的分頁(yè)過(guò)濾規(guī)則:
{dede:trim}<td align='center' height='30'>(.*)</option></select></td>{/dede:trim}
再采集下,看看結(jié)果:
好了,分頁(yè)成功,無(wú)多余代碼。至此,全部主要的代碼部分完成。
結(jié)果在這里:
有分頁(yè)的:黨員干部作風(fēng)整頓剖析材料
無(wú)分頁(yè)的: 文藝部工作計(jì)劃
寫(xiě)一個(gè)完成的站點(diǎn)規(guī)則:
{!-- 節(jié)點(diǎn)基本信息 --}
{dede:item name='天水_工作計(jì)劃_1頁(yè)'
imgurl='/upimg' imgdir='../upimg' language='gb2312' typeid='1' macthtype='string'}
{/dede:item}
{!-- 采集列表獲取規(guī)則 --}
{dede:list source='var' sourcetype='list'
varstart='' varend=''}
{dede:url value='http://www.tiansou.net/Html/Y_CYFW/R_Gzzj/F_Gzjh/index.html'}{/dede:url}
{dede:need}Gzjh/2007-{/dede:need}
{dede:cannot}Gzjh/2007-1{/dede:cannot}
{dede:linkarea}[var:區(qū)域]{/dede:linkarea}
{/dede:list}
{!-- 網(wǎng)頁(yè)內(nèi)容獲取規(guī)則 --}
{dede:art}
{dede:sppage sptype='full'}<td align='center' height='30'>首頁(yè) 上頁(yè)[var:分頁(yè)區(qū)域]頁(yè)次{/dede:sppage}
{dede:note field='dede_archives.title' value='[var:內(nèi)容]' comment='文章標(biāo)題'
isunit='' isdown=''}
{dede:match}<title>[var:內(nèi)容]--天水搜索</title>{/dede:match}
{dede:function}{/dede:function}
{/dede:note}
{dede:note field='dede_archives.sortrank' value='[var:內(nèi)容]' comment='排序級(jí)別'
isunit='' isdown=''}
{dede:match}{/dede:match}
{dede:function}@me = time();{/dede:function}
{/dede:note}
{dede:note field='dede_archives.writer' value='[var:內(nèi)容]' comment='文章作者'
isunit='' isdown=''}
{dede:match}{/dede:match}
{dede:function}{/dede:function}
{/dede:note}
{dede:note field='dede_archives.litpic' value='[var:內(nèi)容]' comment='縮略圖'
isunit='' isdown=''}
{dede:match}{/dede:match}
{dede:function}@me = @litpic;{/dede:function}
{/dede:note}
{dede:note field='dede_archives.pubdate' value='[var:內(nèi)容]' comment='發(fā)布時(shí)間'
isunit='' isdown=''}
{dede:match}{/dede:match}
{dede:function}if(@me!="") @me = GetMkTime(@me);
else @me = time();{/dede:function}
{/dede:note}
{dede:note field='dede_archives.senddate' value='[var:內(nèi)容]' comment='錄入時(shí)間'
isunit='' isdown=''}
{dede:match}{/dede:match}
{dede:function}@me = time();{/dede:function}
{/dede:note}
{dede:note field='dede_addonarticle.body' value='[var:內(nèi)容]' comment='文章內(nèi)容'
isunit='1' isdown='1'}
{dede:match}</TR>
<TR>
<TD height="8"></TD>
</TR>
<TR>
<TD valign="top" class=Connet><p>[var:內(nèi)容]</p>
</TD>
</TR>{/dede:match}
{dede:trim}<td align='center' height='30'>(.*)</option></select></td>{/dede:trim}
{dede:trim}
{/dede:trim}
{dede:trim}<param([^>]*)>{/dede:trim}
{dede:trim}<embed([^>]*)>([^>]*)</embed>{/dede:trim}
{dede:trim}<embed([^>]*)>{/dede:trim}
{dede:trim}</embed>{/dede:trim}
{dede:trim}<object([^>]*)>([^>]*)</object>{/dede:trim}
{dede:trim}<object([^>]*)>{/dede:trim}
{dede:trim}</object>{/dede:trim}
{dede:trim}<OBJECT([^>]*)>([^>]*)</OBJECT>{/dede:trim}
{dede:trim}<OBJECT([^>]*)>{/dede:trim}
{dede:trim}</OBJECT>{/dede:trim}
{dede:trim}<iframe([^>]*)>([^>]*)</iframe>{/dede:trim}
{dede:trim}<iframe([^>]*)>{/dede:trim}
{dede:trim}</iframe>{/dede:trim}
{dede:trim}<IFRAME([^>]*)>([^>]*)</IFRAME>{/dede:trim}
{dede:trim}<IFRAME([^>]*)>{/dede:trim}
{dede:trim}</IFRAME>{/dede:trim}
{dede:trim}<font([^>]*)>([^<]*)</font>{/dede:trim}
{dede:trim}<font([^>]*)>{/dede:trim}
{dede:trim}</font>{/dede:trim}
{dede:trim}<img([^>]*)>{/dede:trim}
{dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim}
{dede:trim}<a([^>]*)>{/dede:trim}
{dede:trim}</a>{/dede:trim}
{dede:trim}<td([^>]*)>([^>]*)</td>{/dede:trim}
{dede:trim}<td([^>]*)>{/dede:trim}
{dede:trim}</td>{/dede:trim}
{dede:trim}<tr([^>]*)>([^>]*)</tr>{/dede:trim}
{dede:trim}<tr([^>]*)>{/dede:trim}
{dede:trim}</tr>{/dede:trim}
{dede:trim}<tbody([^>]*)>([^>]*)</tbody>{/dede:trim}
{dede:trim}<tbody>{/dede:trim}
{dede:trim}</tbody>{/dede:trim}
{dede:trim}<table([^>]*)>([^>]*)</table>{/dede:trim}
{dede:trim}<table([^>]*)>{/dede:trim}
{dede:trim}</table>{/dede:trim}
{dede:trim} {/dede:trim}
{dede:function}{/dede:function}
{/dede:note}
{dede:note field='dede_archives.source' value='[var:內(nèi)容]' comment='文章來(lái)源'
isunit='' isdown=''}
{dede:match}{/dede:match}
{dede:function}@me ='互聯(lián)網(wǎng)'{/dede:function}
{/dede:note}
{/dede:art}
文章內(nèi)容匹配、分頁(yè)內(nèi)容匹配都進(jìn)行完后,最后就只有“過(guò)濾”了,包括分頁(yè)區(qū)域過(guò)濾和文章內(nèi)容過(guò)濾。據(jù)本人的感覺(jué),上面的兩個(gè)規(guī)則都好寫(xiě),只要找到全部鏈接中的“唯一性”代碼就搞定,但過(guò)濾規(guī)則里卻是欲說(shuō)還休,道不盡的無(wú)窮奧妙……哈哈,感覺(jué)就是這樣。尤其如我一般的新手,對(duì)“正則”這個(gè)東西如臨天書(shū),找了幾個(gè)正則方面的軟件吧仍覺(jué)無(wú)從下手,就只好依樣畫(huà)樣,照貓畫(huà)虎,依葫蘆畫(huà)瓢地摸索了。
好了,閑話了。也累了,聽(tīng)聽(tīng)《加州旅館》吧,在這:加州旅館_老鷹樂(lè)隊(duì)94現(xiàn)場(chǎng) 放松下吧。
你一眼看出來(lái)了過(guò)濾規(guī)則怎么寫(xiě)么,反正我是沒(méi)能看得出來(lái),沒(méi)辦法,新手就是新手呀。不管它,那就依照原范例的分頁(yè)過(guò)濾規(guī)則寫(xiě)個(gè)規(guī)則試試看看結(jié)果吧:
復(fù)制代碼 代碼如下:
{dede:trim}<td align='center' height='30'>(.*)頁(yè)次{/dede:trim}
采集一下:
分頁(yè)成功了,但廢碼多,還得改!
看下多余的代碼特征,好象是過(guò)濾范圍不夠,后面的很多內(nèi)容都要過(guò)濾掉。那好,把過(guò)濾區(qū)域再往后移,直接移至描紅部分吧(其實(shí)我在改過(guò)濾規(guī)則的時(shí)候,改了好幾次,這里就一次到位吧,不耽誤朋友們的時(shí)間了):

寫(xiě)個(gè)完整的分頁(yè)過(guò)濾規(guī)則:
復(fù)制代碼 代碼如下:
{dede:trim}<td align='center' height='30'>(.*)</option></select></td>{/dede:trim}
再采集下,看看結(jié)果:
好了,分頁(yè)成功,無(wú)多余代碼。至此,全部主要的代碼部分完成。
結(jié)果在這里:
有分頁(yè)的:黨員干部作風(fēng)整頓剖析材料
無(wú)分頁(yè)的: 文藝部工作計(jì)劃
寫(xiě)一個(gè)完成的站點(diǎn)規(guī)則:
復(fù)制代碼 代碼如下:
{!-- 節(jié)點(diǎn)基本信息 --}
{dede:item name='天水_工作計(jì)劃_1頁(yè)'
imgurl='/upimg' imgdir='../upimg' language='gb2312' typeid='1' macthtype='string'}
{/dede:item}
{!-- 采集列表獲取規(guī)則 --}
{dede:list source='var' sourcetype='list'
varstart='' varend=''}
{dede:url value='http://www.tiansou.net/Html/Y_CYFW/R_Gzzj/F_Gzjh/index.html'}{/dede:url}
{dede:need}Gzjh/2007-{/dede:need}
{dede:cannot}Gzjh/2007-1{/dede:cannot}
{dede:linkarea}[var:區(qū)域]{/dede:linkarea}
{/dede:list}
{!-- 網(wǎng)頁(yè)內(nèi)容獲取規(guī)則 --}
{dede:art}
{dede:sppage sptype='full'}<td align='center' height='30'>首頁(yè) 上頁(yè)[var:分頁(yè)區(qū)域]頁(yè)次{/dede:sppage}
{dede:note field='dede_archives.title' value='[var:內(nèi)容]' comment='文章標(biāo)題'
isunit='' isdown=''}
{dede:match}<title>[var:內(nèi)容]--天水搜索</title>{/dede:match}
{dede:function}{/dede:function}
{/dede:note}
{dede:note field='dede_archives.sortrank' value='[var:內(nèi)容]' comment='排序級(jí)別'
isunit='' isdown=''}
{dede:match}{/dede:match}
{dede:function}@me = time();{/dede:function}
{/dede:note}
{dede:note field='dede_archives.writer' value='[var:內(nèi)容]' comment='文章作者'
isunit='' isdown=''}
{dede:match}{/dede:match}
{dede:function}{/dede:function}
{/dede:note}
{dede:note field='dede_archives.litpic' value='[var:內(nèi)容]' comment='縮略圖'
isunit='' isdown=''}
{dede:match}{/dede:match}
{dede:function}@me = @litpic;{/dede:function}
{/dede:note}
{dede:note field='dede_archives.pubdate' value='[var:內(nèi)容]' comment='發(fā)布時(shí)間'
isunit='' isdown=''}
{dede:match}{/dede:match}
{dede:function}if(@me!="") @me = GetMkTime(@me);
else @me = time();{/dede:function}
{/dede:note}
{dede:note field='dede_archives.senddate' value='[var:內(nèi)容]' comment='錄入時(shí)間'
isunit='' isdown=''}
{dede:match}{/dede:match}
{dede:function}@me = time();{/dede:function}
{/dede:note}
{dede:note field='dede_addonarticle.body' value='[var:內(nèi)容]' comment='文章內(nèi)容'
isunit='1' isdown='1'}
{dede:match}</TR>
<TR>
<TD height="8"></TD>
</TR>
<TR>
<TD valign="top" class=Connet><p>[var:內(nèi)容]</p>
</TD>
</TR>{/dede:match}
{dede:trim}<td align='center' height='30'>(.*)</option></select></td>{/dede:trim}
{dede:trim}
{/dede:trim}
{dede:trim}<param([^>]*)>{/dede:trim}
{dede:trim}<embed([^>]*)>([^>]*)</embed>{/dede:trim}
{dede:trim}<embed([^>]*)>{/dede:trim}
{dede:trim}</embed>{/dede:trim}
{dede:trim}<object([^>]*)>([^>]*)</object>{/dede:trim}
{dede:trim}<object([^>]*)>{/dede:trim}
{dede:trim}</object>{/dede:trim}
{dede:trim}<OBJECT([^>]*)>([^>]*)</OBJECT>{/dede:trim}
{dede:trim}<OBJECT([^>]*)>{/dede:trim}
{dede:trim}</OBJECT>{/dede:trim}
{dede:trim}<iframe([^>]*)>([^>]*)</iframe>{/dede:trim}
{dede:trim}<iframe([^>]*)>{/dede:trim}
{dede:trim}</iframe>{/dede:trim}
{dede:trim}<IFRAME([^>]*)>([^>]*)</IFRAME>{/dede:trim}
{dede:trim}<IFRAME([^>]*)>{/dede:trim}
{dede:trim}</IFRAME>{/dede:trim}
{dede:trim}<font([^>]*)>([^<]*)</font>{/dede:trim}
{dede:trim}<font([^>]*)>{/dede:trim}
{dede:trim}</font>{/dede:trim}
{dede:trim}<img([^>]*)>{/dede:trim}
{dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim}
{dede:trim}<a([^>]*)>{/dede:trim}
{dede:trim}</a>{/dede:trim}
{dede:trim}<td([^>]*)>([^>]*)</td>{/dede:trim}
{dede:trim}<td([^>]*)>{/dede:trim}
{dede:trim}</td>{/dede:trim}
{dede:trim}<tr([^>]*)>([^>]*)</tr>{/dede:trim}
{dede:trim}<tr([^>]*)>{/dede:trim}
{dede:trim}</tr>{/dede:trim}
{dede:trim}<tbody([^>]*)>([^>]*)</tbody>{/dede:trim}
{dede:trim}<tbody>{/dede:trim}
{dede:trim}</tbody>{/dede:trim}
{dede:trim}<table([^>]*)>([^>]*)</table>{/dede:trim}
{dede:trim}<table([^>]*)>{/dede:trim}
{dede:trim}</table>{/dede:trim}
{dede:trim} {/dede:trim}
{dede:function}{/dede:function}
{/dede:note}
{dede:note field='dede_archives.source' value='[var:內(nèi)容]' comment='文章來(lái)源'
isunit='' isdown=''}
{dede:match}{/dede:match}
{dede:function}@me ='互聯(lián)網(wǎng)'{/dede:function}
{/dede:note}
{/dede:art}
相關(guān)文章
php對(duì)圖像的各種處理函數(shù)代碼小結(jié)
這篇文章主要介紹了php的圖片處理實(shí)現(xiàn)代碼,包括縮放、剪裁、縮放、翻轉(zhuǎn)、旋轉(zhuǎn)、透明、銳化等圖片操作,需要的朋友可以參考下2013-07-07
PHP中通過(guò)語(yǔ)義URL防止網(wǎng)站被攻擊的方法分享
好奇心是很多攻擊者的主要?jiǎng)訖C(jī),語(yǔ)義URL 攻擊就是一個(gè)很好的例子。此類(lèi)攻擊主要包括對(duì)URL 進(jìn)行編輯以期發(fā)現(xiàn)一些有趣的事情。2011-09-09
PHP中使用php://input處理相同name值的表單數(shù)據(jù)
這篇文章主要介紹了PHP中使用php://input處理相同name值的表單數(shù)據(jù),本文是另一種處理相同name值表單數(shù)據(jù)的方法,文中同時(shí)給出另一種方法,需要的朋友可以參考下2015-02-02
PHP基于curl實(shí)現(xiàn)模擬微信瀏覽器打開(kāi)微信鏈接的方法示例
這篇文章主要介紹了PHP基于curl實(shí)現(xiàn)模擬微信瀏覽器打開(kāi)微信鏈接的方法,結(jié)合實(shí)例形式分析了php使用curl通過(guò)設(shè)置HTTP_USER_AGENT實(shí)現(xiàn)模擬微信瀏覽器相關(guān)操作技巧,需要的朋友可以參考下2019-02-02
PHP無(wú)限極分類(lèi)函數(shù)的實(shí)現(xiàn)方法詳解
這篇文章主要介紹了PHP無(wú)限極分類(lèi)函數(shù)的實(shí)現(xiàn)方法,結(jié)合實(shí)例形式詳細(xì)分析了php實(shí)現(xiàn)無(wú)限極分類(lèi)的具體思路、實(shí)現(xiàn)代碼與相關(guān)注意事項(xiàng),需要的朋友可以參考下2017-04-04

