用php解析html的實(shí)現(xiàn)代碼

更新時(shí)間：2011年08月08日 21:45:32 作者：

用php解析html的實(shí)現(xiàn)代碼，一般做采集的朋友需要用得到。

最近想用php寫一個(gè)爬蟲，就需要解析html，在sourceforge上找到一個(gè)項(xiàng)目叫做PHP Simple HTML DOM Parser，它可以以類似jQuery的方式通過css選擇器來返回指定的DOM元素，功能十分強(qiáng)大。
首先要在程序的開始引入simple_html_dom.php這個(gè)文件

復(fù)制代碼代碼如下:

include_once('simple_html_dom.php');

PHP Simple HTML DOM Parser提供了3種方式來創(chuàng)建DOM對象

復(fù)制代碼代碼如下:

 
// Create a DOM object from a string 
$html = str_get_html('<html><body>Hello!</body></html>'); 
// Create a DOM object from a URL 
$html = file_get_html('http://www.google.com/'); 
// Create a DOM object from a HTML file 
$html = file_get_html('test.htm'); 

得到DOM對象后就可以進(jìn)行各種操作了

復(fù)制代碼代碼如下:

 
// Find all anchors, returns a array of element objects 
$ret = $html->find('a'); 
// Find (N)th anchor, returns element object or null if not found (zero based) 
$ret = $html->find('a', 0); 
// Find lastest anchor, returns element object or null if not found (zero based) 
$ret = $html->find('a', -1); 
// Find all <div> with the id attribute 
$ret = $html->find('div[id]'); 
// Find all <div> which attribute id=foo 
$ret = $html->find('div[id=foo]'); 

這里可以使用各種css選擇器，就像在jQuery中進(jìn)行DOM操作一樣，非常方便。此外，還有兩個(gè)特殊的屬性可以得到文本和注釋的內(nèi)容

復(fù)制代碼代碼如下:

 
// Find all text blocks 
$es = $html->find('text'); 
// Find all comment (<!--...-->) blocks 
$es = $html->find('comment'); 

當(dāng)然，還是類似于jQuery，PHP Simple HTML DOM Parser也支持鏈?zhǔn)讲僮?，以及各種訪問DOM元素的簡單方法

復(fù)制代碼代碼如下:

 
// Example 
echo $html->find("#div1", 0)->children(1)->children(1)->children(2)->id; 
// or 
echo $html->getElementById("div1")->childNodes(1)->childNodes(1)->childNodes(2)->getAttribute('id'); 

您可能感興趣的文章:

html

相關(guān)文章

php把數(shù)組值轉(zhuǎn)換成鍵的方法
這篇文章主要介紹了php把數(shù)組值轉(zhuǎn)換成鍵的方法,涉及php針對數(shù)組遍歷與轉(zhuǎn)換的相關(guān)操作技巧,具有一定參考借鑒價(jià)值,需要的朋友可以參考下
2015-07-07
超強(qiáng)多功能php綠色集成環(huán)境詳解
本文主要介紹了超強(qiáng)多功能php綠色集成環(huán)境，文中所使用的是PHPWAMP這款綠色的集成環(huán)境，集成VC運(yùn)行庫。具有很好的參考價(jià)值，下面跟著小編一起來看下吧
2017-01-01
PHP版漢字轉(zhuǎn)碼的實(shí)現(xiàn)詳解
本篇文章是對用php實(shí)現(xiàn)漢字轉(zhuǎn)碼進(jìn)行了詳細(xì)的分析介紹，需要的朋友參考下
2013-06-06
在php7中MongoDB實(shí)現(xiàn)模糊查詢的方法詳解
MongoDB模糊查詢語句相信對大家來說都不陌生，這篇文章主要給大家介紹了在php 7中MongoDB實(shí)現(xiàn)模糊查詢的方法,文中給出了詳細(xì)的介紹和示例代碼，對大家具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友一起來看看吧。
2017-05-05
深入PHP內(nèi)存相關(guān)的功能特性詳解
本篇文章是對PHP中內(nèi)存相關(guān)的功能特性進(jìn)行了詳細(xì)的分析介紹，需要的朋友參考下
2013-06-06
淺談Laravel中如何對大文件進(jìn)行加密
在Laravel項(xiàng)目中，用戶可以上傳任何大小的文件，出于安全目的，需要對這些文件進(jìn)行靜態(tài)加密。Laravel提供encryption, 但它們主要用于加密值。使用encrypt助手方法對像圖像文件進(jìn)行加密可以很好地工作，文件內(nèi)容需要加載到內(nèi)存中，對于大文件來說是個(gè)問題。
2021-05-05
apache rewrite_module模塊使用教程
2008-01-01
Laravel與CI框架中截取字符串函數(shù)
這篇文章主要介紹了Laravel與CI框架中截取字符串函數(shù)的相關(guān)代碼,需要的朋友可以參考下
2016-05-05
php 處理上百萬條的數(shù)據(jù)庫如何提高處理查詢速度
php 處理上百萬條的數(shù)據(jù)庫如何提高處理查詢速度
2010-02-02
PHP的Laravel框架中使用AdminLTE模板來編寫網(wǎng)站后臺界面
這篇文章主要介紹了PHP的Laravel框架中使用AdminLTE模板來編寫網(wǎng)站后臺的方法,AdminLTE基于BootStrap,能幫助快速創(chuàng)建網(wǎng)站后臺管理面板界面,需要的朋友可以參考下
2016-03-03