php實現(xiàn)遞歸抓取網(wǎng)頁類實例
更新時間:2015年04月03日 12:20:50 作者:pythoner
這篇文章主要介紹了php實現(xiàn)遞歸抓取網(wǎng)頁類,實例分析了php遞歸操作及網(wǎng)頁抓取的技巧,非常具有實用價值,需要的朋友可以參考下
本文實例講述了php實現(xiàn)遞歸抓取網(wǎng)頁類的方法。分享給大家供大家參考。具體如下:
<?php
class crawler{
private $_depth=5;
private $_urls=array();
function extract_links($url)
{
if(!$this->_started){
$this->_started=1;
$curr_depth=0;
}else{
$curr_depth++;
}
if($curr_depth<$this->_depth)
{
$data=file_get_contents($url);
if(preg_match_all('/((?:http|https)://(?:www.)*(?:[a-zA-Z0-9_-]{1,15}.+[a-zA-Z0-9_]{1,}){1,}(?:[a-zA-Z0-9_/.-?&:%,!;]*))/',$data,$urls12))
{
foreach($urls12[0] as $k=>$v){
$check=get_headers($v,1);
if(strstr($v,$url) && $check[0]=='HTTP/1.1 200 OK' && !array_search($v,$this->_urls) && $curr_depth<$this->_depth){
$this->_urls[]=$v;
$this->extract_links($v);
}
}
}
}
return $this->_urls;
}
}
?>
希望本文所述對大家的php程序設計有所幫助。
您可能感興趣的文章:
- php curl抓取網(wǎng)頁的介紹和推廣及使用CURL抓取淘寶頁面集成方法
- PHP抓取網(wǎng)頁、解析HTML常用的方法總結
- php結合正則批量抓取網(wǎng)頁中郵箱地址
- PHP使用CURL實現(xiàn)多線程抓取網(wǎng)頁
- PHP中使用file_get_contents抓取網(wǎng)頁中文亂碼問題解決方法
- php使用curl和正則表達式抓取網(wǎng)頁數(shù)據(jù)示例
- 采集郵箱的php代碼(抓取網(wǎng)頁中的郵箱地址)
- PHP的cURL庫功能簡介 抓取網(wǎng)頁、POST數(shù)據(jù)及其他
- PHP多線程抓取網(wǎng)頁實現(xiàn)代碼
- PHP 抓取網(wǎng)頁圖片并且另存為的實現(xiàn)代碼
- PHP抓取及分析網(wǎng)頁的方法詳解
相關文章
php使用pdo連接并查詢sql數(shù)據(jù)庫的方法
這篇文章主要介紹了php使用pdo連接并查詢sql數(shù)據(jù)庫的方法,實例分析了常用的pdo連接方法與改進方法,并針對pdo技術進行了分析說明,需要的朋友可以參考下2014-12-12
基于PHP導出Excel的小經(jīng)驗 完美解決亂碼問題
本篇文章是對PHP導出Excel亂碼問題的解決方法就行了詳細的分析介紹,需要的朋友參考下2013-06-06
PHP簡單實現(xiàn)定時監(jiān)控nginx日志文件功能示例
這篇文章主要介紹了PHP簡單實現(xiàn)定時監(jiān)控nginx日志文件功能,涉及php定時讀取nginx服務器日志以及基于curl的數(shù)據(jù)傳輸相關操作技巧,需要的朋友可以參考下2018-06-06
Search File Contents PHP 搜索目錄文本內(nèi)容的代碼
這個類可以用來搜索在給定的文本目錄中的文件。它可以給定目錄遍歷遞歸查找某些文件擴展名的文件。2010-02-02

