基于PHP的簡單采集數據入庫程序【續(xù)篇】
在上篇文章中,我們已經采集新聞信息頁的列表數據,接下來要做的操作就是從數據庫中讀取所需要采集的URL,進行頁面抓取就行
新建一個content表
不過需要注意的一點是,不能再采用采集URL這種id遞增的方法去采集,因為數據表中可能出現id斷續(xù),比如id=9,id=11,當采集到id=10的時候,URL是空白的,這樣可能會導致采集到了空字段。
這里用到的一個技巧是數據庫的查詢語句,在我們采集完第一條數據的時候,判斷數據庫里是否還有大于此id的id編號,若有,讀取一條,查詢信息重復上面的工作。
具體代碼如下:
<?php
include_once("conn.php");
$id=(int)$_GET['id'];
$sql="select * from list where id=$id";
$result=mysql_query($sql);
$row=mysql_fetch_array($result);//取得對應的url地址
$content=file_get_contents($row['url']);
$pattern="/<dd class=\"dataWrap\">(.*)<\/dd>/iUs";
preg_match($pattern, $content,$info);//獲取內容存放info
echo $title=$row[1]."<br/>";
echo $content=$info[0]."<hr/>";
//插入數據庫
$add="insert into content(title,content) value('$title','$content')";
mysql_query($add);
$sql2="select * from list where id>$id order by id asc limit 1";
$result2=mysql_query($sql2);
$row2=mysql_fetch_array($result2);//取得對應的url地址
if($row2['id']){
echo "<script>window.location='content.php?id=$row2[0]'</script>";
}
?>

這樣子我們所要的新聞內容就采集入庫了,接下來只需要對數據的一些樣式進行整理就行了。
相關文章
PHP+Mysql+jQuery文件下載次數統(tǒng)計實例講解
這篇文章主要內容是關于PHP+Mysql+jQuery文件下載次數統(tǒng)計實例講解2015-10-10
詳解WordPress開發(fā)中過濾屬性以及Sql語句的函數使用
這篇文章主要介紹了WordPress開發(fā)中過濾屬性以及Sql語句的函數使用,分別是對esc_attr()函數和esc_sql()函數的講解,需要的朋友可以參考下2015-12-12
使用laravel的migrate創(chuàng)建數據表的方法
今天小編就為大家分享一篇使用laravel的migrate創(chuàng)建數據表的方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-09-09

