python構(gòu)建基礎(chǔ)的爬蟲教學(xué)
爬蟲具有域名切換、信息收集以及信息存儲功能。
這里講述如何構(gòu)建基礎(chǔ)的爬蟲架構(gòu)。
1、urllib庫:包含從網(wǎng)絡(luò)請求數(shù)據(jù)、處理cookie、改變請求頭和用戶處理元數(shù)據(jù)的函數(shù)。是python標準庫.urlopen用于打開讀取一個從網(wǎng)絡(luò)獲取的遠程對象。能輕松讀取HTML文件、圖像文件及其他文件流。
2、beautifulsoup庫:通過定位HTML標簽格式化和組織復(fù)雜的網(wǎng)絡(luò)信息,用python對象展現(xiàn)XML結(jié)構(gòu)信息。不是標準庫,可用pip安裝。常用的對象是BeautifulSoup對象。
1、基礎(chǔ)爬蟲
爬蟲需要首先import對象,然后打開網(wǎng)址,使用BeautifulSoup對網(wǎng)頁內(nèi)容進行讀取。

2、使用print輸出打開的網(wǎng)址的內(nèi)容。

3、從輸出中可以看出內(nèi)容的結(jié)構(gòu)為:

4、輸出內(nèi)容中的html-body-h1的內(nèi)容可使用四種語句。


5、BeautifulSoup可提取HTML、XML文件的任意節(jié)點的信息,只需要目標信息旁邊或附近有標記。
1、Error在運行代碼時,經(jīng)常會出現(xiàn)錯誤,看懂錯誤出現(xiàn)的原因才能解決存在的問題。
2、在html=urlopen('')中會發(fā)生兩種錯誤:網(wǎng)頁在服務(wù)器上不存在或服務(wù)器不存在。
3、網(wǎng)頁在服務(wù)器上不存在會出現(xiàn)HTTPError,可使用try語句進行處理。
當程序返回HTTPError錯誤代碼時,會顯示錯誤內(nèi)容。

4、服務(wù)器不存在時,urlopen會返回None.
可使用判斷語句進行檢測。
調(diào)用的標簽不存在會出現(xiàn)None,調(diào)用不存在的標簽下的子標簽,就會出現(xiàn)AttributeError錯誤。

總結(jié):以上就是關(guān)于python構(gòu)建基礎(chǔ)的爬蟲的基礎(chǔ)步驟內(nèi)容,感謝大家的閱讀和對腳本之家的支持。
相關(guān)文章
深入淺析Python科學(xué)計算庫Scipy及安裝步驟
這篇文章主要介紹了Python科學(xué)計算庫—Scipy的相關(guān)知識,非常不錯,具有一定的參考借鑒價值,需要的朋友可以參考下2019-10-10
numpy中np.append()函數(shù)用法小結(jié)
在numpy的函數(shù)庫中,np.append()函數(shù)是一個常用的數(shù)組操作函數(shù),它在進行數(shù)組操作時能夠?qū)蓚€數(shù)組進行拼接,并返回一個拼接后的新數(shù)組,下面就來介紹一下具體用法,感興趣的可以了解一下2023-11-11
Python實戰(zhàn)基礎(chǔ)之Pandas統(tǒng)計某個數(shù)據(jù)列的空值個數(shù)
我們在處理數(shù)據(jù)的時候,經(jīng)常需要檢查數(shù)據(jù)的質(zhì)量,也需要知道出問題的數(shù)據(jù)在哪個位置,下面這篇文章主要給大家介紹了關(guān)于Python實戰(zhàn)基礎(chǔ)之利用Pandas統(tǒng)計某個數(shù)據(jù)列空值個數(shù)的相關(guān)資料,需要的朋友可以參考下2022-08-08
Python 調(diào)用 zabbix api的方法示例
這篇文章主要介紹了Python 調(diào)用 zabbix api的方法示例,小編覺得挺不錯的,現(xiàn)在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧2019-01-01
利用pipenv和pyenv管理多個相互獨立的Python虛擬開發(fā)環(huán)境
這篇文章主要介紹了利用pipenv和pyenv管理多個相互獨立的Python虛擬開發(fā)環(huán)境,文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2020-11-11

