python構(gòu)建基礎(chǔ)的爬蟲教學(xué)

更新時間：2018年12月23日 10:56:50 作者：please1748

在本篇內(nèi)容里小編給大家分享的是關(guān)于python構(gòu)建基礎(chǔ)的爬蟲教學(xué)內(nèi)容，需要的朋友們學(xué)習(xí)下。

爬蟲具有域名切換、信息收集以及信息存儲功能。

這里講述如何構(gòu)建基礎(chǔ)的爬蟲架構(gòu)。

1、

urllib庫：包含從網(wǎng)絡(luò)請求數(shù)據(jù)、處理cookie、改變請求頭和用戶處理元數(shù)據(jù)的函數(shù)。是python標準庫.urlopen用于打開讀取一個從網(wǎng)絡(luò)獲取的遠程對象。能輕松讀取HTML文件、圖像文件及其他文件流。

2、

beautifulsoup庫：通過定位HTML標簽格式化和組織復(fù)雜的網(wǎng)絡(luò)信息，用python對象展現(xiàn)XML結(jié)構(gòu)信息。不是標準庫，可用pip安裝。常用的對象是BeautifulSoup對象。

1、基礎(chǔ)爬蟲

爬蟲需要首先import對象，然后打開網(wǎng)址，使用BeautifulSoup對網(wǎng)頁內(nèi)容進行讀取。

2、使用print輸出打開的網(wǎng)址的內(nèi)容。

3、從輸出中可以看出內(nèi)容的結(jié)構(gòu)為：

4、輸出內(nèi)容中的html-body-h1的內(nèi)容可使用四種語句。

5、

BeautifulSoup可提取HTML、XML文件的任意節(jié)點的信息，只需要目標信息旁邊或附近有標記。

1、Error

在運行代碼時，經(jīng)常會出現(xiàn)錯誤，看懂錯誤出現(xiàn)的原因才能解決存在的問題。

2、

在html=urlopen('')中會發(fā)生兩種錯誤：網(wǎng)頁在服務(wù)器上不存在或服務(wù)器不存在

。

3、網(wǎng)頁在服務(wù)器上不存在會出現(xiàn)HTTPError，可使用try語句進行處理。

當程序返回HTTPError錯誤代碼時，會顯示錯誤內(nèi)容。

4、服務(wù)器不存在時，urlopen會返回None.

可使用判斷語句進行檢測。

調(diào)用的標簽不存在會出現(xiàn)None，調(diào)用不存在的標簽下的子標簽，就會出現(xiàn)AttributeError錯誤。

總結(jié)：以上就是關(guān)于python構(gòu)建基礎(chǔ)的爬蟲的基礎(chǔ)步驟內(nèi)容，感謝大家的閱讀和對腳本之家的支持。

您可能感興趣的文章:

相關(guān)文章

matplotlib實戰(zhàn)之餅圖繪制詳解
餅圖,或稱餅狀圖,是一個劃分為幾個扇形的圓形統(tǒng)計圖表,這篇文章主要為大家詳細介紹了如何使用Matplotlib繪制餅圖,需要的小伙伴可以參考下
2023-08-08
python matplotlib保存圖片不全問題及解決
這篇文章主要介紹了python matplotlib保存圖片不全問題及解決方案,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教
2023-09-09
深入淺析Python科學(xué)計算庫Scipy及安裝步驟
這篇文章主要介紹了Python科學(xué)計算庫—Scipy的相關(guān)知識，非常不錯，具有一定的參考借鑒價值,需要的朋友可以參考下
2019-10-10
Python腳本激活Linux密碼的方法(crypt模塊)
今天小編給大家分享一個非常不錯的方法破解linux口令，主要是利用linux系統(tǒng)中的crypt模塊模擬了linux系統(tǒng)中用戶密碼的加密，操作也很方便，對python破解linux口令相關(guān)知識感興趣的朋友跟隨小編一起學(xué)習(xí)下吧
2021-05-05
numpy中np.append()函數(shù)用法小結(jié)
在numpy的函數(shù)庫中,np.append()函數(shù)是一個常用的數(shù)組操作函數(shù),它在進行數(shù)組操作時能夠?qū)蓚€數(shù)組進行拼接,并返回一個拼接后的新數(shù)組,下面就來介紹一下具體用法,感興趣的可以了解一下
2023-11-11
Python實戰(zhàn)基礎(chǔ)之Pandas統(tǒng)計某個數(shù)據(jù)列的空值個數(shù)
我們在處理數(shù)據(jù)的時候,經(jīng)常需要檢查數(shù)據(jù)的質(zhì)量,也需要知道出問題的數(shù)據(jù)在哪個位置,下面這篇文章主要給大家介紹了關(guān)于Python實戰(zhàn)基礎(chǔ)之利用Pandas統(tǒng)計某個數(shù)據(jù)列空值個數(shù)的相關(guān)資料,需要的朋友可以參考下
2022-08-08
Python 調(diào)用 zabbix api的方法示例
這篇文章主要介紹了Python 調(diào)用 zabbix api的方法示例，小編覺得挺不錯的，現(xiàn)在分享給大家，也給大家做個參考。一起跟隨小編過來看看吧
2019-01-01
對于Python的Django框架使用的一些實用建議
這篇文章主要介紹了對于Python的Django框架使用的一些實用建議,包括一些優(yōu)秀模塊的介紹,要的朋友可以參考下
2015-04-04
利用pipenv和pyenv管理多個相互獨立的Python虛擬開發(fā)環(huán)境
這篇文章主要介紹了利用pipenv和pyenv管理多個相互獨立的Python虛擬開發(fā)環(huán)境，文中通過示例代碼介紹的非常詳細，對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值，需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
2020-11-11
淺談python下含中文字符串正則表達式的編碼問題
今天小編就為大家分享一篇淺談python下含中文字符串正則表達式的編碼問題，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2018-12-12