Python3爬蟲學習入門教程

更新時間：2018年12月11日 14:14:06 作者：Sailfish23

這篇文章主要介紹了Python3爬蟲學習入門,簡單介紹了Python3爬蟲的功能、原理及使用爬蟲爬取知乎首頁相關操作技巧,需要的朋友可以參考下

本文實例講述了Python3爬蟲相關入門知識。分享給大家供大家參考，具體如下：

在網(wǎng)上看到大多數(shù)爬蟲教程都是Python2的，但Python3才是未來的趨勢，許多初學者看了Python2的教程學Python3的話很難適應過來，畢竟Python2.x和Python3.x還是有很多區(qū)別的，一個系統(tǒng)的學習方法和路線非常重要，因此我在聯(lián)系了一段時間之后，想寫一下自己的學習過程，分享一下自己的學習經(jīng)驗，順便也鍛煉一下自己。

一、入門篇

這里是Python3的官方技術文檔，在這里需要著重說一下，語言的技術文檔是用來查的，不是用來學習的，真的沒必要把文檔背下來，這樣學習效率真的很低，不如片學邊做，在實踐中才會學到東西，不然即使你背會了文檔，你仍然很難做出什么項目來，我當初就是在這上面，走了很多彎路，在這里推薦W3cscjool里面的教程非常不錯，學習與實踐相結(jié)合。

1. 少廢話，先看東西

第一個例子：爬取知乎首頁源碼。

#-*-coding:utf-8 -*-
import urllib.request
url = "http://www.zhihu.com"
page_info = urllib.request.urlopen(url).read()
page_info = page_info.decode('utf-8')
print(page_info)

運行結(jié)果：

運行之后，在IDLE shell里面知乎網(wǎng)站首頁的源代碼就會被讀出來啦Blahblahblah~~~

爬蟲定義：

網(wǎng)絡爬蟲（Web Spider），又被稱為網(wǎng)頁蜘蛛，是一種按照一定的規(guī)則，自動地抓取網(wǎng)站信息的程序或者腳本。

簡介：

網(wǎng)絡蜘蛛是一個很形象的名字。如果把互聯(lián)網(wǎng)比喻成一個蜘蛛網(wǎng)，那么Spider就是在網(wǎng)上爬來爬去的蜘蛛。網(wǎng)絡蜘蛛是通過網(wǎng)頁的鏈接地址來尋找網(wǎng)頁，從網(wǎng)站某一個頁面開始，讀取網(wǎng)頁的內(nèi)容，找到在網(wǎng)頁中的其它鏈接地址，然后通過這些鏈接地址尋找下一個網(wǎng)頁，這樣一直循環(huán)下去，直到把這個網(wǎng)站所有的網(wǎng)頁都抓取完為止。

爬蟲流程：

①先由urllib的request打開Url得到網(wǎng)頁html文檔——②瀏覽器打開網(wǎng)頁源代碼分析元素節(jié)點——③通過Beautiful Soup（后面會講到）或則正則表達式提取想要的數(shù)據(jù)——④存儲數(shù)據(jù)到本地磁盤或數(shù)據(jù)庫（抓取，分析，存儲）

urllib和urllib2

python2.x里urllib2庫，在python3.x里，urllib2改名為urllib，被分成一些子模塊：urllib.request, urllib.parse和urllib.error。盡管函數(shù)名稱大多數(shù)和原來一樣，但是在用新的urllib庫時需要注意哪些函數(shù)被移動到子模塊里了。
urllib是python的標準庫，包含了從網(wǎng)絡請求數(shù)據(jù)，處理cookie，甚至改變像請求頭和用戶代理這些元數(shù)據(jù)的函數(shù)。
urlopen用來打開并讀取一個從網(wǎng)絡獲取的遠程對象。它可以輕松讀取HTML文件、圖像文件或其他任何文件流。

url = "http://www.zhihu.com"
page_info = urllib.request.urlopen(url).read()

urllib.request是urllib的一個子模塊,可以打開和處理一些復雜的網(wǎng)址

decode('utf-8')用來將頁面轉(zhuǎn)換成utf-8的編碼格式，否則會出現(xiàn)亂碼

page_info = page_info.decode('utf-8')
print(page_info)

urllib.request.urlopen()方法實現(xiàn)了打開url,并返回一個 http.client.HTTPResponse對象,通過http.client.HTTPResponse的read()方法,獲得response body,轉(zhuǎn)碼最后通過print()打印出來.

希望本文所述對大家Python程序設計有所幫助。

您可能感興趣的文章:

python3使用mutagen進行音頻元數(shù)據(jù)處理的方法
mutagen是一個處理音頻元數(shù)據(jù)的python模塊，支持多種音頻格式，是一個純粹的python庫，僅依賴python標準庫，可在Python?3.7及以上版本運行，支持Linux、Windows?和?macOS系統(tǒng)，這篇文章主要介紹了python3使用mutagen進行音頻元數(shù)據(jù)處理,需要的朋友可以參考下
2022-10-10
python統(tǒng)計文本字符串里單詞出現(xiàn)頻率的方法
這篇文章主要介紹了python統(tǒng)計文本字符串里單詞出現(xiàn)頻率的方法,涉及Python字符串操作的相關技巧,需要的朋友可以參考下
2015-05-05
一文詳解Python三引號(“““)的五個神奇用法
今天我們來聊一聊 Python 中的一個神奇字符——三引號（"""）,三引號"""不僅僅是用來定義多行字符串的簡單工具,它還隱藏著許多令人驚嘆的用途,感興趣的小伙伴跟著小編一起來看看吧
2025-04-04
python處理數(shù)據(jù),存進hive表的方法
今天小編就為大家分享一篇python處理數(shù)據(jù),存進hive表的方法，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2018-07-07
Python中.py文件和.ipynb文件的區(qū)別詳解
Python開發(fā)者常用的兩種文件格式.py和.ipynb各有特點,本教程將通過對比分析、代碼示例和場景說明,幫助開發(fā)者全面理解二者的區(qū)別與聯(lián)系,需要的朋友可以參考下
2025-04-04
python字典快速保存于讀取的方法
下面小編就為大家分享一篇python字典快速保存于讀取的方法，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2018-03-03
Python實現(xiàn)的棧（Stack）
棧作為一種數(shù)據(jù)結(jié)構(gòu)，是一種只能在一端進行插入和刪除操作。這篇文章給大家介紹了Python實現(xiàn)的棧（Stack）的相關資料，感興趣的朋友一起看看吧
2018-01-01
Python3.5實現(xiàn)的三級菜單功能示例
這篇文章主要介紹了Python3.5實現(xiàn)的三級菜單功能,涉及Python針對json格式數(shù)據(jù)的讀取、遍歷、查找、判斷等相關操作技巧,需要的朋友可以參考下
2019-03-03
Python 代碼實現(xiàn)列表的最小公倍數(shù)
這篇文章主要介紹了Python 代碼實現(xiàn)列表的最小公倍數(shù)，代碼實現(xiàn)了計算列表中元素的最小公倍數(shù)的功能，包括公式介紹,需要的朋友可以參考一下
2021-11-11
解讀sqlalchemy的常用數(shù)據(jù)類型有哪些
這篇文章主要介紹了解讀sqlalchemy的常用數(shù)據(jù)類型有哪些，具有很好的參考價值，希望對大家有所幫助。如有錯誤或未考慮完全的地方，望不吝賜教
2023-03-03