Python網(wǎng)絡爬蟲實例講解

更新時間：2016年04月28日 11:39:52 作者：銀霜覆秋楓

這篇文章主要為大家詳細介紹了Python網(wǎng)絡爬蟲實例，爬蟲的定義、主要框架等基礎概念，感興趣的小伙伴們可以參考一下

聊一聊Python與網(wǎng)絡爬蟲。

1、爬蟲的定義

爬蟲：自動抓取互聯(lián)網(wǎng)數(shù)據(jù)的程序。

2、爬蟲的主要框架

爬蟲程序的主要框架如上圖所示，爬蟲調(diào)度端通過URL管理器獲取待爬取的URL鏈接，若URL管理器中存在待爬取的URL鏈接，爬蟲調(diào)度器調(diào)用網(wǎng)頁下載器下載相應網(wǎng)頁，然后調(diào)用網(wǎng)頁解析器解析該網(wǎng)頁，并將該網(wǎng)頁中新的URL添加到URL管理器中，將有價值的數(shù)據(jù)輸出。

3、爬蟲的時序圖

4、URL管理器

URL管理器管理待抓取的URL集合和已抓取的URL集合，防止重復抓取與循環(huán)抓取。URL管理器的主要職能如下圖所示：

URL管理器在實現(xiàn)方式上，Python中主要采用內(nèi)存(set)、和關系數(shù)據(jù)庫(MySQL)。對于小型程序，一般在內(nèi)存中實現(xiàn)，Python內(nèi)置的set()類型能夠自動判斷元素是否重復。對于大一點的程序，一般使用數(shù)據(jù)庫來實現(xiàn)。

5、網(wǎng)頁下載器

Python中的網(wǎng)頁下載器主要使用urllib庫，這是python自帶的模塊。對于2.x版本中的urllib2庫，在python3.x中集成到urllib中，在其request等子模塊中。urllib中的urlopen函數(shù)用于打開url，并獲取url數(shù)據(jù)。urlopen函數(shù)的參數(shù)可以是url鏈接，也可以使request對象，對于簡單的網(wǎng)頁，直接使用url字符串做參數(shù)就已足夠，但對于復雜的網(wǎng)頁，設有防爬蟲機制的網(wǎng)頁，再使用urlopen函數(shù)時，需要添加http header。對于帶有登錄機制的網(wǎng)頁，需要設置cookie。

6、網(wǎng)頁解析器

網(wǎng)頁解析器從網(wǎng)頁下載器下載到的url數(shù)據(jù)中提取有價值的數(shù)據(jù)和新的url。對于數(shù)據(jù)的提取，可以使用正則表達式和BeautifulSoup等方法。正則表達式使用基于字符串的模糊匹配，對于特點比較鮮明的目標數(shù)據(jù)具有較好的作用，但通用性不高。BeautifulSoup是第三方模塊，用于結構化解析url內(nèi)容。將下載到的網(wǎng)頁內(nèi)容解析為DOM樹，下圖為使用BeautifulSoup打印抓取到的百度百科中某網(wǎng)頁的輸出的一部分。

關于BeautifulSoup的具體使用，在以后的文章中再寫。下面的代碼使用python抓取百度百科中英雄聯(lián)盟詞條中的其他與英雄聯(lián)盟相關的詞條，并將這些詞條保存在新建的excel中。上代碼：

from bs4 import BeautifulSoup 
import re 
import xlrd 
<span style="font-size:18px;">import xlwt 
from urllib.request import urlopen 
 
 
 
excelFile=xlwt.Workbook() 
sheet=excelFile.add_sheet('league of legend') 
## 百度百科：英雄聯(lián)盟## 
html=urlopen("http://baike.baidu.com/subview/3049782/11262116.htm") 
bsObj=BeautifulSoup(html.read(),"html.parser") 
#print(bsObj.prettify()) 
 
row=0 
 
for node in bsObj.find("div",{"class":"main-content"}).findAll("div",{"class":"para"}): 
  links=node.findAll("a",href=re.compile("^(/view/)[0-9]+\.htm$")) 
  for link in links: 
    if 'href' in link.attrs: 
      print(link.attrs['href'],link.get_text()) 
      sheet.write(row,0,link.attrs['href']) 
      sheet.write(row,1,link.get_text()) 
      row=row+1 
 
 
excelFile.save('E:\Project\Python\lol.xls')</span>

輸出的部分截圖如下：

excel部分的截圖如下：

以上就是本文的全部內(nèi)容，希望對大家學習Python網(wǎng)絡爬蟲有所幫助。

您可能感興趣的文章:

Python實現(xiàn)向QQ群成員自動發(fā)郵件的方法
這篇文章主要介紹了Python實現(xiàn)向QQ群成員自動發(fā)郵件的方法,通過讀取txt文本里的QQ成員數(shù)據(jù)再調(diào)用發(fā)送郵件函數(shù)實現(xiàn)該功能,是非常實用的技巧,需要的朋友可以參考下
2014-11-11
一文帶你梳理Python的中級知識
Python是一種高級編程語言，它在眾多編程語言中，擁有極高的人氣和使用率。本文主要帶大家梳理一下Python中常用的中級知識，希望對大家有所幫助
2023-04-04
Python使用ntplib庫同步校準當?shù)貢r間的方法
NTP網(wǎng)絡時間協(xié)議其實大家平時或多或少都能接觸到,包括Windows在內(nèi)的操作系統(tǒng)中的很多Internet時間同步功能都是在NTP的基礎上來做,這里我們來看一下Python使用ntplib庫同步校準當?shù)貢r間的方法
2016-07-07
Python中threading.Timer()定時器實現(xiàn)定時任務
本文主要介紹了Python中threading.Timer()定時器實現(xiàn)定時任務，文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值，需要的朋友們下面隨著小編來一起學習學習吧
2023-01-01
Python實現(xiàn)的密碼強度檢測器示例
這篇文章主要介紹了Python實現(xiàn)的密碼強度檢測器,結合實例形式分析了Python密碼強度檢測的原理與實現(xiàn)方法,涉及Python字符串運算與轉(zhuǎn)換、判斷等相關操作技巧,需要的朋友可以參考下
2017-08-08
python實現(xiàn)快速文件格式批量轉(zhuǎn)換的方法
這篇文章主要介紹了python實現(xiàn)快速文件格式批量轉(zhuǎn)換的方法,本文給大家介紹的非常詳細，對大家的學習或工作具有一定的參考借鑒價值，需要的朋友可以參考下
2020-10-10
簡單了解Python生成器是什么
這篇文章主要介紹了簡單了解Python生成器是什么，生成器就是一個在行為上和迭代器非常類似的對象，如果把迭代器比作 Android 系統(tǒng)，那么生成器就是 iOS，二者功能上差不多，但是生成器更優(yōu)雅,需要的朋友可以參考下
2019-07-07
Python?Celery定時任務詳細講解
這篇文章主要介紹了Python?Celery定時任務詳細講解，文章圍繞主題展開詳細的內(nèi)容介紹，具有一定的參考價值，需要的朋友可以參考一下
2022-08-08
Python 通過調(diào)用接口獲取公交信息的實例
今天小編就為大家分享一篇Python 通過調(diào)用接口獲取公交信息的實例，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2018-12-12
matplotlib設置坐標軸標簽和間距的實現(xiàn)
本文主要介紹了matplotlib設置坐標軸標簽和間距的實現(xiàn)，文中通過示例代碼介紹的非常詳細，具有一定的參考價值，感興趣的小伙伴們可以參考一下
2021-10-10