python通過鏈接抓取網(wǎng)站詳解

更新時間：2019年11月20日 15:10:30 投稿：laozhang

在本篇文章里小編給大家整理的是關于python通過鏈接抓取網(wǎng)站的詳細方法和知識點，需要的朋友們學習下。

在本篇文章里，你將會學習把這些基本方法融合到一個更靈活的網(wǎng)站爬蟲中，該爬蟲可以跟蹤任意遵循特定 URL 模式的鏈接。

這種爬蟲非常適用于從一個網(wǎng)站抓取所有數(shù)據(jù)的項目，而不適用于從特定搜索結(jié)果或頁面列表抓取數(shù)據(jù)的項目。它還非常適用于網(wǎng)站頁面組織得很糟糕或者非常分散的情況。

這些類型的爬蟲并不需要像上一節(jié)通過搜索頁面進行抓取中采用的定位鏈接的結(jié)構(gòu)化方法，因此在 Website 對象中不需要包含描述搜索頁面的屬性。但是由于爬蟲并不知道待尋找的鏈接的位置，所以你需要一些規(guī)則來告訴它選擇哪種頁面。你可以用 targetPattern(目標 URL 的正則表達式）和布爾變量 absoluteUrl 來達成這一目標：

class Website:  
def __init__(self, name, url, targetPattern, absoluteUrl,    
titleTag, bodyTag):    
self.name = name    
self.url = url    
self.targetPattern = targetPattern    
self.absoluteUrl=absoluteUrl    
self.titleTag = titleTag    
self.bodyTag = bodyTag
class Content:  
def __init__(self, url, title, body):    
self.url = url    
self.title = title    
self.body = body
def print(self):    
print("URL: {}".format(self.url))    
print("TITLE: {}".format(self.title))    
print("BODY:\n{}".format(self.body))

Content 類和第一個爬蟲例子中使用的是一樣的。

Crawler 類從每個網(wǎng)站的主頁開始，定位內(nèi)鏈，并解析在每個內(nèi)鏈頁面發(fā)現(xiàn)的內(nèi)容：

import re
class Crawler:  
def __init__(self, site):    
self.site = site    
self.visited = []
def getPage(self, url):    
try:
req = requests.get(url)    
except requests.exceptions.RequestException:      
return None
return BeautifulSoup(req.text, 'html.parser')
def safeGet(self, pageObj, selector):
selectedElems = pageObj.select(selector)
if selectedElems is not None and len(selectedElems) > 0:
return '\n'.join([elem.get_text() for
elem in selectedElems])
return ''
def parse(self, url):
bs = self.getPage(url)
if bs is not None:
title = self.safeGet(bs, self.site.titleTag)
body = self.safeGet(bs, self.site.bodyTag)
if title != '' and body != '':
content = Content(url, title, body)
content.print()
def crawl(self):
"""
獲取網(wǎng)站主頁的頁面鏈接
"""
bs = self.getPage(self.site.url)
targetPages = bs.findAll('a',
href=re.compile(self.site.targetPattern))
for targetPage in targetPages:
targetPage = targetPage.attrs['href']
if targetPage not in self.visited:
self.visited.append(targetPage)
if not self.site.absoluteUrl:
targetPage = '{}{}'.format(self.site.url, targetPage)
self.parse(targetPage)
reuters = Website('Reuters', 'https://www.reuters.com', '^(/article/)', False,
'h1', 'div.StandardArticleBody_body_1gnLA') 
crawler = Crawler(reuters) 
crawler.crawl()

與前面的例子相比，這里的另外一個變化是：Website 對象（在這個例子中是變量 reuters）是 Crawler 對象本身的一個屬性。這樣做的作用是將已訪問過的頁面存儲在爬蟲中，但是也意味著必須針對每個網(wǎng)站實例化一個新的爬蟲，而不是重用一個爬蟲去抓取網(wǎng)站列表。

不管你是選擇一個與網(wǎng)站無關的爬蟲，還是將網(wǎng)站作為爬蟲的一個屬性，這都是一個需要根據(jù)自身需求進行權衡的決定。兩種方法在功能實現(xiàn)上都是沒有問題的。

另外需要注意的是，這個爬蟲會從主頁開始抓取，但是在所有頁面都被記錄后，就不會繼續(xù)抓取了。你可能希望編寫一個爬蟲，將第 3 章中介紹的某種模式融合進來，然后查看所訪問的每個頁面中更多的目標 URL。你甚至還可以跟蹤每個頁面中涉及的所有 URL（不僅僅是匹配目標模式的 URL），然后查看這些 URL 是否包含目標模式。

以上就是關于python抓取網(wǎng)站的相關知識點內(nèi)容，感謝大家的學習和對腳本之家的支持。

您可能感興趣的文章:

python修改list中所有元素類型的三種方法
下面小編就為大家分享一篇python修改list中所有元素類型的三種方法，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2018-04-04
django2.2安裝錯誤最全的解決方案(小結(jié))
這篇文章主要介紹了django2.2安裝錯誤最全的解決方案(小結(jié))，文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值，需要的朋友們下面隨著小編來一起學習學習吧
2019-09-09
Python字符串的基本操作方法(非常詳細)
字符串是python中最常見的數(shù)據(jù)類型,創(chuàng)建字符串只需用引號括起來分配給一個變量即可,這篇文章主要給大家介紹了關于Python字符串的基本操作方法的相關資料,文中通過圖文介紹的非常詳細,需要的朋友可以參考下
2023-11-11
使用Python畫了一棵圣誕樹的實例代碼
這篇文章主要介紹了使用Python畫了一棵圣誕樹的實例代碼,本文通過實例代碼給大家介紹的非常詳細，對大家的學習或工作具有一定的參考借鑒價值，需要的朋友可以參考下
2020-11-11
Python根據(jù)區(qū)號生成手機號碼的方法
這篇文章主要介紹了Python根據(jù)區(qū)號生成手機號碼的方法,涉及Python隨機數(shù)與字符串的相關操作技巧,需要的朋友可以參考下
2015-07-07
Python序列對象與String類型內(nèi)置方法詳解
這篇文章主要介紹了Python序列對象與String類型內(nèi)置方法,結(jié)合實例形式分析了Python序列對象與String類型各種常見內(nèi)置方法相關使用技巧及操作注意事項,需要的朋友可以參考下
2019-10-10
Python NumPy實現(xiàn)數(shù)組搜索示例詳解
NumPy是一個開源的Python科學計算庫，使用NumPy可以很自然地使用數(shù)組和矩陣，這篇文章主要介紹了使用NumPy實現(xiàn)數(shù)組搜索，文中通過示例代碼介紹的非常詳細，需要的朋友們下面隨著小編來一起學習吧
2023-05-05
Python數(shù)據(jù)分析之真實IP請求Pandas詳解
這篇文章主要給大家介紹了Python數(shù)據(jù)分析之真實IP請求Pandas，文中通過示例嗲嗎給大家介紹的很詳細，相信對大家的學習或者理解具有一定的參考借鑒價值，有需要的朋友們可以參考借鑒，下面來一起學習學習吧。
2016-11-11
python游戲地圖最短路徑求解
這篇文章主要為大家詳細介紹了python游戲地圖最短路徑的求解，具有一定的參考價值，感興趣的小伙伴們可以參考一下
2019-01-01
Python利用Selenium實現(xiàn)自動觀看學習通視頻
Selenium是一個用于Web應用程序測試的工具。Selenium測試直接運行在瀏覽器中，就像真正的用戶在操作一樣。本文主要介紹了利用Selenium實現(xiàn)自動觀看學習通視頻，需要的同學可以參考一下
2021-12-12