Python網(wǎng)絡(luò)爬蟲之獲取網(wǎng)絡(luò)數(shù)據(jù)
Python 語言的優(yōu)勢在于其功能強(qiáng)大,可以用于網(wǎng)絡(luò)數(shù)據(jù)采集、數(shù)據(jù)分析等各種應(yīng)用場景。本篇文章將介紹如何使用 Python 獲取網(wǎng)絡(luò)數(shù)據(jù)、使用 requests 庫、編寫爬蟲代碼以及使用 IP 代理。
使用 Python 獲取網(wǎng)絡(luò)數(shù)據(jù)
使用 Python 語言從互聯(lián)網(wǎng)上獲取數(shù)據(jù)是一項(xiàng)非常常見的任務(wù)。Python 有一個名為 requests 的庫,它是一個 Python 的 HTTP 客戶端庫,用于向 Web 服務(wù)器發(fā)起 HTTP 請求。
我們可以通過以下代碼使用 requests 庫向指定的 URL 發(fā)起 HTTP 請求:
import requests
response = requests.get('<http://www.example.com>')其中,response 對象將包含服務(wù)器返回的響應(yīng)。使用 response.text 可以獲取響應(yīng)的文本內(nèi)容。
此外,我們還可以使用以下代碼獲取二進(jìn)制資源:
import requests
response = requests.get('<http://www.example.com/image.png>')
with open('image.png', 'wb') as f:
f.write(response.content)使用 response.content 可以獲取服務(wù)器返回的二進(jìn)制數(shù)據(jù)。
編寫爬蟲代碼
爬蟲是一種自動化程序,可以通過網(wǎng)絡(luò)爬取網(wǎng)頁數(shù)據(jù),并將其存儲在數(shù)據(jù)庫或文件中。爬蟲在數(shù)據(jù)采集、信息監(jiān)控、內(nèi)容分析等領(lǐng)域有著廣泛的應(yīng)用。Python 語言是爬蟲編寫的常用語言,因?yàn)樗哂泻唵我讓W(xué)、代碼量少、庫豐富等優(yōu)點(diǎn)。
我們以“豆瓣電影”為例,介紹如何使用 Python 編寫爬蟲代碼。首先,我們使用 requests 庫獲取網(wǎng)頁的 HTML 代碼,然后將整個代碼看成一個長字符串,使用正則表達(dá)式的捕獲組從字符串提取需要的內(nèi)容。
豆瓣電影 Top250 頁面的地址是 https://movie.douban.com/top250?start=0,其中 start 參數(shù)表示從第幾個電影開始獲取。每頁共展示了 25 部電影,如果要獲取 Top250 數(shù)據(jù),我們共需要訪問 10 個頁面,對應(yīng)的地址是 https://movie.douban.com/top250?start=xxx,這里的 xxx 如果為 0 就是第一頁,如果 xxx 的值是 100,那么我們可以訪問到第五頁。
我們以獲取電影的標(biāo)題和評分為例,代碼如下所示:
import re
import requests
import time
import random
for page in range(1, 11):
resp = requests.get(
url=f'<https://movie.douban.com/top250?start=>{(page - 1) * 25}',
headers={'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36'}
)
# 通過正則表達(dá)式獲取class屬性為title且標(biāo)簽體不以&開頭的span標(biāo)簽并用捕獲組提取標(biāo)簽內(nèi)容
pattern1 = re.compile(r'<span class="title">([^&]*?)</span>')
titles = pattern1.findall(resp.text)
# 通過正則表達(dá)式獲取class屬性為rating_num的span標(biāo)簽并用捕獲組提取標(biāo)簽內(nèi)容
pattern2 = re.compile(r'<span class="rating_num".*?>(.*?)</span>')
ranks = pattern2.findall(resp.text)
# 使用zip壓縮兩個列表,循環(huán)遍歷所有的電影標(biāo)題和評分
for title, rank in zip(titles, ranks):
print(title, rank)
# 隨機(jī)休眠1-5秒,避免爬取頁面過于頻繁
time.sleep(random.random() * 4 + 1)在上述代碼中,我們通過正則表達(dá)式獲取標(biāo)簽體為標(biāo)題和評分的 span 標(biāo)簽,并用捕獲組提取標(biāo)簽內(nèi)容。使用 zip 壓縮兩個列表,循環(huán)遍歷所有電影標(biāo)題和評分。
使用 IP 代理
許多網(wǎng)站對爬蟲程序比較反感,因?yàn)榕老x程序會耗費(fèi)掉它們很多的網(wǎng)絡(luò)帶寬,并制造很多無效的流量。為了隱匿身份,通常需要使用 IP 代理來訪問網(wǎng)站。商業(yè) IP 代理(如蘑菇代理、芝麻代理、快代理等)是一個好的選擇,使用商業(yè) IP 代理可以讓被爬取的網(wǎng)站無法獲取爬蟲程序來源的真實(shí) IP 地址,從而無法簡單的通過 IP 地址對爬蟲程序進(jìn)行封禁。
以蘑菇代理為例,我們可以在該網(wǎng)站注冊一個賬號,然后購買相應(yīng)的套餐來獲得商業(yè) IP 代理。蘑菇代理提供了兩種接入代理的方式,分別是 API 私密代理和 HTTP 隧道代理,前者是通過請求蘑菇代理的 API 接口獲取代理服務(wù)器地址,后者是直接使用統(tǒng)一的代理服務(wù)器 IP 和端口。
使用 IP 代理的代碼如下所示:
import requests
proxies = {
'http': '<http://username:password@ip>:port',
'https': '<https://username:password@ip>:port'
}
response = requests.get('<http://www.example.com>', proxies=proxies)其中,username 和 password 分別是蘑菇代理賬號的用戶名和密碼,ip 和 port 分別是代理服務(wù)器的 IP 地址和端口號。注意,不同的代理提供商的接入方式可能不同,需要根據(jù)實(shí)際情況進(jìn)行相應(yīng)的修改。
總結(jié)
本文介紹了 Python 獲取網(wǎng)絡(luò)數(shù)據(jù)、使用 requests 庫、編寫爬蟲代碼以及使用 IP 代理的方法。Python 的 requests 庫非常方便,可以幫助我們快速訪問網(wǎng)絡(luò)資源。編寫爬蟲程序需要掌握正則表達(dá)式、HTTP 協(xié)議等知識,同時需要注意爬取速度和頻率,以避免對被爬取網(wǎng)站造成負(fù)擔(dān)。最后,使用 IP 代理可以幫助我們隱匿身份,保護(hù)我們的網(wǎng)絡(luò)安全。
到此這篇關(guān)于Python網(wǎng)絡(luò)爬蟲之獲取網(wǎng)絡(luò)數(shù)據(jù)的文章就介紹到這了,更多相關(guān)Python獲取網(wǎng)絡(luò)數(shù)據(jù)內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
關(guān)于Pycharm安裝第三方庫超時 Read time-out的問題
這篇文章主要介紹了關(guān)于Pycharm安裝第三方庫超時 Read time-out的問題, 找了幾個命令都不是很好用,最后找到解決的步驟,感興趣的朋友跟隨小編一起看看吧2021-10-10
python+pytest接口自動化參數(shù)關(guān)聯(lián)
這篇文章主要介紹了python+pytest接口自動化參數(shù)關(guān)聯(lián),參數(shù)關(guān)聯(lián),也叫接口關(guān)聯(lián),即接口之間存在參數(shù)的聯(lián)系或依賴,更多相關(guān)內(nèi)容需要的小伙伴可可以參考一下2022-06-06
TensorFlow打印tensor值的實(shí)現(xiàn)方法
今天小編就為大家分享一篇TensorFlow打印tensor值的實(shí)現(xiàn)方法,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-07-07
python 動態(tài)調(diào)用函數(shù)實(shí)例解析
這篇文章主要介紹了python 動態(tài)調(diào)用函數(shù)實(shí)例解析,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2019-10-10
python-itchat 獲取微信群用戶信息的實(shí)例
今天小編就為大家分享一篇python-itchat 獲取微信群用戶信息的實(shí)例,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-02-02

