python數(shù)據(jù)抓取3種方法總結(jié)

更新時(shí)間：2021年02月07日 12:16:01 作者：呵呵樣

這篇文章主要給大家介紹了關(guān)于python數(shù)據(jù)抓取的3種方法，文中通過(guò)示例代碼介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧

三種數(shù)據(jù)抓取的方法

正則表達(dá)式（re庫(kù)）
BeautifulSoup（bs4）
lxml

*利用之前構(gòu)建的下載網(wǎng)頁(yè)函數(shù)，獲取目標(biāo)網(wǎng)頁(yè)的html，我們以https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/為例，獲取html。

from get_html import download

url = 'https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/'
page_content = download(url)

*假設(shè)我們需要爬取該網(wǎng)頁(yè)中的國(guó)家名稱(chēng)和概況，我們依次使用這三種數(shù)據(jù)抓取的方法實(shí)現(xiàn)數(shù)據(jù)抓取。

1.正則表達(dá)式

from get_html import download
import re

url = 'https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/'
page_content = download(url)
country = re.findall('class="h2dabiaoti">(.*?)</h2>', page_content) #注意返回的是list
survey_data = re.findall('<tr><td bgcolor="#FFFFFF" id="wzneirong">(.*?)</td></tr>', page_content)
survey_info_list = re.findall('<p>　　(.*?)</p>', survey_data[0])
survey_info = ''.join(survey_info_list)
print(country[0],survey_info)

2.BeautifulSoup（bs4）

from get_html import download
from bs4 import BeautifulSoup

url = 'https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/'
html = download(url)
#創(chuàng)建 beautifulsoup 對(duì)象
soup = BeautifulSoup(html,"html.parser")
#搜索
country = soup.find(attrs={'class':'h2dabiaoti'}).text
survey_info = soup.find(attrs={'id':'wzneirong'}).text
print(country,survey_info)

3.lxml

from get_html import download
from lxml import etree #解析樹(shù)

url = 'https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/'
page_content = download(url)
selector = etree.HTML(page_content)#可進(jìn)行xpath解析
country_select = selector.xpath('//*[@id="main_content"]/h2') #返回列表
for country in country_select:
 print(country.text)
survey_select = selector.xpath('//*[@id="wzneirong"]/p')
for survey_content in survey_select:
 print(survey_content.text,end='')

運(yùn)行結(jié)果：

最后，引用《用python寫(xiě)網(wǎng)絡(luò)爬蟲(chóng)》中對(duì)三種方法的性能對(duì)比，如下圖：

僅供參考。

總結(jié)

到此這篇關(guān)于python數(shù)據(jù)抓取3種方法的文章就介紹到這了,更多相關(guān)python數(shù)據(jù)抓取內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

相關(guān)文章

Python使用xlrd模塊操作Excel數(shù)據(jù)導(dǎo)入的方法
這篇文章主要介紹了Python使用xlrd模塊操作Excel數(shù)據(jù)導(dǎo)入的方法,涉及Python操作xlrd模塊的技巧,需要的朋友可以參考下
2015-05-05
使用gunicorn部署django項(xiàng)目的問(wèn)題
這篇文章主要介紹了使用gunicorn部署django項(xiàng)目,本文給大家介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值，需要的朋友可以參考下
2020-12-12
關(guān)于python返回值return用法詳解
這篇文章主要介紹了python中的return關(guān)鍵字,包括其含義、作用、默認(rèn)返回值、不同整數(shù)值的含義、返回值的類(lèi)型、函數(shù)作為參數(shù)傳遞以及在類(lèi)方法中的特殊情況,需要的朋友可以參考下
2024-12-12
Python把png轉(zhuǎn)成jpg的項(xiàng)目實(shí)踐
本文主要介紹了Python把png轉(zhuǎn)成jpg的項(xiàng)目實(shí)踐,可以使用PIL庫(kù)來(lái)將PNG圖片轉(zhuǎn)換為JPG格式,具有一定的參考價(jià)值,感興趣的可以了解一下
2024-02-02
Python輕松查找文本文件最熱門(mén)單詞技巧
本文將從文件讀取、文本預(yù)處理到單詞頻率統(tǒng)計(jì),以及性能優(yōu)化和數(shù)據(jù)可視化等方面逐步展開(kāi),為你呈現(xiàn)一場(chǎng)深入學(xué)習(xí)的旅程,讓我們一同探索如何用代碼揭示文字中的故事,發(fā)現(xiàn)其中隱藏的信息,從而更好地理解和利用這個(gè)數(shù)字化時(shí)代的寶藏
2024-01-01
python Django的顯示個(gè)人信息詳解
這篇文章主要介紹了在Python的Django的顯示個(gè)人信息方法,需要的朋友可以參考下，希望能夠給你帶來(lái)幫助
2021-09-09
Python struct模塊解析
我們知道python只定義了6種數(shù)據(jù)類(lèi)型，字符串，整數(shù)，浮點(diǎn)數(shù)，列表，元組，字典。但是C語(yǔ)言中有些字節(jié)型的變量，在python中該如何實(shí)現(xiàn)呢？這點(diǎn)頗為重要，特別是要在網(wǎng)絡(luò)上進(jìn)行數(shù)據(jù)傳輸?shù)脑挕?/div> 2014-06-06
Django Highcharts制作圖表
Highcharts圖表控件是目前使用最為廣泛的圖表控件 ,是純JS圖表庫(kù)。這篇文章主要介紹了Django Highcharts制作圖表的相關(guān)資料，非常的詳細(xì)，有需要的小伙伴可以來(lái)參考下
2016-08-08
Python中input和raw_input的一點(diǎn)區(qū)別
這篇文章主要介紹了Python中input和raw_input的一點(diǎn)區(qū)別,它們都是用來(lái)讀取控制臺(tái)輸入的函數(shù),需要的朋友可以參考下
2014-10-10
Python 一行代碼能實(shí)現(xiàn)喪心病狂的功能
這篇文章主要介紹了Python 一行代碼能實(shí)現(xiàn)喪心病狂的功能,需要的朋友可以參考下
2020-01-01