python3 xpath和requests應(yīng)用詳解
根據(jù)一個(gè)爬取豆瓣電影排名的小應(yīng)用,來簡單使用etree和request庫。
etree使用xpath語法。
import requests
import ssl
from lxml import etree
ssl._create_default_https_context = ssl._create_unverified_context
session = requests.Session()
for id in range(0, 251, 25):
URL = 'https://movie.douban.com/top250/?start=' + str(id)
req = session.get(URL)
# 設(shè)置網(wǎng)頁編碼格式
req.encoding = 'utf8'
# 將request.content 轉(zhuǎn)化為 Element
root = etree.HTML(req.content)
# 選取 ol/li/div[@class="item"] 不管它們?cè)谖臋n中的位置
items = root.xpath('//ol/li/div[@class="item"]')
for item in items:
# 注意可能只有中文名,沒有英文名;可能沒有quote簡評(píng)
rank, name, alias, rating_num, quote, url = "", "", "", "", "", ""
try:
url = item.xpath('./div[@class="pic"]/a/@href')[0]
rank = item.xpath('./div[@class="pic"]/em/text()')[0]
title = item.xpath('./div[@class="info"]//a/span[@class="title"]/text()')
name = title[0].encode('gb2312', 'ignore').decode('gb2312')
alias = title[1].encode('gb2312', 'ignore').decode('gb2312') if len(title) == 2 else ""
rating_num = item.xpath('.//div[@class="bd"]//span[@class="rating_num"]/text()')[0]
quote_tag = item.xpath('.//div[@class="bd"]//span[@class="inq"]')
if len(quote_tag) is not 0:
quote = quote_tag[0].text.encode('gb2312', 'ignore').decode('gb2312').replace('\xa0', '')
# 輸出 排名,評(píng)分,簡介
print(rank, rating_num, quote)
# 輸出 中文名,英文名
print(name.encode('gb2312', 'ignore').decode('gb2312'),
alias.encode('gb2312', 'ignore').decode('gb2312').replace('/', ','))
except:
print('faild!')
pass
程序運(yùn)行結(jié)果:

補(bǔ)充知識(shí):requests抓取以及Xpath解析
代碼:
# requests抓取
import requests
# 新浪新聞的一篇新聞的url
url = 'http://news.sina.com.cn/s/2018-05-09/doc-ihaichqz1009657.shtml'
res = requests.get(url)
# 查看編碼方式
enconding = requests.utils.get_encodings_from_content(res.text)
#print(enconding)
# 打印網(wǎng)頁內(nèi)容
html_doc = res.content.decode("utf-8")
print(html_doc[:500])
# 保存網(wǎng)頁內(nèi)容
with open('test.html', 'w') as f:
f.write(html_doc)
運(yùn)行結(jié)果:
<!DOCTYPE html> <!-- [ published at 2018-05-09 18:23:13 ] --> <!-- LLTJ_MT:name ="澎湃新聞" --> <html> <head> <meta charset="utf-8"/> <meta http-equiv="Content-type" content="text/html; charset=utf-8" /> <meta name="sudameta" content="urlpath:s/; allCIDs:51924,257,51895,200856,56264,258,38790"> <title>小學(xué)老師罰學(xué)生赤腳跑操場 官方:將按規(guī)定處理|赤腳|學(xué)生|華龍網(wǎng)_新浪新聞</title> <meta name="keywords" content="赤腳,學(xué)生,華龍網(wǎng)" /> <meta name="tags" content="赤腳,學(xué)生,華龍網(wǎng)" /> <meta name="description" content="原標(biāo)題:潼南一小學(xué)體育老師罰學(xué)生赤腳跑操場續(xù):區(qū)教委向華龍網(wǎng)發(fā)來情況
代碼:
# xpath解析
from lxml import etree
# 建立html的樹
tree = etree.HTML(html_doc)
# 設(shè)置目標(biāo)路徑(標(biāo)題)
path_title = '/html/body//h1[@class="main-title"]//text()'
# 提取節(jié)點(diǎn)
node_title = tree.xpath(path_title)
print("===" * 20)
print(node_title[0])
# 設(shè)置內(nèi)容路徑
path_content = '//div[@class="article-content-left"]//div[@id="article"]//text()'
# 提取節(jié)點(diǎn)
node_content = tree.xpath(path_content)
print("===" * 20)
print("。".join(node_content))
運(yùn)行結(jié)果:
============================================================ 小學(xué)老師罰學(xué)生赤腳跑操場 官方:將按規(guī)定處理 ============================================================ 。 原標(biāo)題:潼南一小學(xué)體育老師罰學(xué)生赤腳跑操場續(xù):區(qū)教委向華龍網(wǎng)發(fā)來情況說明。 ?! ≈貞c客戶端-華龍網(wǎng)5月9日消息,這兩天,重慶潼南區(qū)朝陽小學(xué)二年級(jí)6班不少家長心疼不已,因?yàn)槎鄠€(gè)娃兒腳底被磨出了泡。一問才知道,是因?yàn)橛行W(xué)生體育課上沒穿運(yùn)動(dòng)鞋,被體育老師要求赤腳在操場上跑步。收到重慶網(wǎng)絡(luò)問政平臺(tái)這一投訴后,華龍網(wǎng)記者立即進(jìn)行了調(diào)查。今(9)日,華龍網(wǎng)發(fā)布了?!吨貞c潼南一小學(xué)體育老師罰學(xué)生赤腳跑操場腳底磨出泡當(dāng)?shù)亟涛槿搿?。?bào)道后,潼南教委高度重視并給華龍網(wǎng)傳來官方的情況說明。。 ?!?。 [說明全文]。 ?! £P(guān)于家長在華龍網(wǎng)投訴教師上體育課體罰學(xué)生的情況說明。 ?! ′蠀^(qū)朝陽小學(xué)體育教師鄒老師于2018年5月7日上午上體育課時(shí),發(fā)現(xiàn)該班有少部分名學(xué)生未按體育課的要求穿運(yùn)動(dòng)鞋。該教師認(rèn)為,穿著涼鞋跑步對(duì)學(xué)生本人及他人存在安全隱患,塑膠跑道不會(huì)對(duì)學(xué)生光腳運(yùn)動(dòng)造成影響,于是就叫未穿運(yùn)動(dòng)鞋的學(xué)生,脫掉涼鞋進(jìn)行隨班熱身跑步。當(dāng)時(shí)鄒老師未發(fā)現(xiàn)學(xué)生有異常情況,也未接到學(xué)生有異常情況的反映。后經(jīng)家長反映到學(xué)校,有極少數(shù)光著腳跑步的學(xué)生有異常情況,學(xué)校庚即與部分家長進(jìn)行了溝通,并及時(shí)調(diào)查了解了此事,并對(duì)該教師這種不恰當(dāng)教學(xué)方法進(jìn)行了批評(píng)教育,我們將按相關(guān)規(guī)定對(duì)該教師作出相應(yīng)的處理。。 ?! ≈貞c市潼南區(qū)教育委員會(huì)。 。 2018年5月9日。 。 來源:華龍網(wǎng)。 。責(zé)任編輯:張義凌 。
以上這篇python3 xpath和requests應(yīng)用詳解就是小編分享給大家的全部內(nèi)容了,希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。
- python中requests庫+xpath+lxml簡單使用
- python使用XPath解析數(shù)據(jù)爬取起點(diǎn)小說網(wǎng)數(shù)據(jù)
- python 網(wǎng)頁解析器掌握第三方 lxml 擴(kuò)展庫與 xpath 的使用方法
- python利用xpath爬取網(wǎng)上數(shù)據(jù)并存儲(chǔ)到django模型中
- Python Selenium XPath根據(jù)文本內(nèi)容查找元素的方法
- python Xpath語法的使用
- python3顯式變量類型typing的實(shí)現(xiàn)
- Python使用xpath實(shí)現(xiàn)圖片爬取
- 利用Python中的Xpath實(shí)現(xiàn)一個(gè)在線匯率轉(zhuǎn)換器
- python selenium xpath定位操作
- Python xpath表達(dá)式如何實(shí)現(xiàn)數(shù)據(jù)處理
- Python利用Xpath選擇器爬取京東網(wǎng)商品信息
- Python使用requests xpath 并開啟多線程爬取西刺代理ip實(shí)例
- Python3 xml.etree.ElementTree支持的XPath語法詳解
- python-xpath獲取html文檔的部分內(nèi)容
- 關(guān)于python中的xpath解析定位
- python定位xpath 節(jié)點(diǎn)位置的方法
- Python自動(dòng)化之定位方法大殺器xpath
相關(guān)文章
Python執(zhí)行外部命令subprocess的使用詳解
subeprocess模塊是python自帶的模塊,無需安裝,主要用來取代一些就的模塊或方法,本文通過實(shí)例代碼給大家分享Python執(zhí)行外部命令subprocess及使用方法,感興趣的朋友跟隨小編一起看看吧2021-05-05
基于Python實(shí)現(xiàn)報(bào)表自動(dòng)化并發(fā)送到郵箱
作為數(shù)據(jù)分析師,我們需要經(jīng)常制作統(tǒng)計(jì)分析圖表。但是報(bào)表太多的時(shí)候往往需要花費(fèi)我們大部分時(shí)間去制作報(bào)表。本文將利用Python實(shí)現(xiàn)報(bào)表自動(dòng)化并發(fā)送到郵箱,需要的可以參考一下2022-07-07
使用Python可設(shè)置抽獎(jiǎng)?wù)邫?quán)重的抽獎(jiǎng)腳本代碼
這篇文章主要介紹了Python可設(shè)置抽獎(jiǎng)?wù)邫?quán)重的抽獎(jiǎng)腳本,抽獎(jiǎng)系統(tǒng)包含可給不同抽獎(jiǎng)?wù)咴O(shè)置不同的權(quán)重,先從價(jià)值高的獎(jiǎng)品開始抽,已經(jīng)中獎(jiǎng)的人,不再參與后續(xù)的抽獎(jiǎng),本文通過實(shí)例代碼給大家介紹的非常詳細(xì),需要的朋友可以參考下2022-11-11
Python button選取本地圖片并顯示的實(shí)例
今天小編就為大家分享一篇Python button選取本地圖片并顯示的實(shí)例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2019-06-06
Python利用docx模塊實(shí)現(xiàn)快速操作word文件
這篇文章主要為大家詳細(xì)介紹了Python如何利用docx模塊實(shí)現(xiàn)快速操作word文件,文中的示例代碼講解詳細(xì),感興趣的小伙伴可以跟隨小編一起學(xué)習(xí)一下2022-09-09
Python中np.random.randint()參數(shù)詳解及用法實(shí)例
numpy.random.randint()函數(shù)不僅可以生成一維隨機(jī)數(shù)組,也可以生成多維度的隨機(jī)數(shù)組,下面這篇文章主要給大家介紹了關(guān)于Python中np.random.randint()參數(shù)詳解及用法的相關(guān)資料,需要的朋友可以參考下2022-09-09
用python3 urllib破解有道翻譯反爬蟲機(jī)制詳解
這篇文章主要介紹了python破解網(wǎng)易反爬蟲機(jī)制詳解,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2019-08-08

