Python爬蟲(chóng)beautifulsoup4常用的解析方法總結(jié)
摘要
- 如何用beautifulsoup4解析各種情況的網(wǎng)頁(yè)
beautifulsoup4的使用
關(guān)于beautifulsoup4,官網(wǎng)已經(jīng)講的很詳細(xì)了,我這里就把一些常用的解析方法做個(gè)總結(jié),方便查閱。
裝載html文檔
使用beautifulsoup的第一步是把html文檔裝載到beautifulsoup中,使其形成一個(gè)beautifulsoup對(duì)象。
import requests from bs4 import BeautifulSoup url = "http://new.qq.com/omn/20180705/20180705A0920X.html" r = requests.get(url) htmls = r.text #print(htmls) soup = BeautifulSoup(htmls, 'html.parser')
初始化BeautifulSoup類時(shí),需要加入兩個(gè)參數(shù),第一個(gè)參數(shù)即是我們爬到html源碼,第二個(gè)參數(shù)是html解析器,常用的有三個(gè)解析器,分別是”html.parser”,”lxml”,”html5lib”,官網(wǎng)推薦用lxml,因?yàn)樾矢撸?dāng)然需要pip install lxml一下。
當(dāng)然這三種解析方式在某些情況解析得到的對(duì)象內(nèi)容是不同的,比如對(duì)于標(biāo)簽不完整這一情況(p標(biāo)簽只有一半):
soup = BeautifulSoup("<a></p>", "html.parser")
# 只有起始標(biāo)簽的會(huì)自動(dòng)補(bǔ)全,只有結(jié)束標(biāo)簽的灰自動(dòng)忽略
# 結(jié)果為:<a></a>
soup = BeautifulSoup("<a></p>", "lxml")
#結(jié)果為:<html><body><a></a></body></html>
soup = BeautifulSoup("<a></p>", "html5lib")
# html5lib則出現(xiàn)一般的標(biāo)簽都會(huì)自動(dòng)補(bǔ)全
# 結(jié)果為:<html><head></head><body><a><p></p></a></body></html>
使用
在使用中,我盡量按照我使用的頻率介紹,畢竟為了查閱~
- 按照標(biāo)簽名稱、id、class等信息獲取某個(gè)標(biāo)簽
html = '<p class="title" id="p1"><b>The Dormouses story</b></p>'
soup = BeautifulSoup(html, 'lxml')
#根據(jù)class的名稱獲取p標(biāo)簽內(nèi)的所有內(nèi)容
soup.find(class_="title")
#或者
soup.find("p",class_="title" id = "p1")
#獲取class為title的p標(biāo)簽的文本內(nèi)容"The Dormouse's story"
soup.find(class_="title").get_text()
#獲取文本內(nèi)容時(shí)可以指定不同標(biāo)簽之間的分隔符,也可以選擇是否去掉前后的空白。
soup = BeautifulSoup('<p class="title" id="p1"><b> The Dormouses story </b></p><p class="title" id="p1"><b>The Dormouses story</b></p>', "html5lib")
soup.find(class_="title").get_text("|", strip=True)
#結(jié)果為:The Dormouses story|The Dormouses story
#獲取class為title的p標(biāo)簽的id
soup.find(class_="title").get("id")
#對(duì)class名稱正則:
soup.find_all(class_=re.compile("tit"))
#recursive參數(shù),recursive=False時(shí),只find當(dāng)前標(biāo)簽的第一級(jí)子標(biāo)簽的數(shù)據(jù)
soup = BeautifulSoup('<html><head><title>abc','lxml')
soup.html.find_all("title", recursive=False)
- 按照標(biāo)簽名稱、id、class等信息獲取多個(gè)標(biāo)簽
soup = BeautifulSoup('<p class="title" id="p1"><b> The like story </b></p><p class="title" id="p1"><b>The Dormouses story</b></p>', "html5lib")
#獲取所有class為title的標(biāo)簽
for i in soup.find_all(class_="title"):
print(i.get_text())
#獲取特定數(shù)量的class為title的標(biāo)簽
for i in soup.find_all(class_="title",limit = 2):
print(i.get_text())
- 按照標(biāo)簽的其他屬性獲取某個(gè)標(biāo)簽
html = '<a alog-action="qb-ask-uname" href="/usercent" rel="external nofollow" target="_blank">蝸牛宋</a>'
soup = BeautifulSoup(html, 'lxml')
# 獲取"蝸牛宋",此時(shí),該標(biāo)簽里既沒(méi)有class也沒(méi)有id,需要根據(jù)其屬性來(lái)定義獲取規(guī)則
author = soup.find('a',{"alog-action":"qb-ask-uname"}).get_text()
#或
author = soup.find(attrs={"alog-action": "qb-ask-uname"})
- 找前頭和后頭的標(biāo)簽
soup.find_all_previous("p")
soup.find_previous("p")
soup.find_all_next("p")
soup.find_next("p")
- 找父標(biāo)簽
soup.find_parents("div")
soup.find_parent("div")
- css選擇器
soup.select("title") #標(biāo)簽名
soup.select("html head title") #多級(jí)標(biāo)簽名
soup.select("p > a") #p內(nèi)的所有a標(biāo)簽
soup.select("p > #link1") #P標(biāo)簽內(nèi),按id查標(biāo)簽
soup.select("#link1 ~ .sister") #查找相同class的兄弟節(jié)點(diǎn)
soup.select("#link1 + .sister")
soup.select(".sister") #按class名稱查
soup.select("#sister") #按id名稱查
soup.select('a[ rel="external nofollow" ]') # 按標(biāo)簽的屬性查
soup.select('a[href$="tillie"]')
soup.select_one(".sister")
注意幾個(gè)可能出現(xiàn)的錯(cuò)誤,可以用try捕獲來(lái)防止爬蟲(chóng)進(jìn)程
- UnicodeEncodeError: ‘charmap' codec can't encode character u'\xfoo' in position bar (或其它類型的 UnicodeEncodeError
需要轉(zhuǎn)碼
- AttributeError: ‘NoneType' object has no attribute ‘foo'
沒(méi)這個(gè)屬性
就介紹這么多,應(yīng)該可以覆蓋大部分網(wǎng)頁(yè)結(jié)構(gòu)了吧~!
總結(jié)
以上就是這篇文章的全部?jī)?nèi)容了,希望本文的內(nèi)容對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,謝謝大家對(duì)腳本之家的支持。如果你想了解更多相關(guān)內(nèi)容請(qǐng)查看下面相關(guān)鏈接
- python3第三方爬蟲(chóng)庫(kù)BeautifulSoup4安裝教程
- python3解析庫(kù)BeautifulSoup4的安裝配置與基本用法
- Python爬蟲(chóng)實(shí)現(xiàn)使用beautifulSoup4爬取名言網(wǎng)功能案例
- python使用beautifulsoup4爬取酷狗音樂(lè)代碼實(shí)例
- Selenium結(jié)合BeautifulSoup4編寫(xiě)簡(jiǎn)單的python爬蟲(chóng)
- python爬蟲(chóng)學(xué)習(xí)筆記--BeautifulSoup4庫(kù)的使用詳解
- python?beautifulsoup4?模塊詳情
相關(guān)文章
Python使用切片移動(dòng)元素位置的代碼實(shí)踐
在 Python 中,切片是指從序列類型(如列表、字符串、元組等)中提取子序列的過(guò)程,切片可以用來(lái)快速獲取列表的一部分也可以用于反轉(zhuǎn)列表,本文小編給大家介紹了Python使用切片移動(dòng)元素位置的代碼實(shí)踐,需要的朋友可以參考下2024-09-09
棧和隊(duì)列數(shù)據(jù)結(jié)構(gòu)的基本概念及其相關(guān)的Python實(shí)現(xiàn)
這篇文章主要介紹了棧和隊(duì)列數(shù)據(jù)結(jié)構(gòu)的基本概念及其相關(guān)的Python實(shí)現(xiàn),先進(jìn)先出和后進(jìn)先出的知識(shí)也已經(jīng)成為了計(jì)算機(jī)學(xué)習(xí)中的老生常談了:D需要的朋友可以參考下2015-08-08
python實(shí)現(xiàn)決策樹(shù)分類算法
這篇文章主要為大家詳細(xì)介紹了python實(shí)現(xiàn)決策樹(shù)分類算法,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2017-12-12
Python實(shí)現(xiàn)為圖片批量添加隨機(jī)水印
這篇文章主要為大家詳細(xì)介紹了如何使用Python實(shí)現(xiàn)為圖片批量添加隨機(jī)水印,文中的示例代碼講解詳細(xì),感興趣的小伙伴可以跟隨小編一起學(xué)習(xí)一下2023-11-11
Python softmax實(shí)現(xiàn)及數(shù)值穩(wěn)定性詳解
這篇文章主要為大家介紹了Python softmax實(shí)現(xiàn)及數(shù)值穩(wěn)定性詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2023-07-07
Pytorch中expand()的使用(擴(kuò)展某個(gè)維度)
這篇文章主要介紹了Pytorch中expand()的使用(擴(kuò)展某個(gè)維度),具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2022-07-07
Python實(shí)現(xiàn)將多個(gè)文件的名稱或后綴名由大寫(xiě)改為小寫(xiě)
這篇文章主要介紹了如何基于Python語(yǔ)言實(shí)現(xiàn)將多個(gè)文件的名稱或后綴名由大寫(xiě)字母修改為小寫(xiě),文中的示例代碼講解詳細(xì),感興趣的可以了解下2023-09-09

