Python爬蟲庫BeautifulSoup獲取對象(標簽)名,屬性,內(nèi)容,注釋

更新時間：2020年01月25日 15:56:40 作者：BQW_

如何利用Python爬蟲庫BeautifulSoup獲取對象(標簽)名,屬性,內(nèi)容,注釋等操作下面就為大家介紹一下

一、Tag(標簽)對象

1.Tag對象與XML或HTML原生文檔中的tag相同。

from bs4 import BeautifulSoup
soup = BeautifulSoup('<b class="boldest">Extremely bold</b>','lxml')
tag = soup.b
type(tag)

bs4.element.Tag

2.Tag的Name屬性

每個tag都有自己的名字，通過.name來獲取

tag.name

'b'

tag.name = "blockquote" # 對原始文檔進行修改
tag

<blockquote class="boldest">Extremely bold</blockquote>

3.Tag的Attributes屬性

獲取單個屬性

tag['class']

['boldest']

按字典的方式獲取全部屬性

tag.attrs

{'class': ['boldest']}

添加屬性

tag['class'] = 'verybold'
tag['id'] = 1
print(tag)

<blockquote class="verybold" id="1">Extremely bold</blockquote>

刪除屬性

del tag['class']
del tag['id']
tag

<blockquote>Extremely bold</blockquote>

4.Tag的多值屬性

多值屬性會返回一個列表

css_soup = BeautifulSoup('<p class="body strikeout"></p>','lxml')
print(css_soup.p['class'])

['body', 'strikeout']

rel_soup = BeautifulSoup('<p>Back to the <a rel="index">homepage</a></p>','lxml')
print(rel_soup.a['rel'])
rel_soup.a['rel'] = ['index', 'contents']
print(rel_soup.p)

['index']
<p>Back to the <a rel="index contents">homepage</a></p>

如果轉(zhuǎn)換的文檔是XML格式，那么tag中不包含多值屬性

xml_soup = BeautifulSoup('<p class="body strikeout"></p>', 'xml')
xml_soup.p['class']

'body strikeout'

二、可遍歷字符串(NavigableString)

1.字符串常被包含在tag內(nèi)，使用NavigableString類來包裝tag中的字符串

from bs4 import BeautifulSoup
soup = BeautifulSoup('<b class="boldest">Extremely bold</b>','lxml')
tag = soup.b
print(tag.string)
print(type(tag.string))

Extremely bold
<class 'bs4.element.NavigableString'>

2.一個 NavigableString 字符串與Python中的str字符串相同，通過str() 方法可以直接將 NavigableString 對象轉(zhuǎn)換成str字符串

unicode_string = str(tag.string)
print(unicode_string)
print(type(unicode_string))

Extremely bold
<class 'str'>

3.tag中包含的字符串不能編輯,但是可以被替換成其它的字符串,用 replace_with() 方法

tag.string.replace_with("No longer bold")
tag

<b class="boldest">No longer bold</b>

三、BeautifulSoup對象 BeautifulSoup 對象表示的是一個文檔的全部內(nèi)容。

大部分時候,可以把它當作 Tag 對象,它支持遍歷文檔樹和搜索文檔樹中描述的大部分的方法。

四、注釋與特殊字符串(Comment)對象

markup = "<b><!--Hey, buddy. Want to buy a used parser?--></b>"
soup = BeautifulSoup(markup,'lxml')
comment = soup.b.string
type(comment)

bs4.element.Comment

Comment 對象是一個特殊類型的 NavigableString 對象

comment

'Hey, buddy. Want to buy a used parser?'

更多關于Python爬蟲庫BeautifulSoup的使用方法請查看下面的相關鏈接

您可能感興趣的文章:

跟老齊學Python之for循環(huán)語句
看這個標題，有點匪夷所思嗎？為什么for是難以想象的呢？因為在python中，它的確是很常用而且很強悍，強悍到以至于另外一個被稱之為迭代的東西，在python中就有點相形見絀了。在別的語言中，for的地位從來沒有如同python中這么高的。
2014-10-10
Python如何讀取相對路徑文件
這篇文章主要介紹了Python如何讀取相對路徑文件問題，具有很好的參考價值，希望對大家有所幫助。如有錯誤或未考慮完全的地方，望不吝賜教
2023-03-03
程序猿新手學習必備的Python工具整合
這篇文章主要介紹了程序猿新手必備的Python工具整合，Python 是一種開源編程語言，用于 Web 編程、數(shù)據(jù)科學、人工智能和許多科學應用
2021-09-09
Pytorch使用MNIST數(shù)據(jù)集實現(xiàn)CGAN和生成指定的數(shù)字方式
今天小編就為大家分享一篇Pytorch使用MNIST數(shù)據(jù)集實現(xiàn)CGAN和生成指定的數(shù)字方式，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2020-01-01
python基礎篇之pandas常用基本函數(shù)匯總
Pandas是一個python數(shù)據(jù)分析庫,它提供了許多函數(shù)和方法來加快數(shù)據(jù)分析過程,下面這篇文章主要給大家介紹了關于python基礎篇之pandas常用基本函數(shù)的相關資料,需要的朋友可以參考下
2022-07-07
Python實現(xiàn)自動裝機功能案例分析
這篇文章主要介紹了Python實現(xiàn)自動裝機功能,本文給大家介紹的非常詳細，對大家的學習或工作具有一定的參考借鑒價值，需要的朋友可以參考下
2020-10-10
python生成圓形圖片的方法
這篇文章主要為大家詳細介紹了python生成圓形圖片的方法，文中示例代碼介紹的非常詳細，具有一定的參考價值，感興趣的小伙伴們可以參考一下
2018-01-01
Vision?Transformer圖像分類模型導論
這篇文章主要為大家介紹了Vision?Transformer圖像分類模型導論，有需要的朋友可以借鑒參考下，希望能夠有所幫助，祝大家多多進步，早日升職加薪
2023-03-03
Python利用PyAutoGUI模塊實現(xiàn)控制鼠標鍵盤
PyAutoGUI是一個簡單易用，跨平臺的可以模擬鍵盤鼠標進行自動操作的python庫。本文將詳細講講它是如何實現(xiàn)控制鼠標鍵盤的，感興趣的可以了解一下
2022-06-06
Tensorflow高性能數(shù)據(jù)優(yōu)化增強工具Pipeline使用詳解
這篇文章主要為大家介紹了Tensorflow高性能數(shù)據(jù)優(yōu)化增強工具Pipeline使用詳解，有需要的朋友可以借鑒參考下，希望能夠有所幫助，祝大家多多進步，早日升職加薪
2022-11-11