python3爬蟲獲取html內(nèi)容及各屬性值的方法
今天用到BeautifulSoup解析爬下來的網(wǎng)頁數(shù)據(jù)
首先導(dǎo)入包from bs4 import BeautifulSoup
然后可以利用urllib請求數(shù)據(jù)
記得要導(dǎo)包
import urllib.request
然后調(diào)用urlopen,讀取數(shù)據(jù)
f=urllib.request.urlopen(‘http://jingyan.baidu.com/article/455a9950bc94b8a166277898.html‘) response=f.read()
這里我們就不請求數(shù)據(jù)了,直接用本地的html代碼,如下
注意:”'xxx”'是多行注釋
#python3
from bs4 import BeautifulSoup
html='''<html>
<head>
<title class='ceshi'>super 哈哈 star</title>
</head>
<body>
天下第一帥
<p class='sister'>
是不是
</p>
</body>
</html>'''
#用BeautifulSoup解析數(shù)據(jù) python3 必須傳入?yún)?shù)二'html.parser' 得到一個(gè)對象,接下來獲取對象的相關(guān)屬性
html=BeautifulSoup(html,'html.parser')
# 讀取title內(nèi)容
print(html.title)
# 讀取title屬性
attrs=html.title.attrs
print(attrs)
# 獲取屬性attrs['class'] ---->['ceshi'] 這是一個(gè)list 通過下標(biāo)可以獲取值
print(attrs['class'][0])
# 讀取body
print(html.body)
讀取數(shù)據(jù)還可以通過BeautifulSoup的select方法
html.select()
#按標(biāo)簽名查找
soup.select('title')
soup.select('body')
# 按類名查找
soup.select('.sister')
# 按id名查找
# p標(biāo)簽中id為link的標(biāo)簽
soup.select('p #link')
#取標(biāo)簽里面的值
soup.p.string
#取標(biāo)簽里屬性值 通過href獲取
html['href']
以上這篇python3爬蟲獲取html內(nèi)容及各屬性值的方法就是小編分享給大家的全部內(nèi)容了,希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。
- python通過ElementTree操作XML獲取結(jié)點(diǎn)讀取屬性美化XML
- 利用python實(shí)現(xiàn)xml與數(shù)據(jù)庫讀取轉(zhuǎn)換的方法
- python selenium 獲取標(biāo)簽的屬性值、內(nèi)容、狀態(tài)方法
- Python+selenium 獲取一組元素屬性值的實(shí)例
- Python實(shí)現(xiàn)的讀取/更改/寫入xml文件操作示例
- Python 讀取xml數(shù)據(jù),cv2裁剪圖片實(shí)例
- Python讀取VOC中的xml目標(biāo)框?qū)嵗?/a>
- python讀取配置文件方式(ini、yaml、xml)
- python讀取xml文件方法解析
- Python練習(xí)之讀取XML節(jié)點(diǎn)和屬性值的方法
相關(guān)文章
Django網(wǎng)絡(luò)框架之創(chuàng)建虛擬開發(fā)環(huán)境操作示例
在 Python 應(yīng)用中使用 MongoDB的方法
Python logging模塊寫入中文出現(xiàn)亂碼
Python操作json數(shù)據(jù)的一個(gè)簡單例子
python3.7 openpyxl 刪除指定一列或者一行的代碼
JS設(shè)計(jì)模式之責(zé)任鏈模式實(shí)例詳解
在Python的Flask中使用WTForms表單框架的基礎(chǔ)教程
淺析python中numpy包中的argsort函數(shù)的使用

