python3中編碼獲取網(wǎng)頁的實(shí)例方法
學(xué)了python后,之前一些我們常用的方法,也可以換一種思路用python中的知識來解決。相信操作出來后,能收獲一大批小粉絲們。就像我們沒學(xué)習(xí)編程之前,看到那種大神都是可望而不可即。今天我們就之前簡單獲取網(wǎng)頁的這種操作用python中的編碼來解決,大家可以自行體會(huì)一下兩者的不同。
1. encoding和apparent_encoding
import scrapy url="https://www.xxx.net/html/gndy/dyzz/index.html" re=requests.get(url) #獲取響應(yīng)頭Content-Type的charset值,有的網(wǎng)站沒有charset字段,就可能使用默認(rèn)的 ISO-8859-1 print(re.encoding) #apparent_encoding就是獲取網(wǎng)站真實(shí)的編碼 print(re.apparent_encoding)
2. 處理方案
直接用r.encoding = ‘xxx'
re.encoding='utf-8'
3. requests的text() 跟 content() 有什么區(qū)別
re.text返回的是處理過的Unicode型的數(shù)據(jù),
而使用re.content返回的是bytes型的原始數(shù)據(jù)。
4. 爬蟲拿到的HTML和瀏覽器中的源碼不相同時(shí)
通過下載源碼對比
import requests
url = 'https://www.xxx.net/html/gndy/dyzz/index.html'
r = requests.get(url)
r.encoding = r.apparent_encoding
html = r.text
with open('test.html','w',encoding='utf8') as f:
f.write(html)

到此這篇關(guān)于python3中編碼獲取網(wǎng)頁的實(shí)例方法的文章就介紹到這了,更多相關(guān)python3中編碼如何獲取網(wǎng)頁內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
- Python 編碼規(guī)范(Google Python Style Guide)
- python 編碼規(guī)范整理
- Python 常用 PEP8 編碼規(guī)范詳解
- Python開發(fā)編碼規(guī)范
- Python3 json模塊之編碼解碼方法講解
- 解決python3 中的np.load編碼問題
- python源文件的字符編碼知識點(diǎn)詳解
- Python新建項(xiàng)目自動(dòng)添加介紹和utf-8編碼的方法
- 關(guān)于Python字符編碼與二進(jìn)制不得不說的一些事
- 詳解Python中的編碼問題(encoding與decode、str與bytes)
- Python2與Python3關(guān)于字符串編碼處理的差別總結(jié)
- Python 忽略文件名編碼的方法
- python基礎(chǔ)之編碼規(guī)范總結(jié)
相關(guān)文章
Python version 2.7 required, which was not found in the regi
這篇文章主要介紹了安裝PIL庫時(shí)提示錯(cuò)誤Python version 2.7 required, which was not found in the registry問題的解決方法,需要的朋友可以參考下2014-08-08
Python+smtplib庫實(shí)現(xiàn)郵件發(fā)送功能
這篇文章主要為大家詳細(xì)介紹了Python如何通過smtplib庫實(shí)現(xiàn)簡單的郵件發(fā)送功能,文中的示例代碼借鑒一下,有需要的小伙伴可以參考一下2025-02-02
Python 詳解通過Scrapy框架實(shí)現(xiàn)爬取百度新冠疫情數(shù)據(jù)流程
Scrapy是用純Python實(shí)現(xiàn)一個(gè)為了爬取網(wǎng)站數(shù)據(jù)、提取結(jié)構(gòu)性數(shù)據(jù)而編寫的應(yīng)用框架,用途非常廣泛,框架的力量,用戶只需要定制開發(fā)幾個(gè)模塊就可以輕松的實(shí)現(xiàn)一個(gè)爬蟲,用來抓取網(wǎng)頁內(nèi)容以及各種圖片,非常之方便2021-11-11
python3.8中關(guān)于sklearn問題(win10)
這篇文章主要介紹了python3.8中關(guān)于sklearn問題(win10),具有很好的參考價(jià)值,希望對大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2023-06-06
詳解Python的Django框架中Manager方法的使用
這篇文章主要介紹了Python的Django框架中Manager方法的使用,包括修改初始Manager QuerySets和增加額外的Manager方法等操作,需要的朋友可以參考下2015-07-07

