Python BeautifulSoup中文亂碼問題的2種解決方法
解決方法一:
使用python的BeautifulSoup來抓取網(wǎng)頁然后輸出網(wǎng)頁標題,但是輸出的總是亂碼,找了好久找到解決辦法,下面分享給大家
首先是代碼
from bs4 import BeautifulSoup
import urllib2
url = 'http://www.dhdzp.com/'
page = urllib2.urlopen(url)
soup = BeautifulSoup(page,from_encoding="utf8")
print soup.original_encoding
print (soup.title).encode('gb18030')
file = open("title.txt","w")
file.write(str(soup.title))
file.close()
for link in soup.find_all('a'):
print link['href']
在剛開始測試的時候發(fā)現(xiàn),雖然輸出是亂碼的,但是寫在文件里面卻是正常的.然后在網(wǎng)上找了找解決辦法才發(fā)現(xiàn)
print一個對象的邏輯:內(nèi)部是調(diào)用對象的__str__得到對應(yīng)的字符串的,此處對應(yīng)的是soup的__str__ 而針對于soup本身,其實已經(jīng)是Unicode編碼,所以可以通過指定__str__輸出時的編碼為GBK,以使得此處正確顯示非亂碼的中文
而對于cmd:(中文的系統(tǒng)中)編碼為GBK,所以只要重新編碼為gb18030就可以正常輸出了
就是下面這行代碼
print (soup.title).encode('gb18030')
解決方法二:
BeautifulSoup在解析utf-8編碼的網(wǎng)頁時,如果不指定fromEncoding或者將fromEncoding指定為utf-8會出現(xiàn)中文亂碼的現(xiàn)象。
解決此問題的方法是將Beautifulsoup構(gòu)造函數(shù)中的fromEncoding參數(shù)的值指定為:gb18030
import urllib2
from BeautifulSoup import BeautifulSoup
page = urllib2.urlopen('http://www.dhdzp.com/');
soup = BeautifulSoup(page,fromEncoding="gb18030")
print soup.originalEncoding
print soup.prettify()
- python BeautifulSoup使用方法詳解
- Python BeautifulSoup [解決方法] TypeError: list indices must be integers or slices, not str
- python 解析html之BeautifulSoup
- Python爬蟲庫BeautifulSoup獲取對象(標簽)名,屬性,內(nèi)容,注釋
- python中bs4.BeautifulSoup的基本用法
- python基于BeautifulSoup實現(xiàn)抓取網(wǎng)頁指定內(nèi)容的方法
- Python使用BeautifulSoup庫解析HTML基本使用教程
- python爬蟲之BeautifulSoup 使用select方法詳解
- python爬蟲入門教程--HTML文本的解析庫BeautifulSoup(四)
- 從零開始學(xué)習(xí)Python與BeautifulSoup網(wǎng)頁數(shù)據(jù)抓取
相關(guān)文章
Python中函數(shù)的創(chuàng)建及調(diào)用
這篇文章主要介紹了Python中函數(shù)的創(chuàng)建及調(diào)用,創(chuàng)建函數(shù)也稱為定義一個函數(shù),可以理解為創(chuàng)建一個具有某種用途的工具。調(diào)用函數(shù)也就是執(zhí)行函數(shù)。如果把創(chuàng)建的函數(shù)理解為創(chuàng)建一個具體有某種用途的工具,那么調(diào)用函數(shù)就相當于使用該工具2022-06-06
python通過yield實現(xiàn)數(shù)組全排列的方法
這篇文章主要介紹了python通過yield實現(xiàn)數(shù)組全排列的方法,實例分析了全排列的概念及yield實現(xiàn)的技巧,具有一定參考借鑒價值,需要的朋友可以參考下2015-03-03
Python實現(xiàn)刪除排序數(shù)組中重復(fù)項的兩種方法示例
Python通用循環(huán)的構(gòu)造方法實例分析

