python解決漢字編碼問題:Unicode Decode Error
前言
最近由于項(xiàng)目需要,需要讀取一個(gè)含有中文的txt文檔,完了還要保存文件。文檔之前是由base64編碼,導(dǎo)致所有漢字讀取顯示亂碼。項(xiàng)目組把base64廢棄之后,先后出現(xiàn)兩個(gè)錯(cuò)誤:
ascii codec can't encode characters in position ordinal not in range 128 UnicodeDecodeError: ‘utf8' codec can't decode byte 0x。
如果對(duì)于ascii、unicode和utf-8還不了解的小伙伴,可以看之前的這篇文章關(guān)于字符串和編碼
那么必須對(duì)下面這三個(gè)概念有所了解:
- ascii只能表示數(shù)字、英文字母和一些特殊符號(hào),不能表示漢字
- unicode和utf-8都可以表示漢字,unicode是固定長(zhǎng)度,utf-8是可變長(zhǎng)度
- 內(nèi)存中存儲(chǔ)方式一般為unicode,而磁盤文件存儲(chǔ)方式一般為utf-8,因?yàn)閡tf-8可以節(jié)約存儲(chǔ)空間
那么python的默認(rèn)編碼是什么?
>>> import sys
>>> sys.getdefaultencoding()
'ascii'
>>> reload(sys)
<module 'sys' (built-in)>
>>> sys.setdefaultencoding('utf-8')
>>> sys.getdefaultencoding()
'utf-8'
python的默認(rèn)編碼是ascii,可以通過sys.setdefaultencoding('utf-8')函數(shù)設(shè)置python的默認(rèn)編碼。
python中可以通過encode和decode的方式改變數(shù)據(jù)的編碼,比如:
>>> u'漢字'
u'\u6c49\u5b57'
>>> u'漢字'.encode('utf-8')
'\xe6\xb1\x89\xe5\xad\x97'
>>> u'漢字'.encode('utf-8').decode('utf-8')
u'\u6c49\u5b57'
我們可以通過這兩個(gè)函數(shù)設(shè)置編碼。
那么,python中的str是什么類型?
>>> import binascii
>>> '漢字'
'\xba\xba\xd7\xd6'
>>> type('漢字')
<type 'str'>
>>> print binascii.b2a_hex('漢字')
babad7d6
>>> print binascii.b2a_hex(u'漢字')
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
UnicodeEncodeError: 'ascii' codec can't encode characters in
position 0-1: ordinal not in range(128)
>>> print binascii.b2a_hex(u'漢字'.encode('utf-8'))
e6b189e5ad97
>>> print binascii.b2a_hex(u'漢字'.encode('gbk'))
babad7d6
binascii是將數(shù)據(jù)的二進(jìn)制轉(zhuǎn)換成ascii,上面的解釋是:‘漢字'的類型是str,二進(jìn)制是babad7d6,u‘漢字'是無法轉(zhuǎn)換成ascii,這樣就報(bào)出了開頭的第一個(gè)錯(cuò)誤。解決辦法就是把它.encode(‘utf-8')成str類型。因?yàn)槲颐钚惺莣indows默認(rèn)的GBK編碼,所有u'漢字'.encode(‘gbk')的時(shí)候,輸出結(jié)果和‘漢字'結(jié)果一樣。
總結(jié)一下,python的str實(shí)際上是unicode的一種,python的默認(rèn)編碼是ascii,對(duì)于非ascii轉(zhuǎn)成ascii的時(shí)候都會(huì)報(bào)錯(cuò),牢記下面的規(guī)則:
- unicode => encode(‘合適的編碼') => str
- str => decode(‘合適的編碼') => unicode
還有一種簡(jiǎn)單的方式,就是在文件頭設(shè)置編碼,可以省去很多麻煩:
import sys
reloads(sys)
sys.setdefaultencoding('utf-8')
對(duì)于第二個(gè)問題,是在文件讀取的時(shí)候出的錯(cuò)。utf-8的文件有bom和無bom兩種方式,兩者的差別好像在bom文件比無bom文件多了一個(gè)頭,導(dǎo)致以u(píng)tf-8方式讀文件時(shí)報(bào)錯(cuò),我先前曾嘗試讀文件的時(shí)候先對(duì)有無bom進(jìn)行判斷,跳過bom文件的頭,后來失敗了,真尷尬~~。
還得上google求助大神,具體的操作方法就是使用codecs庫來讀文件(我猜這個(gè)庫就是對(duì)文件的頭進(jìn)行檢測(cè))。
import codecs codecs.open(file_name, "r",encoding='utf-8', errors='ignore')
對(duì)于編碼問題,一定要懂得ascii、unicode和utf-8工作原理。
總結(jié)
以上就是這篇文章的全部?jī)?nèi)容了,希望本文的內(nèi)容對(duì)大家的學(xué)習(xí)或者工作能帶來一定的幫助,如果有疑問大家可以留言交流。
相關(guān)文章
Tensorflow深度學(xué)習(xí)使用CNN分類英文文本
這篇文章主要為大家介紹了Tensorflow深度學(xué)習(xí)CNN實(shí)現(xiàn)英文文本分類示例解析,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步2021-11-11
基于python實(shí)現(xiàn)操作git過程代碼解析
這篇文章主要介紹了基于python實(shí)現(xiàn)操作git過程代碼解析,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-07-07
在python中利用KNN實(shí)現(xiàn)對(duì)iris進(jìn)行分類的方法
今天小編就為大家分享一篇在python中利用KNN實(shí)現(xiàn)對(duì)iris進(jìn)行分類的方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2018-12-12
CentOS安裝pillow報(bào)錯(cuò)的解決方法
本文給大家分享的是作者在centos下為Python安裝pillow的時(shí)候報(bào)錯(cuò)的解決方法,希望對(duì)大家能夠有所幫助。2016-01-01
python基于隱馬爾可夫模型實(shí)現(xiàn)中文拼音輸入
這篇文章主要介紹了python基于隱馬爾可夫模型實(shí)現(xiàn)中文拼音輸入的相關(guān)資料,需要的朋友可以參考下2016-04-04
Python使用Paramiko庫實(shí)現(xiàn)SSH管理詳解
paramiko 是一個(gè)用于在Python中實(shí)現(xiàn)SSHv2協(xié)議的庫,它支持對(duì)遠(yuǎn)程服務(wù)器進(jìn)行加密的通信,本文主要介紹了如何使用Paramiko庫實(shí)現(xiàn)SSH管理,感興趣的小伙伴可以學(xué)習(xí)一下2023-11-11
基于Python輕松制作一個(gè)股票K線圖網(wǎng)站
在當(dāng)今這個(gè)人手一個(gè)?Web?服務(wù)的年代,GUI?程序還是沒有?Web?服務(wù)來的香啊。所以本文將用Python制作一個(gè)簡(jiǎn)單的股票K線圖網(wǎng)站,感興趣的可以了解一下2022-09-09

