python中的編碼知識整理匯總
問題
在平時工作中,遇到了這樣的錯誤:
UnicodeDecodeError: 'ascii' codec can't decode byte
想必大家也都碰到過,很常見 。于是決定對python的編碼做一個整理和學習。
基礎知識
在python2.x中,有兩種數(shù)據(jù)類型,unicode和str,這兩個都是basestring的子類
>>> a = '中' >>> type(a) <type 'str'> >>> isinstance(a,basestring) True >>> a = u'中' >>> type(a) <type 'unicode'> >>> isinstance(a,basestring) True
兩者的區(qū)別,概括來講,str是字節(jié)串,由unicode經(jīng)過編碼(encode)后的字節(jié)組成的(好比與python3.x的byte);unicode是對象,才是真正意義上的字符串,由字符組成
>>> a='中文' >>> len(a) 6 >>> repr(a) "'\\xe4\\xb8\\xad\\xe6\\x96\\x87'" >>> b=u'中文' >>> len(b) 2 >>> repr(b) "u'\\u4e2d\\u6587'"
控制臺和腳本
在linux下的python控制臺執(zhí)行以下命令,所得的結(jié)果和執(zhí)行腳本是不同的
>>> a = u'中文'
>>> repr(a)
"u'\\xe4\\xb8\\xad\\xe6\\x96\\x87'"
>>> b = unicode('中文','utf-8')b)
>>> repr(b)
"u'\\u4e2d\\u6587'"
可以看到,u'中文'初始化的對象a不是我們所期望的,那究竟是什么原因呢?
將python看成是一根管子,管子里頭處理的中間過程都是使用unicode的。入口處,全部轉(zhuǎn)成unicode;出口處,再轉(zhuǎn)成目標編碼(當然,有例外,處理邏輯中要用到具體編碼的情況)。
在控制臺執(zhí)行命令a = u'中文',可以將解釋為命令,a = ‘中文'.decode(encode),從而到到unicode對象a。那么這里的encode是什么呢?對于控制臺來說,就是標準輸入,即sys.stdin.encoding
>>> sys.stdin.encoding 'ISO-8859-1'
我的這邊控制臺默認的編碼是ISO-8859-1,故a = u'中文' <=> a = '中文'.decode('ISO-8859-1')
這里的'中文'是控制臺理解的,即使根據(jù)終端編碼方式編碼后的字節(jié)碼,對于utf-8編碼的終端,'中文'='\\xe4\\xb8\\xad\\xe6\\x96\\x87'
>>> a='中文'.decode('ISO-8859-1')
>>> repr(a)
"u'\\xe4\\xb8\\xad\\xe6\\x96\\x87'"
那如何修改此編碼值呢,設置為什么呢?在linux環(huán)境中設置環(huán)境變量方法如下,具體設置什么只要與終端編碼方式一直即可
export PYTHONIOENCODING=UTF-8
總結(jié)
重新回到最初的那個問題,造成問題的原因是沒有搞清楚unicode和str的區(qū)別,將兩者進行了混用。
>>> a = '中文'
>>> a.encode('gbk')
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position 0: ordinal not in range(128)
以上的對象a其實是str,即字節(jié)碼,若終端是utf-8編碼的話,那么a就是用utf-8 encode的字節(jié)碼。a.encode('gbk') 等價于a.decode(encoding).encode('gbk'),即先將字節(jié)碼解碼為unicode字符,然后再encode為字節(jié)碼。unicode對象作為中轉(zhuǎn)站。那么這里的encoding是什么呢?
>>> import sys >>> sys.getdefaultencoding() 'ascii'
默認是ascii,這正是錯誤為什么報無法用ascii解碼的原因
>>> reload(sys)
<module 'sys' (built-in)>
>>> sys.setdefaultencoding('utf-8')
>>> a = '中文'
>>> repr(a)
"'\\xe4\\xb8\\xad\\xe6\\x96\\x87'"
>>> a.encode('gbk')
'\xd6\xd0\xce\xc4'
將默認編碼改為utf-8,即可。不鼓勵對str使用encode方法,因為其中隱式對str進行了解碼。decode只對str,encode只對unicode,一切decode/encode都顯示指定編碼方式。
相關(guān)文章
pycharm設置當前工作目錄的操作(working directory)
今天小編就為大家分享一篇pycharm設置當前工作目錄的操作(working directory),具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-02-02
Python如何將bmp格式的圖片批量轉(zhuǎn)成jpg
這篇文章主要介紹了Python如何將bmp格式的圖片批量轉(zhuǎn)成jpg問題,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教2023-03-03
Python利用multiprocessing實現(xiàn)最簡單的分布式作業(yè)調(diào)度系統(tǒng)實例
這篇文章主要給大家介紹了關(guān)于Python利用multiprocessing如何實現(xiàn)最簡單的分布式作業(yè)調(diào)度系統(tǒng)的相關(guān)資料,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面來一起看看吧。2017-11-11
Ubuntu下使用python讀取doc和docx文檔的內(nèi)容方法
今天小編就為大家分享一篇Ubuntu下使用python讀取doc和docx文檔的內(nèi)容方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-05-05
python爬蟲入門教程--快速理解HTTP協(xié)議(一)
http協(xié)議是互聯(lián)網(wǎng)里面最重要,最基礎的協(xié)議之一,我們的爬蟲需要經(jīng)常和http協(xié)議打交道。下面這篇文章主要給大家介紹了關(guān)于python爬蟲入門之快速理解HTTP協(xié)議的相關(guān)資料,文中介紹的非常詳細,需要的朋友可以參考借鑒,下面來一起看看吧。2017-05-05

