python自然語言編碼轉(zhuǎn)換模塊codecs介紹
python對多國語言的處理是支持的很好的,它可以處理現(xiàn)在任意編碼的字符,這里深入的研究一下python對多種不同語言的處理。
有一點需要清楚的是,當python要做編碼轉(zhuǎn)換的時候,會借助于內(nèi)部的編碼,轉(zhuǎn)換過程是這樣的:
原有編碼 -> 內(nèi)部編碼 -> 目的編碼
python的內(nèi)部是使用unicode來處理的,但是unicode的使用需要考慮的是它的編碼格式有兩種,一是UCS-2,它一共有65536個碼位,另一種是UCS-4,它有2147483648g個碼位。對于這兩種格式,python都是支持的,這個是在編譯時通過--enable-unicode=ucs2或--enable-unicode=ucs4來指定的。那么我們自己默認安裝的python有的什么編碼怎么來確定呢?有一個辦法,就是通過sys.maxunicode的值來判斷:
import sys
print sys.maxunicode
如果輸出的值為65535,那么就是UCS-2,如果輸出是1114111就是UCS-4編碼。
我們要認識到一點:當一個字符串轉(zhuǎn)換為內(nèi)部編碼后,它就不是str類型了!它是unicode類型:
a = "風(fēng)卷殘云"
print type(a)
b = a.unicode(a, "gb2312")
print type(b)
輸出:
<type 'str'>
<type 'unicode'>
這個時候b可以方便的任意轉(zhuǎn)換為其他編碼,比如轉(zhuǎn)換為utf-8:
c = b.encode("utf-8")
print c
c輸出的東西看起來是亂碼,那就對了,因為是utf-8的字符串。
好了,該說說codecs模塊了,它和我上面說的概念是密切相關(guān)的。codecs專門用作編碼轉(zhuǎn)換,當然,其實通過它的接口是可以擴展到其他關(guān)于代碼方面的轉(zhuǎn)換的,這個東西這里不涉及。
#-*- encoding: gb2312 -*-
import codecs, sys
print '-'*60
# 創(chuàng)建gb2312編碼器
look = codecs.lookup("gb2312")
# 創(chuàng)建utf-8編碼器
look2 = codecs.lookup("utf-8")
a = "我愛北京天安門"
print len(a), a
# 把a編碼為內(nèi)部的unicode, 但為什么方法名為decode呢,我的理解是把gb2312的字符串解碼為unicode
b = look.decode(a)
# 返回的b[0]是數(shù)據(jù),b[1]是長度,這個時候的類型是unicode了
print b[1], b[0], type(b[0])
# 把內(nèi)部編碼的unicode轉(zhuǎn)換為gb2312編碼的字符串,encode方法會返回一個字符串類型
b2 = look.encode(b[0])
# 發(fā)現(xiàn)不一樣的地方了吧?轉(zhuǎn)換回來之后,字符串長度由14變?yōu)榱?! 現(xiàn)在的返回的長度才是真正的字數(shù),原來的是字節(jié)數(shù)
print b2[1], b2[0], type(b2[0])
# 雖然上面返回了字數(shù),但并不意味著用len求b2[0]的長度就是7了,仍然還是14,僅僅是codecs.encode會統(tǒng)計字數(shù)
print len(b2[0])
上面的代碼就是codecs的使用,是最常見的用法。另外還有一個問題就是,如果我們處理的文件里的字符編碼是其他類型的呢?這個讀取進行做處理也需要特殊的處理的。codecs也提供了方法.
#-*- encoding: gb2312 -*-
import codecs, sys
# 用codecs提供的open方法來指定打開的文件的語言編碼,它會在讀取的時候自動轉(zhuǎn)換為內(nèi)部unicode
bfile = codecs.open("dddd.txt", 'r', "big5")
#bfile = open("dddd.txt", 'r')
ss = bfile.read()
bfile.close()
# 輸出,這個時候看到的就是轉(zhuǎn)換后的結(jié)果。如果使用語言內(nèi)建的open函數(shù)來打開文件,這里看到的必定是亂碼
print ss, type(ss)
上面這個處理big5的,可以去找段big5編碼的文件試試。
相關(guān)文章
如何利用python寫GUI及生成.exe可執(zhí)行文件
工作中需要開發(fā)一個小工具,簡單的UI界面可以很好的提高工具的實用性,由此開啟了我的第一次GUI開發(fā)之旅,這篇文章主要給大家介紹了關(guān)于如何利用python寫GUI及生成.exe可執(zhí)行文件的相關(guān)資料,需要的朋友可以參考下2021-12-12
windows下Python實現(xiàn)將pdf文件轉(zhuǎn)化為png格式圖片的方法
這篇文章主要介紹了windows下Python實現(xiàn)將pdf文件轉(zhuǎn)化為png格式圖片的方法,結(jié)合實例形式較為詳細的分析了Python實現(xiàn)將pdf轉(zhuǎn)換為png格式的相關(guān)模塊、使用方法與相關(guān)注意事項,需要的朋友可以參考下2017-07-07
Python面向?qū)ο蟪绦蛟O(shè)計之繼承與多繼承用法分析
這篇文章主要介紹了Python面向?qū)ο蟪绦蛟O(shè)計之繼承與多繼承用法,結(jié)合實例形式分析了Python繼承與多繼承的簡單定義與使用方法,需要的朋友可以參考下2018-07-07

