Python字符串編碼轉(zhuǎn)換 encode()和decode()方法詳細(xì)說(shuō)明

更新時(shí)間：2021年12月12日 10:34:02 作者：C語(yǔ)言中國(guó)網(wǎng)

這篇文章主要介紹了Python字符串編碼轉(zhuǎn)換 encode()和decode()方法詳細(xì)的說(shuō)明，下面文章圍繞encode()和decode()方法的相相關(guān)資料展開(kāi)內(nèi)容，具有一定的價(jià)值，需要的朋友卡通參考一下

隨著信息技術(shù)的發(fā)展，各國(guó)的文字都需要進(jìn)行編碼，于是相繼出現(xiàn)了 GBK、GB2312、UTF-8 編碼等，其中 GBK 和 GB2312 是我國(guó)制定的中文編碼標(biāo)準(zhǔn)，規(guī)定英文字符母占用 1 個(gè)字節(jié)，中文字符占用 2 個(gè)字節(jié)；而 UTF-8 是國(guó)際通過(guò)的編碼格式，它包含了全世界所有國(guó)家需要用到的字符，其規(guī)定英文字符占用 1 個(gè)字節(jié)，中文字符占用 3 個(gè)字節(jié)。

Python 3.x 默認(rèn)采用 UTF-8 編碼格式，有效地解決了中文亂碼的問(wèn)題。

在 Python 中，有 2 種常用的字符串類型，分別為 str 和 bytes 類型，其中 str 用來(lái)表示 Unicode 字符，bytes 用來(lái)表示二進(jìn)制數(shù)據(jù)。str 類型和 bytes 類型之間就需要使用 encode() 和 decode() 方法進(jìn)行轉(zhuǎn)換。

1.Python encode()方法

encode() 方法為字符串類型（str）提供的方法，用于將 str 類型轉(zhuǎn)換成 bytes 類型，這個(gè)過(guò)程也稱為“編碼”。

encode() 方法的語(yǔ)法格式如下：

str.encode([encoding="utf-8"][,errors="strict"])

注意:格式中用 [] 括起來(lái)的參數(shù)為可選參數(shù)，也就是說(shuō)，在使用此方法時(shí)，可以使用 [] 中的參數(shù)，也可以不使用。

該方法各個(gè)參數(shù)的含義如表 1 所示。

表 1 encode()參數(shù)及含義:

參數(shù)	含義
str	表示要進(jìn)行轉(zhuǎn)換的字符串。
encoding = "utf-8"	指定進(jìn)行編碼時(shí)采用的字符編碼，該選項(xiàng)默認(rèn)采用 utf-8 編碼。例如，如果想使用簡(jiǎn)體中文，可以設(shè)置 gb2312。當(dāng)方法中只使用這一個(gè)參數(shù)時(shí)，可以省略前邊的“encoding=”，直接寫編碼格式，例如 str.encode("UTF-8")。
errors = "strict"	指定錯(cuò)誤處理方式，其可選擇值可以是： strict：遇到非法字符就拋出異常。 ignore：忽略非法字符。 replace：用“？”替換非法字符。 xmlcharrefreplace：使用 xml 的字符引用。該參數(shù)的默認(rèn)值為 strict。

注意:使用 encode() 方法對(duì)原字符串進(jìn)行編碼，不會(huì)直接修改原字符串，如果想修改原字符串，需要重新賦值。

【例 1】將 str 類型字符串“C語(yǔ)言中文網(wǎng)”轉(zhuǎn)換成 bytes 類型。

>>> str = "C語(yǔ)言中文網(wǎng)"
>>> str.encode()
b'C\xe8\xaf\xad\xe8\xa8\x80\xe4\xb8\xad\xe6\x96\x87\xe7\xbd\x91'

此方式默認(rèn)采用 UTF-8 編碼，也可以手動(dòng)指定其它編碼格式，例如：

>>> str = "C語(yǔ)言中文網(wǎng)"
>>> str.encode('GBK')
b'C\xd3\xef\xd1\xd4\xd6\xd0\xce\xc4\xcd\xf8'

2.Python decode()方法

和 encode() 方法正好相反，decode() 方法用于將 bytes 類型的二進(jìn)制數(shù)據(jù)轉(zhuǎn)換為 str 類型，這個(gè)過(guò)程也稱為“解碼”。

decode() 方法的語(yǔ)法格式如下：

bytes.decode([encoding="utf-8"][,errors="strict"])

該方法中各參數(shù)的含義如表 2 所示。

表 2 decode()參數(shù)及含義:

參數(shù)	含義
bytes	表示要進(jìn)行轉(zhuǎn)換的二進(jìn)制數(shù)據(jù)。
encoding="utf-8"	指定解碼時(shí)采用的字符編碼，默認(rèn)采用 utf-8 格式。當(dāng)方法中只使用這一個(gè)參數(shù)時(shí)，可以省略“encoding=”，直接寫編碼方式即可。注意，對(duì) bytes 類型數(shù)據(jù)解碼，要選擇和當(dāng)初編碼時(shí)一樣的格式。
errors = "strict"	指定錯(cuò)誤處理方式，其可選擇值可以是： strict：遇到非法字符就拋出異常。 ignore：忽略非法字符。 replace：用“？”替換非法字符。 xmlcharrefreplace：使用 xml 的字符引用。該參數(shù)的默認(rèn)值為 strict。

【例 2】

>>> str = "C語(yǔ)言中文網(wǎng)"
>>> bytes=str.encode()
>>> bytes.decode()
'C語(yǔ)言中文網(wǎng)'

注意:如果編碼時(shí)采用的不是默認(rèn)的 UTF-8 編碼，則解碼時(shí)要選擇和編碼時(shí)一樣的格式，否則會(huì)拋出異常，例如：

>>> str = "C語(yǔ)言中文網(wǎng)"
>>> bytes = str.encode("GBK")
>>> bytes.decode()  #默認(rèn)使用 UTF-8 編碼，會(huì)拋出以下異常
Traceback (most recent call last):
  File "<pyshell#10>", line 1, in <module>
    bytes.decode()
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd3 in position 1: invalid continuation byte
>>> bytes.decode("GBK")
'C語(yǔ)言中文網(wǎng)'

到此這篇關(guān)于Python字符串編碼轉(zhuǎn)換 encode()和decode()方法詳細(xì)說(shuō)明的文章就介紹到這了,更多相關(guān)Python encode()和decode()方法內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: