Python字符串編碼轉(zhuǎn)換 encode()和decode()方法詳細(xì)說(shuō)明
前言:
我們知道,最早的字符串編碼是 ASCII 編碼,它僅僅對(duì) 10 個(gè)數(shù)字、26 個(gè)大小寫英文字母以及一些特殊字符進(jìn)行了編碼。ASCII 碼做多只能表示 256 個(gè)符號(hào),每個(gè)字符只需要占用 1 個(gè)字節(jié)。
隨著信息技術(shù)的發(fā)展,各國(guó)的文字都需要進(jìn)行編碼,于是相繼出現(xiàn)了 GBK、GB2312、UTF-8 編碼等,其中 GBK 和 GB2312 是我國(guó)制定的中文編碼標(biāo)準(zhǔn),規(guī)定英文字符母占用 1 個(gè)字節(jié),中文字符占用 2 個(gè)字節(jié);而 UTF-8 是國(guó)際通過(guò)的編碼格式,它包含了全世界所有國(guó)家需要用到的字符,其規(guī)定英文字符占用 1 個(gè)字節(jié),中文字符占用 3 個(gè)字節(jié)。
Python 3.x 默認(rèn)采用 UTF-8 編碼格式,有效地解決了中文亂碼的問(wèn)題。
在 Python 中,有 2 種常用的字符串類型,分別為 str 和 bytes 類型,其中 str 用來(lái)表示 Unicode 字符,bytes 用來(lái)表示二進(jìn)制數(shù)據(jù)。str 類型和 bytes 類型之間就需要使用 encode() 和 decode() 方法進(jìn)行轉(zhuǎn)換。
1.Python encode()方法
encode() 方法為字符串類型(str)提供的方法,用于將 str 類型轉(zhuǎn)換成 bytes 類型,這個(gè)過(guò)程也稱為“編碼”。
encode() 方法的語(yǔ)法格式如下:
str.encode([encoding="utf-8"][,errors="strict"])
注意:格式中用 [] 括起來(lái)的參數(shù)為可選參數(shù),也就是說(shuō),在使用此方法時(shí),可以使用 [] 中的參數(shù),也可以不使用。
該方法各個(gè)參數(shù)的含義如表 1 所示。
表 1 encode()參數(shù)及含義:
| 參數(shù) | 含義 |
|---|---|
| str | 表示要進(jìn)行轉(zhuǎn)換的字符串。 |
| encoding = "utf-8" | 指定進(jìn)行編碼時(shí)采用的字符編碼,該選項(xiàng)默認(rèn)采用 utf-8 編碼。例如,如果想使用簡(jiǎn)體中文,可以設(shè)置 gb2312。 當(dāng)方法中只使用這一個(gè)參數(shù)時(shí),可以省略前邊的“encoding=”,直接寫編碼格式,例如 str.encode("UTF-8")。 |
| errors = "strict" | 指定錯(cuò)誤處理方式,其可選擇值可以是:
|
注意:使用 encode() 方法對(duì)原字符串進(jìn)行編碼,不會(huì)直接修改原字符串,如果想修改原字符串,需要重新賦值。
【例 1】將 str 類型字符串“C語(yǔ)言中文網(wǎng)”轉(zhuǎn)換成 bytes 類型。
>>> str = "C語(yǔ)言中文網(wǎng)" >>> str.encode() b'C\xe8\xaf\xad\xe8\xa8\x80\xe4\xb8\xad\xe6\x96\x87\xe7\xbd\x91'
此方式默認(rèn)采用 UTF-8 編碼,也可以手動(dòng)指定其它編碼格式,例如:
>>> str = "C語(yǔ)言中文網(wǎng)"
>>> str.encode('GBK')
b'C\xd3\xef\xd1\xd4\xd6\xd0\xce\xc4\xcd\xf8'
2.Python decode()方法
和 encode() 方法正好相反,decode() 方法用于將 bytes 類型的二進(jìn)制數(shù)據(jù)轉(zhuǎn)換為 str 類型,這個(gè)過(guò)程也稱為“解碼”。
decode() 方法的語(yǔ)法格式如下:
bytes.decode([encoding="utf-8"][,errors="strict"])
該方法中各參數(shù)的含義如表 2 所示。
表 2 decode()參數(shù)及含義:
| 參數(shù) | 含義 |
|---|---|
| bytes | 表示要進(jìn)行轉(zhuǎn)換的二進(jìn)制數(shù)據(jù)。 |
| encoding="utf-8" | 指定解碼時(shí)采用的字符編碼,默認(rèn)采用 utf-8 格式。當(dāng)方法中只使用這一個(gè)參數(shù)時(shí),可以省略“encoding=”,直接寫編碼方式即可。 注意,對(duì) bytes 類型數(shù)據(jù)解碼,要選擇和當(dāng)初編碼時(shí)一樣的格式。 |
| errors = "strict" | 指定錯(cuò)誤處理方式,其可選擇值可以是:
|
【例 2】
>>> str = "C語(yǔ)言中文網(wǎng)" >>> bytes=str.encode() >>> bytes.decode() 'C語(yǔ)言中文網(wǎng)'
注意:如果編碼時(shí)采用的不是默認(rèn)的 UTF-8 編碼,則解碼時(shí)要選擇和編碼時(shí)一樣的格式,否則會(huì)拋出異常,例如:
>>> str = "C語(yǔ)言中文網(wǎng)"
>>> bytes = str.encode("GBK")
>>> bytes.decode() #默認(rèn)使用 UTF-8 編碼,會(huì)拋出以下異常
Traceback (most recent call last):
File "<pyshell#10>", line 1, in <module>
bytes.decode()
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd3 in position 1: invalid continuation byte
>>> bytes.decode("GBK")
'C語(yǔ)言中文網(wǎng)'
到此這篇關(guān)于Python字符串編碼轉(zhuǎn)換 encode()和decode()方法詳細(xì)說(shuō)明的文章就介紹到這了,更多相關(guān)Python encode()和decode()方法內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Google colab中從kaggle中接入數(shù)據(jù)的操作方法
這篇文章主要介紹了Google colab中如何從kaggle中接入數(shù)據(jù),本文涉及到兩大平臺(tái)內(nèi)容,所以我默認(rèn)你已經(jīng)擁有了,并且使用過(guò)了一段時(shí)間的google賬號(hào)和kaggle賬號(hào),需要的朋友可以參考下2024-03-03
Python虛擬機(jī)棧幀對(duì)象及獲取源碼學(xué)習(xí)
這篇文章主要為大家介紹了Python虛擬機(jī)棧幀對(duì)象及獲取源碼學(xué)習(xí),有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2023-03-03
Python編程實(shí)現(xiàn)的簡(jiǎn)單神經(jīng)網(wǎng)絡(luò)算法示例
這篇文章主要介紹了Python編程實(shí)現(xiàn)的簡(jiǎn)單神經(jīng)網(wǎng)絡(luò)算法,結(jié)合實(shí)例形式分析了神經(jīng)網(wǎng)絡(luò)算法的原理及Python相關(guān)算法實(shí)現(xiàn)技巧,需要的朋友可以參考下2018-01-01
Matplotlib繪圖基礎(chǔ)之配置參數(shù)詳解
Matplotlib?提供了大量配置參數(shù),這些參數(shù)可以但不限于讓我們從整體上調(diào)整通過(guò)?Matplotlib?繪制的圖形樣式,下面我們就來(lái)看看如何巧妙的運(yùn)用這些參數(shù)吧2023-08-08
python?list與numpy數(shù)組效率對(duì)比
這篇文章主要介紹了python?list與numpy數(shù)組效率對(duì)比分析,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2023-02-02
Python虛擬環(huán)境virtualenv是如何使用的
今天給大家?guī)?lái)的是關(guān)于Python虛擬環(huán)境的相關(guān)知識(shí),文章圍繞著Python虛擬環(huán)境virtualenv是如何使用的展開(kāi),文中有非常詳細(xì)的解釋及代碼示例,需要的朋友可以參考下2021-06-06

