在Python中使用base64模塊處理字符編碼的教程
Base64是一種用64個(gè)字符來(lái)表示任意二進(jìn)制數(shù)據(jù)的方法。
用記事本打開exe、jpg、pdf這些文件時(shí),我們都會(huì)看到一大堆亂碼,因?yàn)槎M(jìn)制文件包含很多無(wú)法顯示和打印的字符,所以,如果要讓記事本這樣的文本處理軟件能處理二進(jìn)制數(shù)據(jù),就需要一個(gè)二進(jìn)制到字符串的轉(zhuǎn)換方法。Base64是一種最常見的二進(jìn)制編碼方法。
Base64的原理很簡(jiǎn)單,首先,準(zhǔn)備一個(gè)包含64個(gè)字符的數(shù)組:
['A', 'B', 'C', ... 'a', 'b', 'c', ... '0', '1', ... '+', '/']
然后,對(duì)二進(jìn)制數(shù)據(jù)進(jìn)行處理,每3個(gè)字節(jié)一組,一共是3x8=24bit,劃為4組,每組正好6個(gè)bit:

這樣我們得到4個(gè)數(shù)字作為索引,然后查表,獲得相應(yīng)的4個(gè)字符,就是編碼后的字符串。
所以,Base64編碼會(huì)把3字節(jié)的二進(jìn)制數(shù)據(jù)編碼為4字節(jié)的文本數(shù)據(jù),長(zhǎng)度增加33%,好處是編碼后的文本數(shù)據(jù)可以在郵件正文、網(wǎng)頁(yè)等直接顯示。
如果要編碼的二進(jìn)制數(shù)據(jù)不是3的倍數(shù),最后會(huì)剩下1個(gè)或2個(gè)字節(jié)怎么辦?Base64用\x00字節(jié)在末尾補(bǔ)足后,再在編碼的末尾加上1個(gè)或2個(gè)=號(hào),表示補(bǔ)了多少字節(jié),解碼的時(shí)候,會(huì)自動(dòng)去掉。
Python內(nèi)置的base64可以直接進(jìn)行base64的編解碼:
>>> import base64
>>> base64.b64encode('binary\x00string')
'YmluYXJ5AHN0cmluZw=='
>>> base64.b64decode('YmluYXJ5AHN0cmluZw==')
'binary\x00string'
由于標(biāo)準(zhǔn)的Base64編碼后可能出現(xiàn)字符+和/,在URL中就不能直接作為參數(shù),所以又有一種"url safe"的base64編碼,其實(shí)就是把字符+和/分別變成-和_:
>>> base64.b64encode('i\xb7\x1d\xfb\xef\xff')
'abcd++//'
>>> base64.urlsafe_b64encode('i\xb7\x1d\xfb\xef\xff')
'abcd--__'
>>> base64.urlsafe_b64decode('abcd--__')
'i\xb7\x1d\xfb\xef\xff'
還可以自己定義64個(gè)字符的排列順序,這樣就可以自定義Base64編碼,不過(guò),通常情況下完全沒有必要。
Base64是一種通過(guò)查表的編碼方法,不能用于加密,即使使用自定義的編碼表也不行。
Base64適用于小段內(nèi)容的編碼,比如數(shù)字證書簽名、Cookie的內(nèi)容等。
由于=字符也可能出現(xiàn)在Base64編碼中,但=用在URL、Cookie里面會(huì)造成歧義,所以,很多Base64編碼后會(huì)把=去掉:
# 標(biāo)準(zhǔn)Base64: 'abcd' -> 'YWJjZA==' # 自動(dòng)去掉=: 'abcd' -> 'YWJjZA'
去掉=后怎么解碼呢?因?yàn)锽ase64是把3個(gè)字節(jié)變?yōu)?個(gè)字節(jié),所以,Base64編碼的長(zhǎng)度永遠(yuǎn)是4的倍數(shù),因此,需要加上=把Base64字符串的長(zhǎng)度變?yōu)?的倍數(shù),就可以正常解碼了。
請(qǐng)寫一個(gè)能處理去掉=的base64解碼函數(shù):
>>> base64.b64decode('YWJjZA==')
'abcd'
>>> base64.b64decode('YWJjZA')
Traceback (most recent call last):
...
TypeError: Incorrect padding
>>> safe_b64decode('YWJjZA')
'abcd'
小結(jié)
Base64是一種任意二進(jìn)制到文本字符串的編碼方法,常用于在URL、Cookie、網(wǎng)頁(yè)中傳輸少量二進(jìn)制數(shù)據(jù)。
相關(guān)文章
Django項(xiàng)目使用ckeditor詳解(不使用admin)
今天小編就為大家分享一篇Django項(xiàng)目使用ckeditor詳解(不使用admin),具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2019-12-12
jupyter代碼塊沒有運(yùn)行圖標(biāo)的解決方案
這篇文章主要介紹了jupyter代碼塊沒有運(yùn)行圖標(biāo)的解決方案,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2025-04-04
python自動(dòng)化實(shí)現(xiàn)的簡(jiǎn)單使用
本文主要介紹了python自動(dòng)化實(shí)現(xiàn)的簡(jiǎn)單使用,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2022-06-06
Python3實(shí)現(xiàn)取圖片中特定的像素替換指定的顏色示例
這篇文章主要介紹了Python3實(shí)現(xiàn)取圖片中特定的像素替換指定的顏色,涉及Python3針對(duì)圖片文件的讀取、轉(zhuǎn)換、生成等相關(guān)操作技巧,需要的朋友可以參考下2019-01-01
Python編程實(shí)現(xiàn)控制cmd命令行顯示顏色的方法示例
這篇文章主要介紹了Python編程實(shí)現(xiàn)控制cmd命令行顯示顏色的方法,結(jié)合實(shí)例形式分析了Python針對(duì)命令行字符串顯示顏色屬性相關(guān)操作技巧,需要的朋友可以參考下2017-08-08
終端能到import模塊 解決jupyter notebook無(wú)法導(dǎo)入的問題
這篇文章主要介紹了在終端能到import模塊 而在jupyter notebook無(wú)法導(dǎo)入的問題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2021-03-03
分析Python感知線程狀態(tài)的解決方案之Event與信號(hào)量
本文主要介紹了如何感知線程狀態(tài)、如何停止一個(gè)線程、線程之間的Event用法2021-06-06
python實(shí)現(xiàn)數(shù)據(jù)分析與建模
這篇文章主要介紹了python實(shí)現(xiàn)數(shù)據(jù)分析與建模功能,本文給大家介紹的非常詳細(xì),具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2019-07-07

