詳解Python之?dāng)?shù)據(jù)序列化(json、pickle、shelve)
一、前言
1. 現(xiàn)實(shí)需求
每種編程語(yǔ)言都有各自的數(shù)據(jù)類(lèi)型,其中面向?qū)ο蟮木幊陶Z(yǔ)言還允許開(kāi)發(fā)者自定義數(shù)據(jù)類(lèi)型(如:自定義類(lèi)),Python也是一樣。很多時(shí)候我們會(huì)有這樣的需求:
- 把內(nèi)存中的各種數(shù)據(jù)類(lèi)型的數(shù)據(jù)通過(guò)網(wǎng)絡(luò)傳送給其它機(jī)器或客戶(hù)端;
- 把內(nèi)存中的各種數(shù)據(jù)類(lèi)型的數(shù)據(jù)保存到本地磁盤(pán)持久化;
2.數(shù)據(jù)格式
如果要將一個(gè)系統(tǒng)內(nèi)的數(shù)據(jù)通過(guò)網(wǎng)絡(luò)傳輸給其它系統(tǒng)或客戶(hù)端,我們通常都需要先把這些數(shù)據(jù)轉(zhuǎn)化為字符串或字節(jié)串,而且需要規(guī)定一種統(tǒng)一的數(shù)據(jù)格式才能讓數(shù)據(jù)接收端正確解析并理解這些數(shù)據(jù)的含義。XML 是早期被廣泛使用的數(shù)據(jù)交換格式,在早期的系統(tǒng)集成論文中經(jīng)??梢钥吹剿纳碛?;如今大家使用更多的數(shù)據(jù)交換格式是JSON(JavaScript Object Notation),它是一種輕量級(jí)的數(shù)據(jù)交換格式。JSON相對(duì)于XML而言,更加加單、易于閱讀和編寫(xiě),同時(shí)也易于機(jī)器解析和生成。除此之外,我們也可以自定義內(nèi)部使用的數(shù)據(jù)交換格式。
如果是想把數(shù)據(jù)持久化到本地磁盤(pán),這部分?jǐn)?shù)據(jù)通常只是供系統(tǒng)內(nèi)部使用,因此數(shù)據(jù)轉(zhuǎn)換協(xié)議以及轉(zhuǎn)換后的數(shù)據(jù)格式也就不要求是標(biāo)準(zhǔn)、統(tǒng)一的,只要本系統(tǒng)內(nèi)部能夠正確識(shí)別即可。但是,系統(tǒng)內(nèi)部的轉(zhuǎn)換協(xié)議通常會(huì)隨著編程語(yǔ)言版本的升級(jí)而發(fā)生變化(改進(jìn)算法、提高效率),因此通常會(huì)涉及轉(zhuǎn)換協(xié)議與編程語(yǔ)言的版本兼容問(wèn)題,下面要時(shí)候的pickle協(xié)議就是這樣一個(gè)例子。
3. 序列化/反序列化
將對(duì)象轉(zhuǎn)換為可通過(guò)網(wǎng)絡(luò)傳輸或可以存儲(chǔ)到本地磁盤(pán)的數(shù)據(jù)格式(如:XML、JSON或特定格式的字節(jié)串)的過(guò)程稱(chēng)為序列化;反之,則稱(chēng)為反序列化。
4.相關(guān)模塊
本節(jié)要介紹的就是Python內(nèi)置的幾個(gè)用于進(jìn)行數(shù)據(jù)序列化的模塊:
| 模塊名稱(chēng) | 描述 | 提供的api |
|---|---|---|
| json | 用于實(shí)現(xiàn)Python數(shù)據(jù)類(lèi)型與通用(json)字符串之間的轉(zhuǎn)換 | dumps()、dump()、loads()、load() |
| pickle | 用于實(shí)現(xiàn)Python數(shù)據(jù)類(lèi)型與Python特定二進(jìn)制格式之間的轉(zhuǎn)換 | dumps()、dump()、loads()、load() |
| shelve | 專(zhuān)門(mén)用于將Python數(shù)據(jù)類(lèi)型的持久化到磁盤(pán),shelf是一個(gè)類(lèi)似dict的對(duì)象,操作十分便捷 | open() |
二、json模塊
大部分編程語(yǔ)言都會(huì)提供處理json數(shù)據(jù)的接口,Python 2.6開(kāi)始加入了json模塊,且把它作為一個(gè)內(nèi)置模塊提供,無(wú)需下載即可使用。
1. 序列化與反序列化
Python的JSON模塊 序列化與反序列化的過(guò)程分別叫做:encoding 和 decoding。
- encoding: 把Python對(duì)象轉(zhuǎn)換成JSON字符串
- decoding: 把JSON字符串轉(zhuǎn)換成python對(duì)象
json模塊提供了以下兩個(gè)方法來(lái)進(jìn)行序列化和反序列化操作:
# 序列化:將Python對(duì)象轉(zhuǎn)換成json字符串 dumps(obj, skipkeys=False, ensure_ascii=True, check_circular=True, allow_nan=True, cls=None, indent=None, separators=None, default=None, sort_keys=False, **kw) # 反序列化:將json字符串轉(zhuǎn)換成Python對(duì)象 loads(s, encoding=None, cls=None, object_hook=None, parse_float=None, parse_int=None, parse_constant=None, object_pairs_hook=None, **kw)
除此之外,json模塊還提供了兩個(gè)額外的方法允許我們直接將序列化后得到的json數(shù)據(jù)保存到文件中,以及直接讀取文件中的json數(shù)據(jù)進(jìn)行反序列化操作:
# 序列化:將Python對(duì)象轉(zhuǎn)換成json字符串并存儲(chǔ)到文件中 dump(obj, fp, skipkeys=False, ensure_ascii=True, check_circular=True, allow_nan=True, cls=None, indent=None, indent=None, separators=None, default=None, sort_keys=False, **kw) # 反序列化:讀取指定文件中的json字符串并轉(zhuǎn)換成Python對(duì)象 load(fp, cls=None, object_hook=None, parse_float=None, parse_int=None, parse_constant=None, object_pairs_hook=None, **kw)
2. JSON與Python之間數(shù)據(jù)類(lèi)型對(duì)應(yīng)關(guān)系
Python轉(zhuǎn)JSON
| Python | JSON |
|---|---|
| dict | Object |
| list, tuple | array |
| str | string |
| int, float, int- & float-derived Enums | numbers |
| True | true |
| False | false |
| None | null |
JSON轉(zhuǎn)Python
| JSON | Python |
|---|---|
| object | dict |
| array | list |
| string | str |
| number(int) | int |
| number(real) | float |
| true | True |
| false | False |
| null | None |
說(shuō)明:
- Python dict中的非字符串key被轉(zhuǎn)換成JSON字符串時(shí)都會(huì)被轉(zhuǎn)換為小寫(xiě)字符串;
- Python中的tuple,在序列化時(shí)會(huì)被轉(zhuǎn)換為array,但是反序列化時(shí),array會(huì)被轉(zhuǎn)化為list;
- 由以上兩點(diǎn)可知,當(dāng)Python對(duì)象中包含tuple數(shù)據(jù)或者包含dict,且dict中存在非字符串的key時(shí),反序列化后得到的結(jié)果與原來(lái)的Python對(duì)象是不一致的;
- 對(duì)于Python內(nèi)置的數(shù)據(jù)類(lèi)型(如:str, unicode, int, float, bool, None, list, tuple, dict)json模塊可以直接進(jìn)行序列化/反序列化處理;對(duì)于自定義類(lèi)的對(duì)象進(jìn)行序列化和反序列化時(shí),需要我們自己定義一個(gè)方法來(lái)完成定義object和dict之間進(jìn)行轉(zhuǎn)化。
3. 實(shí)例:內(nèi)置數(shù)據(jù)類(lèi)型序列化/反序列化
序列化
# 序列化
>>> json.dumps({'a':'str', 'c': True, 'e': 10, 'b': 11.1, 'd': None, 'f': [1, 2, 3], 'g':(4, 5, 6)})
'{"a": "str", "c": true, "b": 11.1, "e": 10, "d": null, "g": [4, 5, 6], "f": [1, 2, 3]}'
sort_keys參數(shù): 表示序列化時(shí)是否對(duì)dict的key進(jìn)行排序(dict默認(rèn)是無(wú)序的)
# 序列化并對(duì)key進(jìn)行排序
>>> json.dumps({'a':'str', 'c': True, 'e': 10, 'b': 11.1, 'd': None, 'f': [1, 2, 3], 'g':(4, 5, 6)}, sort_keys=True)
'{"a": "str", "b": 11.1, "c": true, "d": null, "e": 10, "f": [1, 2, 3], "g": [4, 5, 6]}'
indent參數(shù): 表示縮進(jìn)的意思,它可以使得數(shù)據(jù)存儲(chǔ)的格式變得更加優(yōu)雅、可讀性更強(qiáng);如果indent是一個(gè)非負(fù)整數(shù)或字符串,則JSON array元素和object成員將會(huì)被以相應(yīng)的縮進(jìn)級(jí)別進(jìn)行打印輸出;如果indent是0或負(fù)數(shù)或空字符串,則將只會(huì)插入換行,不會(huì)有縮進(jìn)。
# 序列化并對(duì)key進(jìn)行排序及格式化輸出
>>> print(json.dumps({'a':'str', 'c': True, 'e': 10, 'b': 11.1, 'd': None, 'f': [1, 2, 3], 'g':(4, 5, 6)}, sort_keys=True, indent=4))
{
"a": "str",
"b": 11.1,
"c": true,
"d": null,
"e": 10,
"f": [
1,
2,
3
],
"g": [
4,
5,
6
]
}
separators參數(shù): 盡管indent參數(shù)可以使得數(shù)據(jù)存儲(chǔ)的格式變得更加優(yōu)雅、可讀性更強(qiáng),但是那是通過(guò)添加一些冗余的空白字符進(jìn)行填充的。當(dāng)json被用于網(wǎng)絡(luò)數(shù)據(jù)通信時(shí),應(yīng)該盡可能的減少無(wú)用的數(shù)據(jù)傳輸,這樣可以節(jié)省貸款并加快數(shù)據(jù)傳輸速度。json模塊序列化Python對(duì)象后得到的json字符串中的','號(hào)和':'號(hào)分隔符后默認(rèn)都會(huì)附加一個(gè)空白字符,我們可以通過(guò)separators參數(shù)重新指定分隔符,從而去除無(wú)用的空白字符;
- 該參數(shù)的值應(yīng)該是一個(gè)tuple(item_separator, key_separator)
- 如果indent是None,其默認(rèn)值為(', ', ': ')
- 如果indent不為None,則默認(rèn)值為(',', ': ')
- 我們可以通過(guò)為separator賦值為(',', ':')來(lái)消除空白字符
>>> json.dumps({'a':'str', 'c': True, 'e': 10, 'b': 11.1, 'd': None, 'f': [1, 2, 3], 'g':(4, 5, 6)})
'{"a": "str", "c": true, "b": 11.1, "e": 10, "d": null, "g": [4, 5, 6], "f": [1, 2, 3]}'
>>> json.dumps({'a':'str', 'c': True, 'e': 10, 'b': 11.1, 'd': None, 'f': [1, 2, 3], 'g':(4, 5, 6)}, separators=(',',':'))
'{"a":"str","c":true,"b":11.1,"e":10,"d":null,"g":[4,5,6],"f":[1,2,3]}'
反序列化
# 反序列化
>>> json.loads('{"a": "str", "c": true, "b": 11.1, "e": 10, "d": null, "g": [4, 5, 6], "f": [1, 2, 3]}')
{'c': True, 'e': 10, 'a': 'str', 'g': [4, 5, 6], 'd': None, 'f': [1, 2, 3], 'b': 11.1}
>>> json.loads('{"a":"str","c":true,"b":11.1,"e":10,"d":null,"g":[4,5,6],"f":[1,2,3]}')
{'c': True, 'e': 10, 'a': 'str', 'g': [4, 5, 6], 'd': None, 'f': [1, 2, 3], 'b': 11.1}
dump()與load()函數(shù)示例
# 序列化到文件中
>>> with open('test.json', 'w') as fp:
... json.dump({'a':'str中國(guó)', 'c': True, 'e': 10, 'b': 11.1, 'd': None, 'f': [1, 2, 3], 'g':(4, 5, 6)}, fp, indent=4)
# 反序列化文件中的內(nèi)容
>>> with open('test.json', 'r') as fp:
... json.load(fp)
{'e': 10, 'g': [4, 5, 6], 'b': 11.1, 'c': True, 'd': None, 'a': 'str中國(guó)', 'f': [1, 2, 3]}
需要說(shuō)明的是: 如果試圖使用相同的fp重復(fù)調(diào)用dump()函數(shù)去序列化多個(gè)對(duì)象(或序列化同一個(gè)對(duì)象多次),將會(huì)產(chǎn)生一個(gè)無(wú)效的JSON文件,也就是說(shuō)對(duì)于一個(gè)fp只能調(diào)用一次dump()。
4. 實(shí)例:自定義數(shù)據(jù)類(lèi)型的序列化/反序列化
Python是面向?qū)ο蟮木幊陶Z(yǔ)言,我們可以自定義需要的數(shù)據(jù)類(lèi)型;實(shí)際工作中,我們常常會(huì)用到自定義數(shù)據(jù)類(lèi)型的序列化與反序列化操作。要實(shí)現(xiàn)自定義數(shù)據(jù)類(lèi)型的序列化與反序列化有兩種方式:
- 通過(guò)轉(zhuǎn)換函數(shù)實(shí)現(xiàn)
- 通過(guò)繼承JSONEncoder和JSONDecoder類(lèi)實(shí)現(xiàn)
首先來(lái)自定義一個(gè)數(shù)據(jù)類(lèi)型
class Student(object): def __init__(self, name, age, sno): self.name = name self.age = age self.sno = sno def __repr__(self): return 'Student [name: %s, age: %d, sno: %d]' % (self.name, self.age, self.sno)
直接調(diào)用dumps()方法會(huì)引發(fā)TypeError錯(cuò)誤:
>>> stu = Student('Tom', 19, 1)
>>> print(stu)
Student [name: Tom, age: 19, sno: 1]
>>>
>>> json.dumps(stu)
...
TypeError: Student [name: Tom, age: 19, sno: 1] is not JSON serializable
上面的異常信息中指出:stu對(duì)象不可以被序列化為JSON個(gè)數(shù)的數(shù)據(jù)。那么我們分別通過(guò)“編寫(xiě)轉(zhuǎn)換函數(shù)” 和 “繼承JSONEncoder和JSONDecoder類(lèi)” 來(lái)實(shí)現(xiàn)對(duì)這個(gè)自定義數(shù)據(jù)類(lèi)型的JSON序列化和反序列化。
方法1:編寫(xiě)轉(zhuǎn)換函數(shù)
那么這個(gè)轉(zhuǎn)換函數(shù)要完成哪兩個(gè)數(shù)據(jù)類(lèi)型之間的轉(zhuǎn)換呢? 從上面列出的JSON與Python數(shù)據(jù)類(lèi)型的對(duì)應(yīng)表中可知,JSON中的object對(duì)應(yīng)的是Python中的dict,因此要對(duì)Python中的自定義數(shù)據(jù)類(lèi)型的對(duì)象進(jìn)行序列化,就需要先把這個(gè)對(duì)象轉(zhuǎn)換成json模塊可以直接進(jìn)行序列化dict類(lèi)型。由此可知,這個(gè)轉(zhuǎn)換函數(shù)是要完成的是Python對(duì)象(不是JSON對(duì)象)與dict之間的相互轉(zhuǎn)換,且序列化時(shí)轉(zhuǎn)換過(guò)程是“Python對(duì)象 --> dict --> JSON object”,反序列化的過(guò)程是“JSON object -> dict --> Python對(duì)象”。所以,我們需要編寫(xiě)兩個(gè)轉(zhuǎn)換函數(shù)來(lái)分別實(shí)現(xiàn)序列化和反序列化時(shí)的轉(zhuǎn)換過(guò)程。
def obj2dict(obj):
d = {}
d['__class__'] = obj.__class__.__name__
d['__module__'] = obj.__module__
d.update(obj.__dict__)
return d
def dict2obj(d):
if '__class__' in d:
class_name = d.pop('__class__')
module_name = d.pop('__module__')
module = __import__(module_name)
class_ = getattr(module, class_name)
args = dict((key.encode('ascii'), value) for key, value in d.items())
instance = class_(**args)
else:
instance = d
return instance
繼承JSONEncoder實(shí)現(xiàn)反序列化時(shí)還有一個(gè)額外的作用,就是可以通過(guò)iterencode()方法把一個(gè)很大的數(shù)據(jù)對(duì)象分多次進(jìn)行序列化,這對(duì)于網(wǎng)絡(luò)傳輸、磁盤(pán)持久化等情景非常有用。
>>> for chunk in MyJSONEncoder().iterencode(stu):
... print(chunk)
...
{
"__class__"
:
"Student"
,
"name"
:
"Tom"
,
"__module__"
:
"__main__"
,
"sno"
:
1
,
"age"
:
19
}
大數(shù)據(jù)對(duì)象序列化網(wǎng)絡(luò)傳輸偽代碼:
for chunk in JSONEncoder().iterencode(bigobject): mysocket.write(chunk)
序列化測(cè)試:
>>> import json
>>> obj2dict(stu)
{'sno': 1, '__module__': '__main__', 'age': 19, '__class__': 'Student', 'name': 'Tom'}
>>> json.dumps(obj2dict(stu))
'{"sno": 1, "__module__": "__main__", "age": 19, "__class__": "Student", "name": "Tom"}'
>>> json.dumps(stu, default=obj2dict)
'{"sno": 1, "__module__": "__main__", "age": 19, "__class__": "Student", "name": "Tom"}'
json.dumps(stu, default=obj2dict) 等價(jià)于 json.dumps(obj2dict(stu))
反序列化測(cè)試:
>>> json.loads('{"sno": 1, "__module__": "__main__", "age": 19, "__class__": "Student", "name": "Tom"}')
{u'sno': 1, u'__module__': u'__main__', u'age': 19, u'name': u'Tom', u'__class__': u'Student'}
>>> dict2obj(json.loads('{"sno": 1, "__module__": "__main__", "age": 19, "__class__": "Student", "name": "Tom"}'))
Student [name: Tom, age: 19, sno: 1]
>>> json.loads('{"sno": 1, "__module__": "__main__", "age": 19, "__class__": "Student", "name": "Tom"}', object_hook=dict2obj)
Student [name: Tom, age: 19, sno: 1]
json.loads(JSON_STR, object_hook=dict2obj) 等價(jià)于 dict2obj(json.loads(JSON_STR))
方法2:繼承JSONEncoder和JSONDecoder實(shí)現(xiàn)子類(lèi)
import json
class MyJSONEncoder(json.JSONEncoder):
def default(self, obj):
d = {}
d['__class__'] = obj.__class__.__name__
d['__module__'] = obj.__module__
d.update(obj.__dict__)
return d
class MyJSONDecoder(json.JSONDecoder):
def __init__(self):
json.JSONDecoder.__init__(self, object_hook=self.dict2obj)
def dict2obj(self, d):
if '__class__' in d:
class_name = d.pop('__class__')
module_name = d.pop('__module__')
module = __import__(module_name)
class_ = getattr(module, class_name)
args = dict((key.encode('ascii'), value) for key, value in d.items())
instance = class_(**args)
else:
instance = d
return instance
序列化測(cè)試:
>>> stu = Student('Tom', 19, 1)
# 方式一:直接調(diào)用子類(lèi)MyJSONEncoder的encode()方法進(jìn)行序列化
>>> MyJSONEncoder().encode(stu)
'{"__class__": "Student", "__module__": "__main__", "name": "Tom", "age": 19, "sno": 1}'
>>> MyJSONEncoder(separators=(',', ':')).encode(stu)
'{"__class__":"Student","__module__":"__main__","name":"Tom","age":19,"sno":1}'
# 方式二:將子類(lèi)MyJSONEncoder作為cls參數(shù)的值傳遞給json.dumps()函數(shù)
>>> json.dumps(stu, cls=MyJSONEncoder)
'{"__class__": "Student", "__module__": "__main__", "name": "Tom", "age": 19, "sno": 1}'
>>> json.dumps(stu, cls=MyJSONEncoder, separators=(',', ':'))
'{"__class__":"Student","__module__":"__main__","name":"Tom","age":19,"sno":1}'
反序列化測(cè)試:
>>> MyJSONDecoder().decode('{"sno": 1, "__module__": "__main__", "age": 19, "__class__": "Student", "name": "Tom"}')
Student [name: Tom, age: 19, sno: 1]
說(shuō)明: 經(jīng)過(guò)測(cè)試發(fā)現(xiàn)MyJSONDecoder().decode(JSON_STR) 和 json.loads(JSON_STR, object_hook=dict2obj) 只能在Python 2.7上正確執(zhí)行,在Python 3.5上無(wú)法正確執(zhí)行;而 json.loads(JSON_STR, cls=MyJSONDecoder) 無(wú)論在Python 2.7還是在Python 3.5上都無(wú)法正確執(zhí)行。這說(shuō)明json模塊對(duì)于自定義數(shù)據(jù)類(lèi)型的反序列化支持還是比較有限的,但是我們也可以通過(guò)json.loads(JSON_STR)函數(shù),不指定cls參數(shù)來(lái)得到一個(gè)dict對(duì)象,然后自己完成dict到object的轉(zhuǎn)換。
三、pickle模塊
pickle模塊實(shí)現(xiàn)了用于對(duì)Python對(duì)象結(jié)構(gòu)進(jìn)行 序列化 和 反序列化 的二進(jìn)制協(xié)議,與json模塊不同的是pickle模塊序列化和反序列化的過(guò)程分別叫做 pickling 和 unpickling:
- pickling: 是將Python對(duì)象轉(zhuǎn)換為字節(jié)流的過(guò)程;
- unpickling: 是將字節(jié)流二進(jìn)制文件或字節(jié)對(duì)象轉(zhuǎn)換回Python對(duì)象的過(guò)程;
1. pickle模塊與json模塊對(duì)比
- JSON是一種文本序列化格式(它輸出的是unicode文件,大多數(shù)時(shí)候會(huì)被編碼為utf-8),而pickle是一個(gè)二進(jìn)制序列化格式;
- JOSN是我們可以讀懂的數(shù)據(jù)格式,而pickle是二進(jìn)制格式,我們無(wú)法讀懂;
- JSON是與特定的編程語(yǔ)言或系統(tǒng)無(wú)關(guān)的,且它在Python生態(tài)系統(tǒng)之外被廣泛使用,而pickle使用的數(shù)據(jù)格式是特定于Python的;
- 默認(rèn)情況下,JSON只能表示Python內(nèi)建數(shù)據(jù)類(lèi)型,對(duì)于自定義數(shù)據(jù)類(lèi)型需要一些額外的工作來(lái)完成;pickle可以直接表示大量的Python數(shù)據(jù)類(lèi)型,包括自定數(shù)據(jù)類(lèi)型(其中,許多是通過(guò)巧妙地使用Python內(nèi)省功能自動(dòng)實(shí)現(xiàn)的;復(fù)雜的情況可以通過(guò)實(shí)現(xiàn)specific object API來(lái)解決)
2. pickle模塊使用的數(shù)據(jù)流格式
上面提到,pickle使用的數(shù)據(jù)格式是特定于Python的。這使得它不受諸如JSON或XDR的外部標(biāo)準(zhǔn)限值,但是這也意味著非Python程序可能無(wú)法重建pickled Python對(duì)象。默認(rèn)情況下,pickle數(shù)據(jù)格式使用相對(duì)緊湊的二進(jìn)制表示。如果需要最佳大小特征,可以有效的壓縮pickled數(shù)據(jù)。pickletools模塊包含可以用于對(duì)pickle生成的數(shù)據(jù)流進(jìn)行分析的工具。目前有5種不同的協(xié)議可以用于pickle。使用的協(xié)議越高,就需要更新的Python版本去讀取pickle產(chǎn)生的數(shù)據(jù):
- 協(xié)議v0是原始的“人類(lèi)可讀”協(xié)議,并且向后倩蓉早期的Python版本;
- 協(xié)議v1是一個(gè)舊的二進(jìn)制格式,也與早期版本的Python兼容;
- 協(xié)議v2在Python 2.3中引入,它提供更高效的pickling;
- 協(xié)議v3是在Python 3.0添加的協(xié)議,它明確支持bytes對(duì)象,且不能被Python 2.x 進(jìn)行unpickle操作;這是默認(rèn)協(xié)議,也是當(dāng)需要兼容其他Python 3版本時(shí)被推薦使用的協(xié)議;
- 協(xié)議4是在Python 3.4添加的協(xié)議,它添加了對(duì)極大對(duì)象的支持,pickling更多種類(lèi)的對(duì)象,以及一些數(shù)據(jù)格式的優(yōu)化。
說(shuō)明: Python 2.x中默認(rèn)使用的是協(xié)議v0,如果協(xié)議指定為賦值或HIGHEST_PROTOCOL,將使用當(dāng)前可用的最高協(xié)議版本;Python 3.x中默認(rèn)使用的是協(xié)議v3,它兼容其他Python 3版本,但是不兼容Python 2。
注意: 序列化(Serialization)是一個(gè)比持久化(Persistence)更加原始的概念;雖然pickle可以讀寫(xiě)文件對(duì)象,但是它不處理持久化對(duì)象的命名問(wèn)題,也不處理對(duì)持久化對(duì)象的并發(fā)訪(fǎng)問(wèn)問(wèn)題(甚至更復(fù)雜的問(wèn)題)。pickle模塊可以將復(fù)雜對(duì)象轉(zhuǎn)換為字節(jié)流,并且可以將字節(jié)流轉(zhuǎn)換為具有相同內(nèi)部結(jié)構(gòu)的對(duì)象?;蛟S最可能對(duì)這些字節(jié)流做的事情是將它們寫(xiě)入文件,但是也可以對(duì)它們進(jìn)行網(wǎng)絡(luò)傳輸或?qū)⑺鼈兇鎯?chǔ)在數(shù)據(jù)庫(kù)中。shelve模塊提供了一個(gè)簡(jiǎn)單的接口用于在DBM風(fēng)格的數(shù)據(jù)庫(kù)文件上對(duì)對(duì)象進(jìn)行pickle和unpickle操作。
3. pickle模塊提供的相關(guān)函數(shù)
pickle模塊提供的幾個(gè)序列化/反序列化的函數(shù)與json模塊基本一致:
# 將指定的Python對(duì)象通過(guò)pickle序列化作為bytes對(duì)象返回,而不是將其寫(xiě)入文件 dumps(obj, protocol=None, *, fix_imports=True) # 將通過(guò)pickle序列化后得到的字節(jié)對(duì)象進(jìn)行反序列化,轉(zhuǎn)換為Python對(duì)象并返回 loads(bytes_object, *, fix_imports=True, encoding="ASCII", errors="strict") # 將指定的Python對(duì)象通過(guò)pickle序列化后寫(xiě)入打開(kāi)的文件對(duì)象中,等價(jià)于`Pickler(file, protocol).dump(obj)` dump(obj, file, protocol=None, *, fix_imports=True) # 從打開(kāi)的文件對(duì)象中讀取pickled對(duì)象表現(xiàn)形式并返回通過(guò)pickle反序列化后得到的Python對(duì)象 load(file, *, fix_imports=True, encoding="ASCII", errors="strict")
說(shuō)明: 上面這幾個(gè)方法參數(shù)中,*號(hào)后面的參數(shù)都是Python 3.x新增的,目的是為了兼容Python 2.x,具體用法請(qǐng)參看官方文檔。
4. 實(shí)例:內(nèi)置數(shù)據(jù)類(lèi)型的序列化/反序列化
Python 2.x
>>> import pickle
>>>
>>> var_a = {'a':'str', 'c': True, 'e': 10, 'b': 11.1, 'd': None, 'f': [1, 2, 3], 'g':(4, 5, 6)}
# 序列化
>>> var_b = pickle.dumps(var_a)
>>> var_b
"(dp0\nS'a'\np1\nS'str'\np2\nsS'c'\np3\nI01\nsS'b'\np4\nF11.1\nsS'e'\np5\nI10\nsS'd'\np6\nNsS'g'\np7\n(I4\nI5\nI6\ntp8\nsS'f'\np9\n(lp10\nI1\naI2\naI3\nas."
# 反序列化
>>> var_c = pickle.loads(var_b)
>>> var_c
{'a': 'str', 'c': True, 'b': 11.1, 'e': 10, 'd': None, 'g': (4, 5, 6), 'f': [1, 2, 3]}
Python 3.x
>>> import pickle
>>>
>>> var_a = {'a':'str', 'c': True, 'e': 10, 'b': 11.1, 'd': None, 'f': [1, 2, 3], 'g':(4, 5, 6)}
# 序列化
>>> var_b = pickle.dumps(var_a)
>>> var_b
b'\x80\x03}q\x00(X\x01\x00\x00\x00eq\x01K\nX\x01\x00\x00\x00aq\x02X\x03\x00\x00\x00strq\x03X\x01\x00\x00\x00fq\x04]q\x05(K\x01K\x02K\x03eX\x01\x00\x00\x00gq\x06K\x04K\x05K\x06\x87q\x07X\x01\x00\x00\x00bq\x08G@&333333X\x01\x00\x00\x00cq\t\x88X\x01\x00\x00\x00dq\nNu.'
# 反序列化
>>> var_c = pickle.loads(var_b)
>>> var_c
{'e': 10, 'a': 'str', 'f': [1, 2, 3], 'g': (4, 5, 6), 'b': 11.1, 'c': True, 'd': None}
dump()與load()
>>> import pickle
>>>
>>> var_a = {'a':'str', 'c': True, 'e': 10, 'b': 11.1, 'd': None, 'f': [1, 2, 3], 'g':(4, 5, 6)}
# 持久化到文件
>>> with open('pickle.txt', 'wb') as f:
... pickle.dump(var_a, f)
...
# 從文件中讀取數(shù)據(jù)
>>> with open('pickle.txt', 'rb') as f:
... var_b = pickle.load(f)
...
>>> var_b
{'e': 10, 'a': 'str', 'f': [1, 2, 3], 'g': (4, 5, 6), 'b': 11.1, 'c': True, 'd': None}
>>>
說(shuō)明:
- 默認(rèn)情況下Python 2.x中pickled后的數(shù)據(jù)是字符串形式,需要將它轉(zhuǎn)換為字節(jié)對(duì)象才能被Python 3.x中的pickle.loads()反序列化;Python 3.x中pickling所使用的協(xié)議是v3,因此需要在調(diào)用pickle.dumps()時(shí)指定可選參數(shù)protocol為Python 2.x所支持的協(xié)議版本(0,1,2),否則pickled后的數(shù)據(jù)不能被被Python 2.x中的pickle.loads()反序列化;
- Python 3.x中pickle.dump()和pickle.load()方法中指定的文件對(duì)象,必須以二進(jìn)制模式打開(kāi),而Python 2.x中可以以二進(jìn)制模式打開(kāi),也可以以文本模式打開(kāi)。
5. 實(shí)例:自定義數(shù)據(jù)類(lèi)型的序列化/反序列化
首先來(lái)自定義一個(gè)數(shù)據(jù)類(lèi)型:
class Student(object): def __init__(self, name, age, sno): self.name = name self.age = age self.sno = sno def __repr__(self): return 'Student [name: %s, age: %d, sno: %d]' % (self.name, self.age, self.sno)
pickle模塊可以直接對(duì)自定數(shù)據(jù)類(lèi)型進(jìn)行序列化/反序列化操作,無(wú)需編寫(xiě)額外的處理函數(shù)或類(lèi)。
>>> stu = Student('Tom', 19, 1)
>>> print(stu)
Student [name: Tom, age: 19, sno: 1]
# 序列化
>>> var_b = pickle.dumps(stu)
>>> var_b
b'\x80\x03c__main__\nStudent\nq\x00)\x81q\x01}q\x02(X\x04\x00\x00\x00nameq\x03X\x03\x00\x00\x00Tomq\x04X\x03\x00\x00\x00ageq\x05K\x13X\x03\x00\x00\x00snoq\x06K\x01ub.'
# 反序列化
>>> var_c = pickle.loads(var_b)
>>> var_c
Student [name: Tom, age: 19, sno: 1]
# 持久化到文件
>>> with open('pickle.txt', 'wb') as f:
... pickle.dump(stu, f)
...
# 從文件總讀取數(shù)據(jù)
>>> with open('pickle.txt', 'rb') as f:
... pickle.load(f)
...
Student [name: Tom, age: 19, sno: 1]
四、shelve模塊
shelve是一個(gè)簡(jiǎn)單的數(shù)據(jù)存儲(chǔ)方案,類(lèi)似key-value數(shù)據(jù)庫(kù),可以很方便的保存python對(duì)象,其內(nèi)部是通過(guò)pickle協(xié)議來(lái)實(shí)現(xiàn)數(shù)據(jù)序列化。shelve只有一個(gè)open()函數(shù),這個(gè)函數(shù)用于打開(kāi)指定的文件(一個(gè)持久的字典),然后返回一個(gè)shelf對(duì)象。shelf是一種持久的、類(lèi)似字典的對(duì)象。它與“dbm”的不同之處在于,其values值可以是任意基本Python對(duì)象--pickle模塊可以處理的任何數(shù)據(jù)。這包括大多數(shù)類(lèi)實(shí)例、遞歸數(shù)據(jù)類(lèi)型和包含很多共享子對(duì)象的對(duì)象。keys還是普通的字符串。
open(filename, flag='c', protocol=None, writeback=False)
flag 參數(shù)表示打開(kāi)數(shù)據(jù)存儲(chǔ)文件的格式,可取值與dbm.open()函數(shù)一致:
| 值 | 描述 |
|---|---|
| 'r' | 以只讀模式打開(kāi)一個(gè)已經(jīng)存在的數(shù)據(jù)存儲(chǔ)文件 |
| 'w' | 以讀寫(xiě)模式打開(kāi)一個(gè)已經(jīng)存在的數(shù)據(jù)存儲(chǔ)文件 |
| 'c' | 以讀寫(xiě)模式打開(kāi)一個(gè)數(shù)據(jù)存儲(chǔ)文件,如果不存在則創(chuàng)建 |
| 'n' | 總是創(chuàng)建一個(gè)新的、空數(shù)據(jù)存儲(chǔ)文件,并以讀寫(xiě)模式打開(kāi) |
protocol 參數(shù)表示序列化數(shù)據(jù)所使用的協(xié)議版本,默認(rèn)是pickle v3;
writeback 參數(shù)表示是否開(kāi)啟回寫(xiě)功能。
我們可以把shelf對(duì)象當(dāng)dict來(lái)使用--存儲(chǔ)、更改、查詢(xún)某個(gè)key對(duì)應(yīng)的數(shù)據(jù),當(dāng)操作完成之后,調(diào)用shelf對(duì)象的close()函數(shù)即可。當(dāng)然,也可以使用上下文管理器(with語(yǔ)句),避免每次都要手動(dòng)調(diào)用close()方法。
實(shí)例:內(nèi)置數(shù)據(jù)類(lèi)型操作
# 保存數(shù)據(jù)
with shelve.open('student') as db:
db['name'] = 'Tom'
db['age'] = 19
db['hobby'] = ['籃球', '看電影', '彈吉他']
db['other_info'] = {'sno': 1, 'addr': 'xxxx'}
# 讀取數(shù)據(jù)
with shelve.open('student') as db:
for key,value in db.items():
print(key, ': ', value)
輸出結(jié)果:
name : Tom
age : 19
hobby : ['籃球', '看電影', '彈吉他']
other_info : {'sno': 1, 'addr': 'xxxx'}
實(shí)例:自定義數(shù)據(jù)類(lèi)型操作
# 自定義class
class Student(object):
def __init__(self, name, age, sno):
self.name = name
self.age = age
self.sno = sno
def __repr__(self):
return 'Student [name: %s, age: %d, sno: %d]' % (self.name, self.age, self.sno)
# 保存數(shù)據(jù)
tom = Student('Tom', 19, 1)
jerry = Student('Jerry', 17, 2)
with shelve.open("stu.db") as db:
db['Tom'] = tom
db['Jerry'] = jerry
# 讀取數(shù)據(jù)
with shelve.open("stu.db") as db:
print(db['Tom'])
print(db['Jerry'])
輸出結(jié)果:
Student [name: Tom, age: 19, sno: 1]
Student [name: Jerry, age: 17, sno: 2]
五、總結(jié)
1. 對(duì)比
json模塊常用于編寫(xiě)web接口,將Python數(shù)據(jù)轉(zhuǎn)換為通用的json格式傳遞給其它系統(tǒng)或客戶(hù)端;也可以用于將Python數(shù)據(jù)保存到本地文件中,缺點(diǎn)是明文保存,保密性差。另外,如果需要保存費(fèi)內(nèi)置數(shù)據(jù)類(lèi)型需要編寫(xiě)額外的轉(zhuǎn)換函數(shù)或自定義類(lèi)。
pickle模塊和shelve模塊由于使用其特有的序列化協(xié)議,其序列化之后的數(shù)據(jù)只能被Python識(shí)別,因此只能用于Python系統(tǒng)內(nèi)部。另外,Python 2.x 和 Python
3.x 默認(rèn)使用的序列化協(xié)議也不同,如果需要互相兼容需要在序列化時(shí)通過(guò)protocol參數(shù)指定協(xié)議版本。除了上面這些缺點(diǎn)外,pickle模塊和shelve模塊相對(duì)于json模塊的優(yōu)點(diǎn)在于對(duì)于自定義數(shù)據(jù)類(lèi)型可以直接序列化和反序列化,不需要編寫(xiě)額外的轉(zhuǎn)換函數(shù)或類(lèi)。
shelve模塊可以看做是pickle模塊的升級(jí)版,因?yàn)閟helve使用的就是pickle的序列化協(xié)議,但是shelve比pickle提供的操作方式更加簡(jiǎn)單、方便。shelve模塊相對(duì)于其它兩個(gè)模塊在將Python數(shù)據(jù)持久化到本地磁盤(pán)時(shí)有一個(gè)很明顯的優(yōu)點(diǎn)就是,它允許我們可以像操作dict一樣操作被序列化的數(shù)據(jù),而不必一次性的保存或讀取所有數(shù)據(jù)。
2. 建議
- 需要與外部系統(tǒng)交互時(shí)用json模塊;
- 需要將少量、簡(jiǎn)單Python數(shù)據(jù)持久化到本地磁盤(pán)文件時(shí)可以考慮用pickle模塊;
- 需要將大量Python數(shù)據(jù)持久化到本地磁盤(pán)文件或需要一些簡(jiǎn)單的類(lèi)似數(shù)據(jù)庫(kù)的增刪改查功能時(shí),可以考慮用shelve模塊。
3. 附錄
| 要實(shí)現(xiàn)的功能 | 可以使用的api |
|---|---|
| 將Python數(shù)據(jù)類(lèi)型轉(zhuǎn)換為(json)字符串 | json.dumps() |
| 將json字符串轉(zhuǎn)換為Python數(shù)據(jù)類(lèi)型 | json.loads() |
| 將Python數(shù)據(jù)類(lèi)型以json形式保存到本地磁盤(pán) | json.dump() |
| 將本地磁盤(pán)文件中的json數(shù)據(jù)轉(zhuǎn)換為Python數(shù)據(jù)類(lèi)型 | json.load() |
| 將Python數(shù)據(jù)類(lèi)型轉(zhuǎn)換為Python特定的二進(jìn)制格式 | pickle.dumps() |
| 將Python特定的的二進(jìn)制格式數(shù)據(jù)轉(zhuǎn)換為Python數(shù)據(jù)類(lèi)型 | pickle.loads() |
| 將Python數(shù)據(jù)類(lèi)型以Python特定的二進(jìn)制格式保存到本地磁盤(pán) | pickle.dump() |
| 將本地磁盤(pán)文件中的Python特定的二進(jìn)制格式數(shù)據(jù)轉(zhuǎn)換為Python數(shù)據(jù)類(lèi)型 | pickle.load() |
| 以類(lèi)型dict的形式將Python數(shù)據(jù)類(lèi)型保存到本地磁盤(pán)或讀取本地磁盤(pán)數(shù)據(jù)并轉(zhuǎn)換為數(shù)據(jù)類(lèi)型 | shelve.open() |
以上就是本文的全部?jī)?nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
- Python序列化模塊之pickle與json詳解
- Python常用標(biāo)準(zhǔn)庫(kù)詳解(pickle序列化和JSON序列化)
- Python 對(duì)象序列化與反序列化之pickle json詳細(xì)解析
- Python 解析庫(kù)json及jsonpath pickle的實(shí)現(xiàn)
- Python標(biāo)準(zhǔn)庫(kù)json模塊和pickle模塊使用詳解
- Python之?dāng)?shù)據(jù)序列化(json、pickle、shelve)詳解
- Python3.5 Json與pickle實(shí)現(xiàn)數(shù)據(jù)序列化與反序列化操作示例
- Python序列化基礎(chǔ)知識(shí)(json/pickle)
- 簡(jiǎn)單談?wù)凱ython中的json與pickle
- Python序列化模塊JSON與Pickle
相關(guān)文章
Python文件循環(huán)寫(xiě)入行時(shí)防止覆蓋的解決方法
今天小編就為大家分享一篇Python文件循環(huán)寫(xiě)入行時(shí)防止覆蓋的解決方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2018-11-11
django 2.0更新的10條注意事項(xiàng)總結(jié)
Django 是 Python Web 開(kāi)發(fā)最常用的框架之一,跟進(jìn)它的最新變化絕對(duì)是必須的。下面這篇文章主要給大家介紹了關(guān)于django 2.0更新的10條注意事項(xiàng),文中通過(guò)示例代碼介紹的非常詳細(xì),需要的朋友可以參考借鑒,下面來(lái)一起看看吧。2018-01-01
Python3基礎(chǔ)之基本數(shù)據(jù)類(lèi)型概述
這篇文章主要介紹了Python3的基本數(shù)據(jù)類(lèi)型,需要的朋友可以參考下2014-08-08
如何使用Python在2秒內(nèi)評(píng)估國(guó)際象棋位置詳解
關(guān)心編程語(yǔ)言的使用趨勢(shì)的人都知道,最近幾年,國(guó)內(nèi)最火的兩種語(yǔ)言非Python與Go莫屬,下面這篇文章主要給大家介紹了關(guān)于如何使用Python在2秒內(nèi)評(píng)估國(guó)際象棋位置的相關(guān)資料,需要的朋友可以參考下2022-05-05
Django權(quán)限設(shè)置及驗(yàn)證方式
這篇文章主要介紹了Django權(quán)限設(shè)置及驗(yàn)證方式,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2020-05-05
手把手教你搭建python+selenium自動(dòng)化環(huán)境(圖文)
本文主要介紹了手把手教你搭建python+selenium自動(dòng)化環(huán)境,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2022-06-06

