詳解Python之?dāng)?shù)據(jù)序列化（json、pickle、shelve）

更新時(shí)間：2017年03月30日 14:25:20 作者：云游道士

本篇文章主要介紹了Python之?dāng)?shù)據(jù)序列化，本節(jié)要介紹的就是Python內(nèi)置的幾個(gè)用于進(jìn)行數(shù)據(jù)序列化的模塊，有興趣的可以了解一下。

一、前言

1. 現(xiàn)實(shí)需求

每種編程語(yǔ)言都有各自的數(shù)據(jù)類(lèi)型，其中面向?qū)ο蟮木幊陶Z(yǔ)言還允許開(kāi)發(fā)者自定義數(shù)據(jù)類(lèi)型（如：自定義類(lèi)），Python也是一樣。很多時(shí)候我們會(huì)有這樣的需求：

把內(nèi)存中的各種數(shù)據(jù)類(lèi)型的數(shù)據(jù)通過(guò)網(wǎng)絡(luò)傳送給其它機(jī)器或客戶(hù)端；
把內(nèi)存中的各種數(shù)據(jù)類(lèi)型的數(shù)據(jù)保存到本地磁盤(pán)持久化；

2.數(shù)據(jù)格式

如果要將一個(gè)系統(tǒng)內(nèi)的數(shù)據(jù)通過(guò)網(wǎng)絡(luò)傳輸給其它系統(tǒng)或客戶(hù)端，我們通常都需要先把這些數(shù)據(jù)轉(zhuǎn)化為字符串或字節(jié)串，而且需要規(guī)定一種統(tǒng)一的數(shù)據(jù)格式才能讓數(shù)據(jù)接收端正確解析并理解這些數(shù)據(jù)的含義。XML 是早期被廣泛使用的數(shù)據(jù)交換格式，在早期的系統(tǒng)集成論文中經(jīng)?？梢钥吹剿纳碛?；如今大家使用更多的數(shù)據(jù)交換格式是JSON（JavaScript Object Notation），它是一種輕量級(jí)的數(shù)據(jù)交換格式。JSON相對(duì)于XML而言，更加加單、易于閱讀和編寫(xiě)，同時(shí)也易于機(jī)器解析和生成。除此之外，我們也可以自定義內(nèi)部使用的數(shù)據(jù)交換格式。

如果是想把數(shù)據(jù)持久化到本地磁盤(pán)，這部分?jǐn)?shù)據(jù)通常只是供系統(tǒng)內(nèi)部使用，因此數(shù)據(jù)轉(zhuǎn)換協(xié)議以及轉(zhuǎn)換后的數(shù)據(jù)格式也就不要求是標(biāo)準(zhǔn)、統(tǒng)一的，只要本系統(tǒng)內(nèi)部能夠正確識(shí)別即可。但是，系統(tǒng)內(nèi)部的轉(zhuǎn)換協(xié)議通常會(huì)隨著編程語(yǔ)言版本的升級(jí)而發(fā)生變化（改進(jìn)算法、提高效率），因此通常會(huì)涉及轉(zhuǎn)換協(xié)議與編程語(yǔ)言的版本兼容問(wèn)題，下面要時(shí)候的pickle協(xié)議就是這樣一個(gè)例子。

3. 序列化/反序列化

將對(duì)象轉(zhuǎn)換為可通過(guò)網(wǎng)絡(luò)傳輸或可以存儲(chǔ)到本地磁盤(pán)的數(shù)據(jù)格式（如：XML、JSON或特定格式的字節(jié)串）的過(guò)程稱(chēng)為序列化；反之，則稱(chēng)為反序列化。

4.相關(guān)模塊

本節(jié)要介紹的就是Python內(nèi)置的幾個(gè)用于進(jìn)行數(shù)據(jù)序列化的模塊：

模塊名稱(chēng)	描述	提供的api
json	用于實(shí)現(xiàn)Python數(shù)據(jù)類(lèi)型與通用（json）字符串之間的轉(zhuǎn)換	dumps()、dump()、loads()、load()
pickle	用于實(shí)現(xiàn)Python數(shù)據(jù)類(lèi)型與Python特定二進(jìn)制格式之間的轉(zhuǎn)換	dumps()、dump()、loads()、load()
shelve	專(zhuān)門(mén)用于將Python數(shù)據(jù)類(lèi)型的持久化到磁盤(pán)，shelf是一個(gè)類(lèi)似dict的對(duì)象，操作十分便捷	open()

二、json模塊

大部分編程語(yǔ)言都會(huì)提供處理json數(shù)據(jù)的接口，Python 2.6開(kāi)始加入了json模塊，且把它作為一個(gè)內(nèi)置模塊提供，無(wú)需下載即可使用。

1. 序列化與反序列化

Python的JSON模塊序列化與反序列化的過(guò)程分別叫做：encoding 和 decoding。

encoding：把Python對(duì)象轉(zhuǎn)換成JSON字符串
decoding：把JSON字符串轉(zhuǎn)換成python對(duì)象

json模塊提供了以下兩個(gè)方法來(lái)進(jìn)行序列化和反序列化操作：

# 序列化：將Python對(duì)象轉(zhuǎn)換成json字符串
dumps(obj, skipkeys=False, ensure_ascii=True, check_circular=True, allow_nan=True, cls=None, indent=None, separators=None, default=None, sort_keys=False, **kw)

# 反序列化：將json字符串轉(zhuǎn)換成Python對(duì)象
loads(s, encoding=None, cls=None, object_hook=None, parse_float=None, parse_int=None, parse_constant=None, object_pairs_hook=None, **kw)

除此之外，json模塊還提供了兩個(gè)額外的方法允許我們直接將序列化后得到的json數(shù)據(jù)保存到文件中，以及直接讀取文件中的json數(shù)據(jù)進(jìn)行反序列化操作：

# 序列化：將Python對(duì)象轉(zhuǎn)換成json字符串并存儲(chǔ)到文件中
dump(obj, fp, skipkeys=False, ensure_ascii=True, check_circular=True, allow_nan=True, cls=None, indent=None, indent=None, separators=None, default=None, sort_keys=False, **kw)

# 反序列化：讀取指定文件中的json字符串并轉(zhuǎn)換成Python對(duì)象
load(fp, cls=None, object_hook=None, parse_float=None, parse_int=None, parse_constant=None, object_pairs_hook=None, **kw)

2. JSON與Python之間數(shù)據(jù)類(lèi)型對(duì)應(yīng)關(guān)系

Python轉(zhuǎn)JSON

Python	JSON
dict	Object
list, tuple	array
str	string
int, float, int- & float-derived Enums	numbers
True	true
False	false
None	null

JSON轉(zhuǎn)Python

JSON	Python
object	dict
array	list
string	str
number(int)	int
number(real)	float
true	True
false	False
null	None

說(shuō)明：

Python dict中的非字符串key被轉(zhuǎn)換成JSON字符串時(shí)都會(huì)被轉(zhuǎn)換為小寫(xiě)字符串；
Python中的tuple，在序列化時(shí)會(huì)被轉(zhuǎn)換為array，但是反序列化時(shí)，array會(huì)被轉(zhuǎn)化為list；
由以上兩點(diǎn)可知，當(dāng)Python對(duì)象中包含tuple數(shù)據(jù)或者包含dict，且dict中存在非字符串的key時(shí)，反序列化后得到的結(jié)果與原來(lái)的Python對(duì)象是不一致的；
對(duì)于Python內(nèi)置的數(shù)據(jù)類(lèi)型（如：str, unicode, int, float, bool, None, list, tuple, dict）json模塊可以直接進(jìn)行序列化/反序列化處理；對(duì)于自定義類(lèi)的對(duì)象進(jìn)行序列化和反序列化時(shí)，需要我們自己定義一個(gè)方法來(lái)完成定義object和dict之間進(jìn)行轉(zhuǎn)化。

3. 實(shí)例：內(nèi)置數(shù)據(jù)類(lèi)型序列化/反序列化

序列化

# 序列化
>>> json.dumps({'a':'str', 'c': True, 'e': 10, 'b': 11.1, 'd': None, 'f': [1, 2, 3], 'g':(4, 5, 6)})
'{"a": "str", "c": true, "b": 11.1, "e": 10, "d": null, "g": [4, 5, 6], "f": [1, 2, 3]}'

sort_keys參數(shù)： 表示序列化時(shí)是否對(duì)dict的key進(jìn)行排序（dict默認(rèn)是無(wú)序的）

# 序列化并對(duì)key進(jìn)行排序
>>> json.dumps({'a':'str', 'c': True, 'e': 10, 'b': 11.1, 'd': None, 'f': [1, 2, 3], 'g':(4, 5, 6)}, sort_keys=True)
'{"a": "str", "b": 11.1, "c": true, "d": null, "e": 10, "f": [1, 2, 3], "g": [4, 5, 6]}'

indent參數(shù)： 表示縮進(jìn)的意思，它可以使得數(shù)據(jù)存儲(chǔ)的格式變得更加優(yōu)雅、可讀性更強(qiáng)；如果indent是一個(gè)非負(fù)整數(shù)或字符串，則JSON array元素和object成員將會(huì)被以相應(yīng)的縮進(jìn)級(jí)別進(jìn)行打印輸出；如果indent是0或負(fù)數(shù)或空字符串，則將只會(huì)插入換行，不會(huì)有縮進(jìn)。

# 序列化并對(duì)key進(jìn)行排序及格式化輸出
>>> print(json.dumps({'a':'str', 'c': True, 'e': 10, 'b': 11.1, 'd': None, 'f': [1, 2, 3], 'g':(4, 5, 6)}, sort_keys=True, indent=4)) 
{
 "a": "str", 
 "b": 11.1, 
 "c": true, 
 "d": null, 
 "e": 10, 
 "f": [
  1, 
  2, 
  3
 ], 
 "g": [
  4, 
  5, 
  6
 ]
}

separators參數(shù)： 盡管indent參數(shù)可以使得數(shù)據(jù)存儲(chǔ)的格式變得更加優(yōu)雅、可讀性更強(qiáng)，但是那是通過(guò)添加一些冗余的空白字符進(jìn)行填充的。當(dāng)json被用于網(wǎng)絡(luò)數(shù)據(jù)通信時(shí)，應(yīng)該盡可能的減少無(wú)用的數(shù)據(jù)傳輸，這樣可以節(jié)省貸款并加快數(shù)據(jù)傳輸速度。json模塊序列化Python對(duì)象后得到的json字符串中的','號(hào)和':'號(hào)分隔符后默認(rèn)都會(huì)附加一個(gè)空白字符，我們可以通過(guò)separators參數(shù)重新指定分隔符，從而去除無(wú)用的空白字符；

該參數(shù)的值應(yīng)該是一個(gè)tuple(item_separator, key_separator)
如果indent是None，其默認(rèn)值為(', ', ': ')
如果indent不為None，則默認(rèn)值為(',', ': ')
我們可以通過(guò)為separator賦值為(',', ':')來(lái)消除空白字符

>>> json.dumps({'a':'str', 'c': True, 'e': 10, 'b': 11.1, 'd': None, 'f': [1, 2, 3], 'g':(4, 5, 6)})
'{"a": "str", "c": true, "b": 11.1, "e": 10, "d": null, "g": [4, 5, 6], "f": [1, 2, 3]}'

>>> json.dumps({'a':'str', 'c': True, 'e': 10, 'b': 11.1, 'd': None, 'f': [1, 2, 3], 'g':(4, 5, 6)}, separators=(',',':'))
'{"a":"str","c":true,"b":11.1,"e":10,"d":null,"g":[4,5,6],"f":[1,2,3]}'

反序列化

# 反序列化
>>> json.loads('{"a": "str", "c": true, "b": 11.1, "e": 10, "d": null, "g": [4, 5, 6], "f": [1, 2, 3]}')
{'c': True, 'e': 10, 'a': 'str', 'g': [4, 5, 6], 'd': None, 'f': [1, 2, 3], 'b': 11.1}

>>> json.loads('{"a":"str","c":true,"b":11.1,"e":10,"d":null,"g":[4,5,6],"f":[1,2,3]}')
{'c': True, 'e': 10, 'a': 'str', 'g': [4, 5, 6], 'd': None, 'f': [1, 2, 3], 'b': 11.1}

dump()與load()函數(shù)示例

# 序列化到文件中
>>> with open('test.json', 'w') as fp:
...  json.dump({'a':'str中國(guó)', 'c': True, 'e': 10, 'b': 11.1, 'd': None, 'f': [1, 2, 3], 'g':(4, 5, 6)}, fp, indent=4)

# 反序列化文件中的內(nèi)容
>>> with open('test.json', 'r') as fp:
...  json.load(fp)
{'e': 10, 'g': [4, 5, 6], 'b': 11.1, 'c': True, 'd': None, 'a': 'str中國(guó)', 'f': [1, 2, 3]}

需要說(shuō)明的是： 如果試圖使用相同的fp重復(fù)調(diào)用dump()函數(shù)去序列化多個(gè)對(duì)象（或序列化同一個(gè)對(duì)象多次），將會(huì)產(chǎn)生一個(gè)無(wú)效的JSON文件，也就是說(shuō)對(duì)于一個(gè)fp只能調(diào)用一次dump()。

4. 實(shí)例：自定義數(shù)據(jù)類(lèi)型的序列化/反序列化

Python是面向?qū)ο蟮木幊陶Z(yǔ)言，我們可以自定義需要的數(shù)據(jù)類(lèi)型；實(shí)際工作中，我們常常會(huì)用到自定義數(shù)據(jù)類(lèi)型的序列化與反序列化操作。要實(shí)現(xiàn)自定義數(shù)據(jù)類(lèi)型的序列化與反序列化有兩種方式：

通過(guò)轉(zhuǎn)換函數(shù)實(shí)現(xiàn)
通過(guò)繼承JSONEncoder和JSONDecoder類(lèi)實(shí)現(xiàn)

首先來(lái)自定義一個(gè)數(shù)據(jù)類(lèi)型

class Student(object):
 def __init__(self, name, age, sno):
  self.name = name
  self.age = age
  self.sno = sno
 
 def __repr__(self):
  return 'Student [name: %s, age: %d, sno: %d]' % (self.name, self.age, self.sno)

直接調(diào)用dumps()方法會(huì)引發(fā)TypeError錯(cuò)誤：

>>> stu = Student('Tom', 19, 1)
>>> print(stu)
Student [name: Tom, age: 19, sno: 1]
>>>
>>> json.dumps(stu)
...
TypeError: Student [name: Tom, age: 19, sno: 1] is not JSON serializable

上面的異常信息中指出：stu對(duì)象不可以被序列化為JSON個(gè)數(shù)的數(shù)據(jù)。那么我們分別通過(guò)“編寫(xiě)轉(zhuǎn)換函數(shù)” 和 “繼承JSONEncoder和JSONDecoder類(lèi)” 來(lái)實(shí)現(xiàn)對(duì)這個(gè)自定義數(shù)據(jù)類(lèi)型的JSON序列化和反序列化。

方法1：編寫(xiě)轉(zhuǎn)換函數(shù)

那么這個(gè)轉(zhuǎn)換函數(shù)要完成哪兩個(gè)數(shù)據(jù)類(lèi)型之間的轉(zhuǎn)換呢？ 從上面列出的JSON與Python數(shù)據(jù)類(lèi)型的對(duì)應(yīng)表中可知，JSON中的object對(duì)應(yīng)的是Python中的dict，因此要對(duì)Python中的自定義數(shù)據(jù)類(lèi)型的對(duì)象進(jìn)行序列化，就需要先把這個(gè)對(duì)象轉(zhuǎn)換成json模塊可以直接進(jìn)行序列化dict類(lèi)型。由此可知，這個(gè)轉(zhuǎn)換函數(shù)是要完成的是Python對(duì)象（不是JSON對(duì)象）與dict之間的相互轉(zhuǎn)換，且序列化時(shí)轉(zhuǎn)換過(guò)程是“Python對(duì)象 --> dict --> JSON object”，反序列化的過(guò)程是“JSON object -> dict --> Python對(duì)象”。所以，我們需要編寫(xiě)兩個(gè)轉(zhuǎn)換函數(shù)來(lái)分別實(shí)現(xiàn)序列化和反序列化時(shí)的轉(zhuǎn)換過(guò)程。

def obj2dict(obj):
 d = {}
 d['__class__'] = obj.__class__.__name__
 d['__module__'] = obj.__module__
 d.update(obj.__dict__)
 return d

def dict2obj(d):
 if '__class__' in d:
  class_name = d.pop('__class__')
  module_name = d.pop('__module__')
  module = __import__(module_name)
  class_ = getattr(module, class_name)
  args = dict((key.encode('ascii'), value) for key, value in d.items())
  instance = class_(**args)
 else:
  instance = d
 return instance

繼承JSONEncoder實(shí)現(xiàn)反序列化時(shí)還有一個(gè)額外的作用，就是可以通過(guò)iterencode()方法把一個(gè)很大的數(shù)據(jù)對(duì)象分多次進(jìn)行序列化，這對(duì)于網(wǎng)絡(luò)傳輸、磁盤(pán)持久化等情景非常有用。

>>> for chunk in MyJSONEncoder().iterencode(stu):
...  print(chunk)
...
{
"__class__"
:
"Student"
,
"name"
:
"Tom"
,
"__module__"
:
"__main__"
,
"sno"
:
1
,
"age"
:
19
}

大數(shù)據(jù)對(duì)象序列化網(wǎng)絡(luò)傳輸偽代碼：

for chunk in JSONEncoder().iterencode(bigobject):
 mysocket.write(chunk)

序列化測(cè)試：

>>> import json

>>> obj2dict(stu)
{'sno': 1, '__module__': '__main__', 'age': 19, '__class__': 'Student', 'name': 'Tom'}

>>> json.dumps(obj2dict(stu))
'{"sno": 1, "__module__": "__main__", "age": 19, "__class__": "Student", "name": "Tom"}'

>>> json.dumps(stu, default=obj2dict)
'{"sno": 1, "__module__": "__main__", "age": 19, "__class__": "Student", "name": "Tom"}'

json.dumps(stu, default=obj2dict) 等價(jià)于 json.dumps(obj2dict(stu))

反序列化測(cè)試：

>>> json.loads('{"sno": 1, "__module__": "__main__", "age": 19, "__class__": "Student", "name": "Tom"}')
{u'sno': 1, u'__module__': u'__main__', u'age': 19, u'name': u'Tom', u'__class__': u'Student'}

>>> dict2obj(json.loads('{"sno": 1, "__module__": "__main__", "age": 19, "__class__": "Student", "name": "Tom"}'))
Student [name: Tom, age: 19, sno: 1]

>>> json.loads('{"sno": 1, "__module__": "__main__", "age": 19, "__class__": "Student", "name": "Tom"}', object_hook=dict2obj)
Student [name: Tom, age: 19, sno: 1]

json.loads(JSON_STR, object_hook=dict2obj) 等價(jià)于 dict2obj(json.loads(JSON_STR))

方法2：繼承JSONEncoder和JSONDecoder實(shí)現(xiàn)子類(lèi)

import json

class MyJSONEncoder(json.JSONEncoder):
 def default(self, obj):
  d = {}
  d['__class__'] = obj.__class__.__name__
  d['__module__'] = obj.__module__
  d.update(obj.__dict__)
  return d

class MyJSONDecoder(json.JSONDecoder):
 def __init__(self):
  json.JSONDecoder.__init__(self, object_hook=self.dict2obj)
 
 def dict2obj(self, d):
  if '__class__' in d:
   class_name = d.pop('__class__')
   module_name = d.pop('__module__')
   module = __import__(module_name)
   class_ = getattr(module, class_name)
   args = dict((key.encode('ascii'), value) for key, value in d.items())
   instance = class_(**args)
  else:
   instance = d
  return instance

序列化測(cè)試：

>>> stu = Student('Tom', 19, 1)

# 方式一：直接調(diào)用子類(lèi)MyJSONEncoder的encode()方法進(jìn)行序列化
>>> MyJSONEncoder().encode(stu)
'{"__class__": "Student", "__module__": "__main__", "name": "Tom", "age": 19, "sno": 1}'
>>> MyJSONEncoder(separators=(',', ':')).encode(stu)
'{"__class__":"Student","__module__":"__main__","name":"Tom","age":19,"sno":1}'

# 方式二：將子類(lèi)MyJSONEncoder作為cls參數(shù)的值傳遞給json.dumps()函數(shù)
>>> json.dumps(stu, cls=MyJSONEncoder)
'{"__class__": "Student", "__module__": "__main__", "name": "Tom", "age": 19, "sno": 1}'
>>> json.dumps(stu, cls=MyJSONEncoder, separators=(',', ':'))
'{"__class__":"Student","__module__":"__main__","name":"Tom","age":19,"sno":1}'

反序列化測(cè)試：

>>> MyJSONDecoder().decode('{"sno": 1, "__module__": "__main__", "age": 19, "__class__": "Student", "name": "Tom"}')
Student [name: Tom, age: 19, sno: 1]

說(shuō)明：經(jīng)過(guò)測(cè)試發(fā)現(xiàn)MyJSONDecoder().decode(JSON_STR) 和 json.loads(JSON_STR, object_hook=dict2obj) 只能在Python 2.7上正確執(zhí)行，在Python 3.5上無(wú)法正確執(zhí)行；而 json.loads(JSON_STR, cls=MyJSONDecoder) 無(wú)論在Python 2.7還是在Python 3.5上都無(wú)法正確執(zhí)行。這說(shuō)明json模塊對(duì)于自定義數(shù)據(jù)類(lèi)型的反序列化支持還是比較有限的，但是我們也可以通過(guò)json.loads(JSON_STR)函數(shù)，不指定cls參數(shù)來(lái)得到一個(gè)dict對(duì)象，然后自己完成dict到object的轉(zhuǎn)換。

三、pickle模塊

pickle模塊實(shí)現(xiàn)了用于對(duì)Python對(duì)象結(jié)構(gòu)進(jìn)行序列化和反序列化的二進(jìn)制協(xié)議，與json模塊不同的是pickle模塊序列化和反序列化的過(guò)程分別叫做 pickling 和 unpickling：

pickling：是將Python對(duì)象轉(zhuǎn)換為字節(jié)流的過(guò)程；
unpickling：是將字節(jié)流二進(jìn)制文件或字節(jié)對(duì)象轉(zhuǎn)換回Python對(duì)象的過(guò)程；

1. pickle模塊與json模塊對(duì)比

JSON是一種文本序列化格式（它輸出的是unicode文件，大多數(shù)時(shí)候會(huì)被編碼為utf-8），而pickle是一個(gè)二進(jìn)制序列化格式;
JOSN是我們可以讀懂的數(shù)據(jù)格式，而pickle是二進(jìn)制格式，我們無(wú)法讀懂；
JSON是與特定的編程語(yǔ)言或系統(tǒng)無(wú)關(guān)的，且它在Python生態(tài)系統(tǒng)之外被廣泛使用，而pickle使用的數(shù)據(jù)格式是特定于Python的；
默認(rèn)情況下，JSON只能表示Python內(nèi)建數(shù)據(jù)類(lèi)型，對(duì)于自定義數(shù)據(jù)類(lèi)型需要一些額外的工作來(lái)完成；pickle可以直接表示大量的Python數(shù)據(jù)類(lèi)型，包括自定數(shù)據(jù)類(lèi)型（其中，許多是通過(guò)巧妙地使用Python內(nèi)省功能自動(dòng)實(shí)現(xiàn)的；復(fù)雜的情況可以通過(guò)實(shí)現(xiàn)specific object API來(lái)解決）

2. pickle模塊使用的數(shù)據(jù)流格式

上面提到，pickle使用的數(shù)據(jù)格式是特定于Python的。這使得它不受諸如JSON或XDR的外部標(biāo)準(zhǔn)限值，但是這也意味著非Python程序可能無(wú)法重建pickled Python對(duì)象。默認(rèn)情況下，pickle數(shù)據(jù)格式使用相對(duì)緊湊的二進(jìn)制表示。如果需要最佳大小特征，可以有效的壓縮pickled數(shù)據(jù)。pickletools模塊包含可以用于對(duì)pickle生成的數(shù)據(jù)流進(jìn)行分析的工具。目前有5種不同的協(xié)議可以用于pickle。使用的協(xié)議越高，就需要更新的Python版本去讀取pickle產(chǎn)生的數(shù)據(jù)：

協(xié)議v0是原始的“人類(lèi)可讀”協(xié)議，并且向后倩蓉早期的Python版本；
協(xié)議v1是一個(gè)舊的二進(jìn)制格式，也與早期版本的Python兼容；
協(xié)議v2在Python 2.3中引入，它提供更高效的pickling；
協(xié)議v3是在Python 3.0添加的協(xié)議，它明確支持bytes對(duì)象，且不能被Python 2.x 進(jìn)行unpickle操作；這是默認(rèn)協(xié)議，也是當(dāng)需要兼容其他Python 3版本時(shí)被推薦使用的協(xié)議；
協(xié)議4是在Python 3.4添加的協(xié)議，它添加了對(duì)極大對(duì)象的支持，pickling更多種類(lèi)的對(duì)象，以及一些數(shù)據(jù)格式的優(yōu)化。

說(shuō)明： Python 2.x中默認(rèn)使用的是協(xié)議v0，如果協(xié)議指定為賦值或HIGHEST_PROTOCOL，將使用當(dāng)前可用的最高協(xié)議版本；Python 3.x中默認(rèn)使用的是協(xié)議v3，它兼容其他Python 3版本，但是不兼容Python 2。

注意： 序列化（Serialization）是一個(gè)比持久化（Persistence）更加原始的概念；雖然pickle可以讀寫(xiě)文件對(duì)象，但是它不處理持久化對(duì)象的命名問(wèn)題，也不處理對(duì)持久化對(duì)象的并發(fā)訪(fǎng)問(wèn)問(wèn)題（甚至更復(fù)雜的問(wèn)題）。pickle模塊可以將復(fù)雜對(duì)象轉(zhuǎn)換為字節(jié)流，并且可以將字節(jié)流轉(zhuǎn)換為具有相同內(nèi)部結(jié)構(gòu)的對(duì)象?；蛟S最可能對(duì)這些字節(jié)流做的事情是將它們寫(xiě)入文件，但是也可以對(duì)它們進(jìn)行網(wǎng)絡(luò)傳輸或?qū)⑺鼈兇鎯?chǔ)在數(shù)據(jù)庫(kù)中。shelve模塊提供了一個(gè)簡(jiǎn)單的接口用于在DBM風(fēng)格的數(shù)據(jù)庫(kù)文件上對(duì)對(duì)象進(jìn)行pickle和unpickle操作。

3. pickle模塊提供的相關(guān)函數(shù)

pickle模塊提供的幾個(gè)序列化/反序列化的函數(shù)與json模塊基本一致：

# 將指定的Python對(duì)象通過(guò)pickle序列化作為bytes對(duì)象返回，而不是將其寫(xiě)入文件
dumps(obj, protocol=None, *, fix_imports=True)

# 將通過(guò)pickle序列化后得到的字節(jié)對(duì)象進(jìn)行反序列化，轉(zhuǎn)換為Python對(duì)象并返回
loads(bytes_object, *, fix_imports=True, encoding="ASCII", errors="strict")

# 將指定的Python對(duì)象通過(guò)pickle序列化后寫(xiě)入打開(kāi)的文件對(duì)象中，等價(jià)于`Pickler(file, protocol).dump(obj)`
dump(obj, file, protocol=None, *, fix_imports=True)

# 從打開(kāi)的文件對(duì)象中讀取pickled對(duì)象表現(xiàn)形式并返回通過(guò)pickle反序列化后得到的Python對(duì)象
load(file, *, fix_imports=True, encoding="ASCII", errors="strict")

說(shuō)明：上面這幾個(gè)方法參數(shù)中，*號(hào)后面的參數(shù)都是Python 3.x新增的，目的是為了兼容Python 2.x，具體用法請(qǐng)參看官方文檔。

4. 實(shí)例：內(nèi)置數(shù)據(jù)類(lèi)型的序列化/反序列化

Python 2.x

>>> import pickle
>>> 
>>> var_a = {'a':'str', 'c': True, 'e': 10, 'b': 11.1, 'd': None, 'f': [1, 2, 3], 'g':(4, 5, 6)}

# 序列化
>>> var_b = pickle.dumps(var_a)
>>> var_b
"(dp0\nS'a'\np1\nS'str'\np2\nsS'c'\np3\nI01\nsS'b'\np4\nF11.1\nsS'e'\np5\nI10\nsS'd'\np6\nNsS'g'\np7\n(I4\nI5\nI6\ntp8\nsS'f'\np9\n(lp10\nI1\naI2\naI3\nas."

# 反序列化
>>> var_c = pickle.loads(var_b)
>>> var_c
{'a': 'str', 'c': True, 'b': 11.1, 'e': 10, 'd': None, 'g': (4, 5, 6), 'f': [1, 2, 3]}

Python 3.x

>>> import pickle
>>>
>>> var_a = {'a':'str', 'c': True, 'e': 10, 'b': 11.1, 'd': None, 'f': [1, 2, 3], 'g':(4, 5, 6)}

# 序列化
>>> var_b = pickle.dumps(var_a)
>>> var_b
b'\x80\x03}q\x00(X\x01\x00\x00\x00eq\x01K\nX\x01\x00\x00\x00aq\x02X\x03\x00\x00\x00strq\x03X\x01\x00\x00\x00fq\x04]q\x05(K\x01K\x02K\x03eX\x01\x00\x00\x00gq\x06K\x04K\x05K\x06\x87q\x07X\x01\x00\x00\x00bq\x08G@&333333X\x01\x00\x00\x00cq\t\x88X\x01\x00\x00\x00dq\nNu.'

# 反序列化
>>> var_c = pickle.loads(var_b)
>>> var_c
{'e': 10, 'a': 'str', 'f': [1, 2, 3], 'g': (4, 5, 6), 'b': 11.1, 'c': True, 'd': None}

dump()與load()

>>> import pickle
>>>
>>> var_a = {'a':'str', 'c': True, 'e': 10, 'b': 11.1, 'd': None, 'f': [1, 2, 3], 'g':(4, 5, 6)}

# 持久化到文件
>>> with open('pickle.txt', 'wb') as f:
...  pickle.dump(var_a, f)
...

# 從文件中讀取數(shù)據(jù)
>>> with open('pickle.txt', 'rb') as f:
...  var_b = pickle.load(f)
...
>>> var_b
{'e': 10, 'a': 'str', 'f': [1, 2, 3], 'g': (4, 5, 6), 'b': 11.1, 'c': True, 'd': None}
>>>

說(shuō)明：

默認(rèn)情況下Python 2.x中pickled后的數(shù)據(jù)是字符串形式，需要將它轉(zhuǎn)換為字節(jié)對(duì)象才能被Python 3.x中的pickle.loads()反序列化；Python 3.x中pickling所使用的協(xié)議是v3，因此需要在調(diào)用pickle.dumps()時(shí)指定可選參數(shù)protocol為Python 2.x所支持的協(xié)議版本（0,1,2），否則pickled后的數(shù)據(jù)不能被被Python 2.x中的pickle.loads()反序列化；
Python 3.x中pickle.dump()和pickle.load()方法中指定的文件對(duì)象，必須以二進(jìn)制模式打開(kāi)，而Python 2.x中可以以二進(jìn)制模式打開(kāi)，也可以以文本模式打開(kāi)。

5. 實(shí)例：自定義數(shù)據(jù)類(lèi)型的序列化/反序列化

首先來(lái)自定義一個(gè)數(shù)據(jù)類(lèi)型：

class Student(object):
 def __init__(self, name, age, sno):
  self.name = name
  self.age = age
  self.sno = sno
 
 def __repr__(self):
  return 'Student [name: %s, age: %d, sno: %d]' % (self.name, self.age, self.sno)

pickle模塊可以直接對(duì)自定數(shù)據(jù)類(lèi)型進(jìn)行序列化/反序列化操作，無(wú)需編寫(xiě)額外的處理函數(shù)或類(lèi)。

>>> stu = Student('Tom', 19, 1)
>>> print(stu)
Student [name: Tom, age: 19, sno: 1]

# 序列化
>>> var_b = pickle.dumps(stu)
>>> var_b
b'\x80\x03c__main__\nStudent\nq\x00)\x81q\x01}q\x02(X\x04\x00\x00\x00nameq\x03X\x03\x00\x00\x00Tomq\x04X\x03\x00\x00\x00ageq\x05K\x13X\x03\x00\x00\x00snoq\x06K\x01ub.'

# 反序列化
>>> var_c = pickle.loads(var_b)
>>> var_c
Student [name: Tom, age: 19, sno: 1]

# 持久化到文件
>>> with open('pickle.txt', 'wb') as f:
...  pickle.dump(stu, f)
...

# 從文件總讀取數(shù)據(jù)
>>> with open('pickle.txt', 'rb') as f:
...  pickle.load(f)
...
Student [name: Tom, age: 19, sno: 1]

四、shelve模塊

shelve是一個(gè)簡(jiǎn)單的數(shù)據(jù)存儲(chǔ)方案，類(lèi)似key-value數(shù)據(jù)庫(kù)，可以很方便的保存python對(duì)象，其內(nèi)部是通過(guò)pickle協(xié)議來(lái)實(shí)現(xiàn)數(shù)據(jù)序列化。shelve只有一個(gè)open()函數(shù)，這個(gè)函數(shù)用于打開(kāi)指定的文件（一個(gè)持久的字典），然后返回一個(gè)shelf對(duì)象。shelf是一種持久的、類(lèi)似字典的對(duì)象。它與“dbm”的不同之處在于，其values值可以是任意基本Python對(duì)象--pickle模塊可以處理的任何數(shù)據(jù)。這包括大多數(shù)類(lèi)實(shí)例、遞歸數(shù)據(jù)類(lèi)型和包含很多共享子對(duì)象的對(duì)象。keys還是普通的字符串。

open(filename, flag='c', protocol=None, writeback=False)

flag 參數(shù)表示打開(kāi)數(shù)據(jù)存儲(chǔ)文件的格式，可取值與dbm.open()函數(shù)一致：

值	描述
'r'	以只讀模式打開(kāi)一個(gè)已經(jīng)存在的數(shù)據(jù)存儲(chǔ)文件
'w'	以讀寫(xiě)模式打開(kāi)一個(gè)已經(jīng)存在的數(shù)據(jù)存儲(chǔ)文件
'c'	以讀寫(xiě)模式打開(kāi)一個(gè)數(shù)據(jù)存儲(chǔ)文件，如果不存在則創(chuàng)建
'n'	總是創(chuàng)建一個(gè)新的、空數(shù)據(jù)存儲(chǔ)文件，并以讀寫(xiě)模式打開(kāi)

protocol 參數(shù)表示序列化數(shù)據(jù)所使用的協(xié)議版本，默認(rèn)是pickle v3；

writeback 參數(shù)表示是否開(kāi)啟回寫(xiě)功能。

我們可以把shelf對(duì)象當(dāng)dict來(lái)使用--存儲(chǔ)、更改、查詢(xún)某個(gè)key對(duì)應(yīng)的數(shù)據(jù)，當(dāng)操作完成之后，調(diào)用shelf對(duì)象的close()函數(shù)即可。當(dāng)然，也可以使用上下文管理器（with語(yǔ)句），避免每次都要手動(dòng)調(diào)用close()方法。

實(shí)例：內(nèi)置數(shù)據(jù)類(lèi)型操作

# 保存數(shù)據(jù)
with shelve.open('student') as db:
 db['name'] = 'Tom'
 db['age'] = 19
 db['hobby'] = ['籃球', '看電影', '彈吉他']
 db['other_info'] = {'sno': 1, 'addr': 'xxxx'}

# 讀取數(shù)據(jù)
with shelve.open('student') as db:
 for key,value in db.items():
  print(key, ': ', value)

輸出結(jié)果：

name : Tom
age : 19
hobby : ['籃球', '看電影', '彈吉他']
other_info : {'sno': 1, 'addr': 'xxxx'}

實(shí)例：自定義數(shù)據(jù)類(lèi)型操作

# 自定義class
class Student(object):
 def __init__(self, name, age, sno):
  self.name = name
  self.age = age
  self.sno = sno
 
 def __repr__(self):
  return 'Student [name: %s, age: %d, sno: %d]' % (self.name, self.age, self.sno)

# 保存數(shù)據(jù)
tom = Student('Tom', 19, 1)
jerry = Student('Jerry', 17, 2)

with shelve.open("stu.db") as db:
 db['Tom'] = tom
 db['Jerry'] = jerry

# 讀取數(shù)據(jù)
with shelve.open("stu.db") as db:
 print(db['Tom'])
 print(db['Jerry'])

輸出結(jié)果：
Student [name: Tom, age: 19, sno: 1]
Student [name: Jerry, age: 17, sno: 2]

五、總結(jié)

1. 對(duì)比

json模塊常用于編寫(xiě)web接口，將Python數(shù)據(jù)轉(zhuǎn)換為通用的json格式傳遞給其它系統(tǒng)或客戶(hù)端；也可以用于將Python數(shù)據(jù)保存到本地文件中，缺點(diǎn)是明文保存，保密性差。另外，如果需要保存費(fèi)內(nèi)置數(shù)據(jù)類(lèi)型需要編寫(xiě)額外的轉(zhuǎn)換函數(shù)或自定義類(lèi)。

pickle模塊和shelve模塊由于使用其特有的序列化協(xié)議，其序列化之后的數(shù)據(jù)只能被Python識(shí)別，因此只能用于Python系統(tǒng)內(nèi)部。另外，Python 2.x 和 Python
3.x 默認(rèn)使用的序列化協(xié)議也不同，如果需要互相兼容需要在序列化時(shí)通過(guò)protocol參數(shù)指定協(xié)議版本。除了上面這些缺點(diǎn)外，pickle模塊和shelve模塊相對(duì)于json模塊的優(yōu)點(diǎn)在于對(duì)于自定義數(shù)據(jù)類(lèi)型可以直接序列化和反序列化，不需要編寫(xiě)額外的轉(zhuǎn)換函數(shù)或類(lèi)。

shelve模塊可以看做是pickle模塊的升級(jí)版，因?yàn)閟helve使用的就是pickle的序列化協(xié)議，但是shelve比pickle提供的操作方式更加簡(jiǎn)單、方便。shelve模塊相對(duì)于其它兩個(gè)模塊在將Python數(shù)據(jù)持久化到本地磁盤(pán)時(shí)有一個(gè)很明顯的優(yōu)點(diǎn)就是，它允許我們可以像操作dict一樣操作被序列化的數(shù)據(jù)，而不必一次性的保存或讀取所有數(shù)據(jù)。

2. 建議

需要與外部系統(tǒng)交互時(shí)用json模塊；
需要將少量、簡(jiǎn)單Python數(shù)據(jù)持久化到本地磁盤(pán)文件時(shí)可以考慮用pickle模塊；
需要將大量Python數(shù)據(jù)持久化到本地磁盤(pán)文件或需要一些簡(jiǎn)單的類(lèi)似數(shù)據(jù)庫(kù)的增刪改查功能時(shí)，可以考慮用shelve模塊。

3. 附錄

要實(shí)現(xiàn)的功能	可以使用的api
將Python數(shù)據(jù)類(lèi)型轉(zhuǎn)換為（json）字符串	json.dumps()
將json字符串轉(zhuǎn)換為Python數(shù)據(jù)類(lèi)型	json.loads()
將Python數(shù)據(jù)類(lèi)型以json形式保存到本地磁盤(pán)	json.dump()
將本地磁盤(pán)文件中的json數(shù)據(jù)轉(zhuǎn)換為Python數(shù)據(jù)類(lèi)型	json.load()
將Python數(shù)據(jù)類(lèi)型轉(zhuǎn)換為Python特定的二進(jìn)制格式	pickle.dumps()
將Python特定的的二進(jìn)制格式數(shù)據(jù)轉(zhuǎn)換為Python數(shù)據(jù)類(lèi)型	pickle.loads()
將Python數(shù)據(jù)類(lèi)型以Python特定的二進(jìn)制格式保存到本地磁盤(pán)	pickle.dump()
將本地磁盤(pán)文件中的Python特定的二進(jìn)制格式數(shù)據(jù)轉(zhuǎn)換為Python數(shù)據(jù)類(lèi)型	pickle.load()
以類(lèi)型dict的形式將Python數(shù)據(jù)類(lèi)型保存到本地磁盤(pán)或讀取本地磁盤(pán)數(shù)據(jù)并轉(zhuǎn)換為數(shù)據(jù)類(lèi)型	shelve.open()