對(duì)pandas寫入讀取h5文件的方法詳解
1、引言
通過參考相關(guān)博客對(duì)hdf5格式簡(jiǎn)要介紹。
hdf5在存儲(chǔ)的是支持壓縮,使用的方式是blosc,這個(gè)是速度最快的也是pandas默認(rèn)支持的。 使用壓縮可以提磁盤利用率,節(jié)省空間。 開啟壓縮也沒有什么劣勢(shì),只會(huì)慢一點(diǎn)點(diǎn)。 壓縮在小數(shù)據(jù)量的時(shí)候優(yōu)勢(shì)不明顯,數(shù)據(jù)量大了才有優(yōu)勢(shì)。 同時(shí)發(fā)現(xiàn)hdf讀取文件的時(shí)候只能是一次寫,寫的時(shí)候可以append,可以put,但是寫完成了之后關(guān)閉文件,就不能再寫了, 會(huì)覆蓋。
另外,為什么單獨(dú)說pandas,主要因?yàn)楸救四壳皩?duì)于h5py這個(gè)包的理解不是很深入,不知道如果使用該包存pd.DataFrame格式的文件,不像numpy格式文件可以直接存儲(chǔ),因此本人只能依賴pandas自帶一些函數(shù)進(jìn)行處理。
2、寫入文件
使用函數(shù):pd.HDFStore
import numpy as np
import pandas as pd
####生成9000,0000條數(shù)據(jù),9千萬條
a = np.random.standard_normal((90000000,4))
b = pd.DataFrame(a)
####普通格式存儲(chǔ):
h5 = pd.HDFStore('/data/stock/test_s.h5','w')
h5['data'] = b
h5.close()
####壓縮格式存儲(chǔ)
h5 = pd.HDFStore('/data/stock/test_c4.h5','w', complevel=4, complib='blosc')
h5['data'] = b
h5.close()
3、讀取文件
使用函數(shù):pd.read_hdf
參數(shù):文件名,key
data=pd.read_hdf('/data/stock/test_c4.h5',key='data')
以上這篇對(duì)pandas寫入讀取h5文件的方法詳解就是小編分享給大家的全部?jī)?nèi)容了,希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。
相關(guān)文章
Python多線程threading創(chuàng)建及使用方法解析
這篇文章主要介紹了Python多線程threading創(chuàng)建及使用方法解析,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-06-06
Python內(nèi)置函數(shù)memoryview()的實(shí)現(xiàn)示例
本文主要介紹了Python內(nèi)置函數(shù)memoryview()的實(shí)現(xiàn)示例,它允許你在不復(fù)制其內(nèi)容的情況下操作同一個(gè)數(shù)組的不同切片,具有一定的參考價(jià)值,感興趣的可以了解一下2024-05-05
Python 數(shù)據(jù)可視化之Matplotlib詳解
這篇文章主要介紹了Python數(shù)據(jù)可視化庫(kù)seaborn的使用總結(jié),小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過來看看吧2021-11-11
python實(shí)現(xiàn)文件+參數(shù)發(fā)送request的實(shí)例代碼
這篇文章主要介紹了python實(shí)現(xiàn)文件+參數(shù)發(fā)送request的實(shí)例代碼,本文給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2021-01-01
Python 實(shí)現(xiàn)輸入任意多個(gè)數(shù),并計(jì)算其平均值的例子
今天小編就為大家分享一篇Python 實(shí)現(xiàn)輸入任意多個(gè)數(shù),并計(jì)算其平均值的例子,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2019-07-07

