python讀取mnist數(shù)據(jù)集方法案例詳解
mnist手寫數(shù)字?jǐn)?shù)據(jù)集在機(jī)器學(xué)習(xí)中非常常見,這里記錄一下用python從本地讀取mnist數(shù)據(jù)集的方法。
數(shù)據(jù)集格式介紹
這部分內(nèi)容網(wǎng)絡(luò)上很常見,這里還是簡明介紹一下。網(wǎng)絡(luò)上下載的mnist數(shù)據(jù)集包含4個(gè)文件:

前兩個(gè)分別是測(cè)試集的image和label,包含10000個(gè)樣本。后兩個(gè)是訓(xùn)練集的,包含60000個(gè)樣本。.gz表示這個(gè)一個(gè)壓縮包,如果進(jìn)行解壓的話,會(huì)得到.ubyte格式的二進(jìn)制文件。

上圖是訓(xùn)練集的label和image數(shù)據(jù)的存儲(chǔ)格式。兩個(gè)文件最開始都有magic number和number of images/items兩個(gè)數(shù)據(jù),有用的是第二個(gè),表示文件中存儲(chǔ)的樣本個(gè)數(shù)。另外要注意的是數(shù)據(jù)的位數(shù),有32位整型和8位整型兩種。
讀取方法
.gz格式的文件讀取
需要import gzip
讀取訓(xùn)練集的代碼如下:
def load_mnist_train(path, kind='train'):
'‘'
path:數(shù)據(jù)集的路徑
kind:值為train,代表讀取訓(xùn)練集
‘'‘
labels_path = os.path.join(path,'%s-labels-idx1-ubyte.gz'% kind)
images_path = os.path.join(path,'%s-images-idx3-ubyte.gz'% kind)
#使用gzip打開文件
with gzip.open(labels_path, 'rb') as lbpath:
#使用struct.unpack方法讀取前兩個(gè)數(shù)據(jù),>代表高位在前,I代表32位整型。lbpath.read(8)表示一次從文件中讀取8個(gè)字節(jié)
#這樣讀到的前兩個(gè)數(shù)據(jù)分別是magic number和樣本個(gè)數(shù)
magic, n = struct.unpack('>II',lbpath.read(8))
#使用np.fromstring讀取剩下的數(shù)據(jù),lbpath.read()表示讀取所有的數(shù)據(jù)
labels = np.fromstring(lbpath.read(),dtype=np.uint8)
with gzip.open(images_path, 'rb') as imgpath:
magic, num, rows, cols = struct.unpack('>IIII',imgpath.read(16))
images = np.fromstring(imgpath.read(),dtype=np.uint8).reshape(len(labels), 784)
return images, labels
讀取測(cè)試集的代碼類似。
非壓縮文件的讀取
如果在本地對(duì)四個(gè)文件解壓縮之后,得到的就是.ubyte格式的文件,這時(shí)讀取的代碼有所變化。
def load_mnist_train(path, kind='train'):
'‘'
path:數(shù)據(jù)集的路徑
kind:值為train,代表讀取訓(xùn)練集
‘'‘
labels_path = os.path.join(path,'%s-labels-idx1-ubyte'% kind)
images_path = os.path.join(path,'%s-images-idx3-ubyte'% kind)
#不再用gzip打開文件
with open(labels_path, 'rb') as lbpath:
#使用struct.unpack方法讀取前兩個(gè)數(shù)據(jù),>代表高位在前,I代表32位整型。lbpath.read(8)表示一次從文件中讀取8個(gè)字節(jié)
#這樣讀到的前兩個(gè)數(shù)據(jù)分別是magic number和樣本個(gè)數(shù)
magic, n = struct.unpack('>II',lbpath.read(8))
#使用np.fromfile讀取剩下的數(shù)據(jù)
labels = np.fromfile(lbpath,dtype=np.uint8)
with gzip.open(images_path, 'rb') as imgpath:
magic, num, rows, cols = struct.unpack('>IIII',imgpath.read(16))
images = np.fromfile(imgpath,dtype=np.uint8).reshape(len(labels), 784)
return images, labels
讀取之后可以查看images和labels的長度,確認(rèn)讀取是否正確。
到此這篇關(guān)于python讀取mnist數(shù)據(jù)集方法案例詳解的文章就介紹到這了,更多相關(guān)python讀取mnist數(shù)據(jù)集方法內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
python數(shù)據(jù)庫操作mysql:pymysql、sqlalchemy常見用法詳解
這篇文章主要介紹了python數(shù)據(jù)庫操作mysql:pymysql、sqlalchemy常見用法,結(jié)合實(shí)例形式分析了Python mysql操作庫pymysql、sqlalchemy基本使用技巧與操作注意事項(xiàng),需要的朋友可以參考下2020-03-03
Python實(shí)現(xiàn)簡單的文本相似度分析操作詳解
這篇文章主要介紹了Python實(shí)現(xiàn)簡單的文本相似度分析操作,結(jié)合實(shí)例形式分析了Python基于分詞API庫jieba及文本相似度庫gensim針對(duì)文本進(jìn)行相似度分析操作的實(shí)現(xiàn)技巧與注意事項(xiàng),需要的朋友可以參考下2018-06-06
基于Python新建用戶并產(chǎn)生隨機(jī)密碼過程解析
這篇文章主要介紹了基于Python新建用戶并產(chǎn)生隨機(jī)密碼過程解析,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2019-10-10
pycharm中顯示CSS提示的知識(shí)點(diǎn)總結(jié)
在本篇文章里小編給大家整理了關(guān)于pycharm中顯示CSS提示的知識(shí)點(diǎn)內(nèi)容,需要的朋友們可以參考學(xué)習(xí)下。2019-07-07
Python實(shí)現(xiàn)連接postgresql數(shù)據(jù)庫的方法分析
這篇文章主要介紹了Python實(shí)現(xiàn)連接postgresql數(shù)據(jù)庫的方法,結(jié)合實(shí)例形式分析了Python基于psycopg2和python3-postgresql鏈接postgresql數(shù)據(jù)庫的相關(guān)操作技巧,需要的朋友可以參考下2017-12-12
Python解決pip install時(shí)出現(xiàn)的Could not fetch URL問題
這篇文章主要介紹了Python解決pip install時(shí)出現(xiàn)的Could not fetch URL問題,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2019-08-08
解決pycharm啟動(dòng)后總是不停的updating indices...indexing的問題
今天小編就為大家分享一篇解決pycharm啟動(dòng)后總是不停的updating indices...indexing的問題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2019-11-11
在win和Linux系統(tǒng)中python命令行運(yùn)行的不同
本文給大家分享的是作者在在win和Linux系統(tǒng)中python命令行運(yùn)行的不同的解決方法,有相同需求的小伙伴可以參考下2016-07-07
使用Python圖像處理庫Pillow處理圖像文件的案例分析
本文將通過使用Python圖像處理庫Pillow,幫助大家進(jìn)一步了解Python的基本概念:模塊、對(duì)象、方法和函數(shù)的使用,文中代碼講解的非常詳細(xì),需要的朋友可以參考下2023-07-07
Python實(shí)現(xiàn)多任務(wù)版的udp聊天器
這篇文章主要為大家詳細(xì)介紹了Python實(shí)現(xiàn)多任務(wù)版的udp聊天器,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2021-07-07

