python中關(guān)于CIFAR10數(shù)據(jù)集的使用
關(guān)于CIFAR10數(shù)據(jù)集的使用
主要解決了如何把數(shù)據(jù)集與transforms結(jié)合在一起的問題。
CIFAR10的官方解釋
torchvision.datasets.CIFAR10( root: str,? train: bool = True,? transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, download: bool = False)
注釋:
root (string)存在 cifar-10-batches-py 目錄的數(shù)據(jù)集的根目錄,如果下載設(shè)置為 True,則將保存到該目錄。train (bool, optional)如果為True,則從訓(xùn)練集創(chuàng)建數(shù)據(jù)集, 如果為False,從測試集創(chuàng)建數(shù)據(jù)集。transform (callable, optional)它接受一個 PIL 圖像并返回一個轉(zhuǎn)換后的版本。 例如,transforms.RandomCrop/transforms.ToTensortarget_transform (callable, optional)接收目標(biāo)并對其進(jìn)行轉(zhuǎn)換的函數(shù)/轉(zhuǎn)換。download (bool, optional)如果為 true,則從 Internet 下載數(shù)據(jù)集并將其放在根目錄中。 如果數(shù)據(jù)集已經(jīng)下載,則不會再次下載。
實(shí)戰(zhàn)操作
1.CIAFR10數(shù)據(jù)集的下載
代碼如下:
import torchvision ? #導(dǎo)入torchvision這個類 train_set = torchvision.datasets.CIFAR10(root = "./dataset", train = True,? download= True) ?#從訓(xùn)練集創(chuàng)建數(shù)據(jù)集 test_set = torchvision.datasets.CIFAR10(root="./dataset", train=False, ?download=True) ? ?#從測試集創(chuàng)建數(shù)據(jù)集
root = "./dataset",將下載的數(shù)據(jù)集保存在這個文件夾下;download= True,從 Internet 下載數(shù)據(jù)集并將其放在根目錄中,這里就是在相對路徑中,創(chuàng)建dataset文件夾,將數(shù)據(jù)集保存在dataset中。
2.查看下載的CIAFR10數(shù)據(jù)集
運(yùn)行程序,開始下載數(shù)據(jù)集。下載成功后,可以進(jìn)行一些查看。代碼如下:
接著輸入:
print(train_set[0]) ?#查看train_set訓(xùn)練集中的第一個數(shù)據(jù) print(train_set.classes) ? #查看train_set訓(xùn)練集中有多少個類別 ? img, target = train_set[0] print(img) print(target) print(train_set.classes[target]) img.show() ?#顯示圖片
輸出結(jié)果:
(<PIL.Image.Image image mode=RGB size=32x32 at 0x161E924B8D0>, 6)
['airplane', 'automobile', 'bird', 'cat', 'deer', 'dog', 'frog', 'horse', 'ship',
'truck']
<PIL.Image.Image image mode=RGB size=32x32 at 0x161E924B710>
6
frog
注釋:可以看見,train_set數(shù)據(jù)集中有10個類別,train_set中第0個元素的target是6,也就是說,這個元素是屬于第7個類別frog的。
3.數(shù)據(jù)轉(zhuǎn)換
因?yàn)檫@些圖片類型都是PIL Image,如果要供給pytorch使用的話,需要將數(shù)據(jù)全都轉(zhuǎn)化成tensor類型。
完整代碼如下:
import torchvision ? #導(dǎo)入torchvision這個類
from torch.utils.tensorboard import SummaryWriter
from torchvision import transforms
dataset_transforms = transforms.ToTensor()
# dataset_transforms = torchvision.transforms.Compose([
# ? ? torchvision.transforms.ToTensor()
# ]) ? ?第3 ?4 行代碼可以用compose直接寫
train_set = torchvision.datasets.CIFAR10(root = "./dataset", train = True, transform=dataset_transforms, download= True) #訓(xùn)練集
test_set = torchvision.datasets.CIFAR10(root="./dataset", train=False, transform=dataset_transforms, download=True) ? #測試集
writer = SummaryWriter("logs")
# print(train_set[0]) ?#查看train_set訓(xùn)練集中的第一個數(shù)據(jù)
# print(train_set.classes) ? #查看train_set訓(xùn)練集中有多少個類別
# img, target = train_set[0]
# print(img)
# print(target)
# print(train_set.classes[target])
# img.show()
for i in range(20):
? ? img, target = train_set[i]
? ? writer.add_image("cifar10_test2", img, i)
writer.close()小結(jié):CIFAR10數(shù)據(jù)集內(nèi)存很小,只有100多m,下載方便。對我們學(xué)習(xí)數(shù)據(jù)集非常友好,練習(xí)的時候,我們可以使用SummaryWriter來將數(shù)據(jù)寫入tensorboard中。
CIFAR-10 數(shù)據(jù)集簡介
復(fù)現(xiàn)代碼的過程中,簡單了解了作者使用的數(shù)據(jù)集CIFAR-10 dataset ,簡單記錄一下。
CIFAR-10數(shù)據(jù)集是8000萬微小圖片的標(biāo)簽子集,它的收集者是:Alex Krizhevsky, Vinod Nair, Geoffrey Hinton。

數(shù)據(jù)集由6萬張32*32的彩色圖片組成,一共有10個類別。每個類別6000張圖片。其中有5萬張訓(xùn)練圖片及1萬張測試圖片。
數(shù)據(jù)集被劃分為5個訓(xùn)練塊和1個測試塊,每個塊1萬張圖片。
測試塊包含了1000張從每個類別中隨機(jī)選擇的圖片。訓(xùn)練塊包含隨機(jī)的剩余圖像,但某些訓(xùn)練塊可能對于一個類別的包含多于其他類別,訓(xùn)練塊包含來自各個類別的5000張圖片。
這些類是完全互斥的,及在一個類別中出現(xiàn)的圖片不會出現(xiàn)在其它類中。
數(shù)據(jù)集版本
作者提供了3個版本的數(shù)據(jù)集:python version; Matlab version; binary version。
可根據(jù)自己的需求選擇。
數(shù)據(jù)集下載地址:下載鏈接
數(shù)據(jù)集布置
以python version進(jìn)行介紹,Matlab version與之相同。
下載后獲得文件 data_batch_1, data_batch_2,…, data_batch_5。測試塊相同。這些文件中的每一個都是用cPickle生成的python pickled對象。
具體使用方法:
def unpickle(file):
import pickle
with open(file, 'rb') as fo:
dict = pickle.load(fo, encoding='bytes')
return dict
返回字典類,每個塊的文件包含一個字典類,包含以下元素:
data: 一個100003072的numpy數(shù)組(unit8)每個行存儲3232的彩色圖片,3072=1024*3,分別是red, green, blue。存儲方式以行為主。labels:使用0-9進(jìn)行索引。
數(shù)據(jù)集包含的另一個文件batches.meta同樣包含python字典,用于加載label_names。如:label_names[0] == “airplane”, label_names[1] == “automobile”
總結(jié)
以上為個人經(jīng)驗(yàn),希望能給大家一個參考,也希望大家多多支持腳本之家。
相關(guān)文章
淺談numpy 函數(shù)里面的axis參數(shù)的含義
這篇文章主要介紹了numpy 函數(shù)里面的axis參數(shù)的含義,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧2021-05-05
Python實(shí)現(xiàn)樸素貝葉斯的學(xué)習(xí)與分類過程解析
這篇文章主要介紹了Python實(shí)現(xiàn)樸素貝葉斯的學(xué)習(xí)與分類過程解析,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2019-08-08
Python實(shí)現(xiàn)的旋轉(zhuǎn)數(shù)組功能算法示例
這篇文章主要介紹了Python實(shí)現(xiàn)的旋轉(zhuǎn)數(shù)組功能算法,結(jié)合實(shí)例形式總結(jié)分析了數(shù)組旋轉(zhuǎn)算法的原理與實(shí)現(xiàn)技巧,需要的朋友可以參考下2019-02-02
Python編程OpenCV和Numpy圖像處理庫實(shí)現(xiàn)圖片去水印
這篇文章主要介紹了Python編程中如何實(shí)現(xiàn)圖片去水印本文采用了OpenCV和Numpy的圖像處理的方法來實(shí)現(xiàn),文中附含詳細(xì)示例代碼,有需要的朋友可以借鑒參考下2021-09-09
詳細(xì)聊一聊為什么Python沒有main函數(shù)
相信很多初學(xué)python的人看代碼的時候都會先找一下main()方法,從main往下看,但事實(shí)上python中是沒有你理解中的“main()”方法的,下面這篇文章主要給大家介紹了關(guān)于為什么Python沒有main函數(shù)的相關(guān)資料,需要的朋友可以參考下2023-03-03
淺談django2.0 ForeignKey參數(shù)的變化
今天小編就為大家分享一篇淺談django2.0 ForeignKey參數(shù)的變化,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-08-08
Python+Tkinter打造簽名設(shè)計(jì)工具
這篇文章主要為大家分享如何利用Python Tkinter庫制作帶圖形界面的一個簽名設(shè)計(jì)工具,文中的示例代碼講解詳細(xì),感興趣的小伙伴可以了解一下2022-04-04

