Python MNIST手寫體識別詳解與試練

更新時間：2021年11月06日 10:33:27 作者：mind_programmonkey

MNIST（官方網(wǎng)站）是非常有名的手寫體數(shù)字識別數(shù)據(jù)集，在Tensorflow的官方網(wǎng)站里，第一個就拿它來做實戰(zhàn)講解，咱們也以此作為開始的項目

【人工智能項目】MNIST手寫體識別實驗及分析

在這里插入圖片描述

1.實驗內容簡述

1.1 實驗環(huán)境

本實驗采用的軟硬件實驗環(huán)境如表所示：

在這里插入圖片描述

在Windows操作系統(tǒng)下，采用基于Tensorflow的Keras的深度學習框架，對MNIST進行訓練和測試。

采用keras的深度學習框架，keras是一個專為簡單的神經(jīng)網(wǎng)絡組裝而設計的Python庫，具有大量預先包裝的網(wǎng)絡類型，包括二維和三維風格的卷積網(wǎng)絡、短期和長期的網(wǎng)絡以及更廣泛的一般網(wǎng)絡。使用keras構建網(wǎng)絡是直接的，keras在其Api設計中使用的語義是面向層次的，網(wǎng)絡組建相對直觀，所以本次選用Keras人工智能框架，其專注于用戶友好，模塊化和可擴展性。

1.2 MNIST數(shù)據(jù)集介紹

MNIST（官方網(wǎng)站）是非常有名的手寫體數(shù)字識別數(shù)據(jù)集。它由手寫體數(shù)字的圖片和相對應的標簽組成，如：

在這里插入圖片描述

MNIST數(shù)據(jù)集分為訓練圖像和測試圖像。訓練圖像60000張，測試圖像10000張，每一個圖片代表0-9中的一個數(shù)字，且圖片大小均為28*28的矩陣。

train-images-idx3-ubyte.gz: training set images (9912422 bytes) 訓練圖片
train-labels-idx1-ubyte.gz: training set labels (28881 bytes) 訓練標簽
t10k-images-idx3-ubyte.gz: test set images (1648877 bytes) 測試圖片
t10k-labels-idx1-ubyte.gz: test set labels (4542 bytes) 測試標簽

1.3 數(shù)據(jù)預處理

數(shù)據(jù)預處理階段對圖像進行歸一化處理，我們將圖片中的這些值縮小到 0 到 1 之間，然后將其饋送到神經(jīng)網(wǎng)絡模型。為此，將圖像組件的數(shù)據(jù)類型從整數(shù)轉換為浮點數(shù)，然后除以 255。這樣更容易訓練,以下是預處理圖像的函數(shù)：務必要以相同的方式對訓練集和測試集進行預處理：

之后對標簽進行one-hot編碼處理：將離散特征的取值擴展到了歐式空間，離散特征的某個取值就對應歐式空間的某個點；機器學習算法中，特征之間距離的計算或相似度的常用計算方法都是基于歐式空間的；將離散型特征使用one-hot編碼，會讓特征之間的距離計算更加合理

2.實驗核心代碼

（1）MLP感知器

# Build MLP
model = Sequential()

model.add(Dense(units=256,
                input_dim=784,
                kernel_initializer='normal',
                activation='relu'))
model.add(Dense(units=128,
                kernel_initializer='normal',
                activation='relu'))
model.add(Dense(units=64,
                kernel_initializer='normal',
                activation='relu'))
model.add(Dense(units=10,
                kernel_initializer='normal',
                activation='softmax'))

model.summary()

（2）CNN卷積神經(jīng)網(wǎng)絡

# Build LeNet-5
model = Sequential()
model.add(Conv2D(filters=6, kernel_size=(5, 5), padding='valid', input_shape=(28, 28, 1), activation='relu')) # C1
model.add(MaxPooling2D(pool_size=(2, 2))) # S2
model.add(Conv2D(filters=16, kernel_size=(5, 5), padding='valid', activation='relu')) # C3
model.add(MaxPooling2D(pool_size=(2, 2))) # S4
model.add(Flatten())
model.add(Dense(120, activation='tanh')) # C5
model.add(Dense(84, activation='tanh')) # F6
model.add(Dense(10, activation='softmax')) # output
model.summary()

模型解釋

模型訓練過程中，我們用到LENET-5的卷積神經(jīng)網(wǎng)絡結構。

在這里插入圖片描述

第一層，卷積層

這一層的輸入是原始的圖像像素，LeNet-5 模型接受的輸入層大小是28x28x1。第一卷積層的過濾器的尺寸是5x5，深度（卷積核種類）為6，不使用全0填充，步長為1。因為沒有使用全0填充，所以這一層的輸出的尺寸為32-5+1=28，深度為6。這一層卷積層參數(shù)個數(shù)是5x5x1x6+6=156個參數(shù)（可訓練參數(shù)），其中6個為偏置項參數(shù)。因為下一層的節(jié)點矩陣有有28x28x6=4704個節(jié)點（神經(jīng)元數(shù)量），每個節(jié)點和5x5=25個當前層節(jié)點相連，所以本層卷積層總共有28x28x6x（5x5+1）個連接。

第二層，池化層

這一層的輸入是第一層的輸出，是一個28x28x6=4704的節(jié)點矩陣。本層采用的過濾器為2x2的大小，長和寬的步長均為2，所以本層的輸出矩陣大小為14x14x6。原始的LeNet-5 模型中使用的過濾器和這里將用到的過濾器有些許的差別，這里不過多介紹。

第三層，卷積層

本層的輸入矩陣大小為14x14x6，使用的過濾器大小為5x5，深度為16。本層不使用全0填充，步長為1。本層的輸出矩陣大小為10x10x16。按照標準卷積層本層應該有5x5x6x16+16=2416個參數(shù)（可訓練參數(shù)），10x10x16x（5x5+1）=41600個連接。

第四層，池化層

本層的輸入矩陣大小是10x10x16，采用的過濾器大小是2x2，步長為2，本層的輸出矩陣大小為5x5x16。

第五層，全連接層

本層的輸入矩陣大小為5x5x16。如果將此矩陣中的節(jié)點拉成一個向量，那么這就和全連接層的輸入一樣了。本層的輸出節(jié)點個數(shù)為120，總共有5x5x16x120+120=48120個參數(shù)。

第六層，全連接層

本層的輸入節(jié)點個數(shù)為120個，輸出節(jié)點個數(shù)為84個，總共參數(shù)為120x84+84=10164個。

第七層，全連接層

LeNet-5 模型中最后一層輸出層的結構和全連接層的結構有區(qū)別，但這里我們用全連接層近似的表示。本層的輸入節(jié)點為84個，輸出節(jié)點個數(shù)為10個，總共有參數(shù)84x10+10=850個。

模型過程

初始參數(shù)設定好之后開始訓練，每次訓練需要微調參數(shù)以得到更好的訓練結果，經(jīng)過多次嘗試，最終設定參數(shù)為：

優(yōu)化器：adam優(yōu)化器
訓練輪數(shù)：10
每次輸入的數(shù)據(jù)量：500

LENET-5的卷積神經(jīng)網(wǎng)絡對MNIST數(shù)據(jù)集進行訓練，并采用上述的模型參數(shù)，進行10輪訓練，在訓練集上達到了95%的準確率

在這里插入圖片描述

3.結果分析機器總結

3.1 模型測試以及結果分析

為了驗證模型的魯棒性，在上述最優(yōu)參數(shù)下保存在驗證集上性能最好的模型，在測試集上進行最終的測試，得到最終的準確率為：95.13%.

為了更好的分析我們的結果，這里用混淆矩陣來評估我們的模型性能。在模型評估之前，先學習一些指標。

TP(True Positive)：將正類預測為正類數(shù)，真實為0，預測也為0FN(False Negative)：將正類預測為負類數(shù)，真實為0，預測為1FP(False Positive)：將負類預測為正類數(shù)，真實為1，預測為0。TN(True Negative)：將負類預測為負類數(shù)，真實為1，預測也為1混淆矩陣定義及表示含義：

混淆矩陣是機器學習中總結分類模型預測結果的情形分析表，以矩陣形式將數(shù)據(jù)集中的記錄按照真實的類別與分類模型預測的類別判斷兩個標準進行匯總。其中矩陣的行表示真實值，矩陣的列表示預測值，下面以本次案例為例，看下矩陣表現(xiàn)形式，如下：

在這里插入圖片描述

3.2 結果對比

并與四層全連接層模型進行對比，全連接層的模型結構如下：

在這里插入圖片描述

其結果如下：

在這里插入圖片描述

總之，從結果上來看，最后經(jīng)過不斷地參數(shù)調優(yōu)最終訓練出了一個分類正確率在95%左右的模型，并且通過實驗證明了模型具有很強的魯棒性。

3.3 模型的預測

對單張圖像進行預測：

在這里插入圖片描述

4 總結

本文通過對卷積神經(jīng)網(wǎng)絡的研究流程分析，提出了一套完整的卷積神經(jīng)網(wǎng)絡MNIST手寫體識別流程并也將本文的數(shù)據(jù)集分類正確率提高到95%的水平；其次，本文構建的模型是具有普適性的，可以稍加改進就應用于不同的數(shù)據(jù)集進行特征提取及分類。再次，本文在構建模型的過程中綜合考慮了計算資源和時間成本，構建的卷積神經(jīng)網(wǎng)絡模型在普通的個人筆記本上即可進行訓練，此外還增加了MLP感知器作為對比，從結果中看出卷積神經(jīng)網(wǎng)絡效果更好。綜合以上幾點來看，本文的研究具有現(xiàn)實可應用性，具有可推廣性，因而具有較高的實用價值！

在這里插入圖片描述

到此這篇關于Python MNIST手寫體識別詳解與試練的文章就介紹到這了,更多相關Python 手寫體識別內容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

python中的標準庫html
html庫是用于解析HTML的一個工具，是python自帶的標準庫之一，今天通過本文給大家介紹下python中的標準庫html，感興趣的朋友一起看看吧
2022-04-04
Python多線程與多進程相關知識總結
進程(process)和線程(thread)是操作系統(tǒng)的基本概念,是操作系統(tǒng)程序運行的基本單元,本文簡要介紹進程和線程的概念以及Python中的多進程和多線程.需要的朋友可以參考下
2021-05-05
python程序的打包分發(fā)示例詳解
這篇文章主要為大家介紹了python程序的打包分發(fā)示例詳解，有需要的朋友可以借鑒參考下，希望能夠有所幫助，祝大家多多進步，早日升職加薪
2022-06-06
django admin 根據(jù)choice字段選擇的不同來顯示不同的頁面方式
這篇文章主要介紹了django admin 根據(jù)choice字段選擇的不同來顯示不同的頁面方式，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2020-05-05
Python?lambda函數(shù)保姆級使用教程
本文和你一起探索Python中的lambda函數(shù)，讓你以最短的時間明白這個函數(shù)的原理。也可以利用碎片化的時間鞏固這個函數(shù)，讓你在處理工作過程中更高效
2022-06-06
基于plt.title無法顯示中文的快速解決
這篇文章主要介紹了基于plt.title無法顯示中文的快速解決，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2020-05-05
django之狀態(tài)保持-使用redis存儲session的例子
今天小編就為大家分享一篇django之狀態(tài)保持-使用redis存儲session的例子，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2019-07-07
利用python程序生成word和PDF文檔的方法
這篇文章主要給大家介紹了利用python程序生成word和PDF文檔的方法，文中給出了詳細的介紹和示例代碼，相信對大家具有一定的參考價值，有需要的朋友們下面來一起看看吧。
2017-02-02
Python跨平臺路徑格式不一致的處理方法
你是不是也遇到過 Python 跨平臺路徑格式不一致的問題？在 Windows、macOS 和 Linux 之間切換時,路徑格式的不同簡直讓人頭疼,今天,我們就來徹底解決這個問題,并告訴你在實際開發(fā)和打包時,哪種方法更好用,需要的朋友跟著小編一起來看看吧
2025-04-04
Python基于Faker假數(shù)據(jù)構造庫
這篇文章主要介紹了Python基于Faker假數(shù)據(jù)構造庫,文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
2020-11-11