Python機(jī)器學(xué)習(xí)庫scikit-learn入門開發(fā)示例
1.數(shù)據(jù)采集和標(biāo)記
先采集數(shù)據(jù),再對(duì)數(shù)據(jù)進(jìn)行標(biāo)記。其中采集數(shù)據(jù)要就有代表性,以確保最終訓(xùn)練出來模型的準(zhǔn)確性。
2.特征選擇
選擇特征的直觀方法:直接使用圖片的每個(gè)像素點(diǎn)作為一個(gè)特征。
數(shù)據(jù)保存為樣本個(gè)數(shù)×特征個(gè)數(shù)格式的array對(duì)象。scikit-learn使用Numpy的array對(duì)象來表示數(shù)據(jù),所有的圖片數(shù)據(jù)保存在digits.images里,每個(gè)元素都為一個(gè)8×8尺寸的灰階圖片。
3.數(shù)據(jù)清洗
把采集到的、不合適用來做機(jī)器學(xué)習(xí)訓(xùn)練的數(shù)據(jù)進(jìn)行預(yù)處理,從而轉(zhuǎn)換為合適機(jī)器學(xué)習(xí)的數(shù)據(jù)。
目的:減少計(jì)算量,確保模型穩(wěn)定性。
4.模型選擇
對(duì)于不同的數(shù)據(jù)集,選擇不同的模型有不同的效率。因此在選擇模型要考慮很多的因素,來提高最終選擇模型的契合度。
5.模型訓(xùn)練
在進(jìn)行模型訓(xùn)練之前,要將數(shù)據(jù)集劃分為訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集,再利用劃分好的數(shù)據(jù)集進(jìn)行模型訓(xùn)練,最后得到我們訓(xùn)練出來的模型參數(shù)。
6.模型測(cè)試
模型測(cè)試的直觀方法:用訓(xùn)練出來的模型預(yù)測(cè)測(cè)試數(shù)據(jù)集,然后將預(yù)測(cè)出來的結(jié)果與真正的結(jié)果進(jìn)行比較,最后比較出來的結(jié)果即為模型的準(zhǔn)確度。
scikit-learn提供的完成這項(xiàng)工作的方法:
clf . score ( Xtest , Ytest)
除此之外,還可以直接把測(cè)試數(shù)據(jù)集里的部分圖片顯示出來,并且在圖片的左下角顯示預(yù)測(cè)值,右下角顯示真實(shí)值。
7.模型保存與加載
當(dāng)我們訓(xùn)練出一個(gè)滿意的模型后即可將模型保存下來,這樣當(dāng)下次需要預(yù)測(cè)時(shí),可以直接利用此模型進(jìn)行預(yù)測(cè),不用再一次進(jìn)行模型訓(xùn)練。
8.實(shí)例
數(shù)據(jù)采集和標(biāo)記
#導(dǎo)入庫
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
"""
sk-learn庫中自帶了一些數(shù)據(jù)集
此處使用的就是手寫數(shù)字識(shí)別圖片的數(shù)據(jù)
"""
# 導(dǎo)入sklearn庫中datasets模塊
from sklearn import datasets
# 利用datasets模塊中的函數(shù)load_digits()進(jìn)行數(shù)據(jù)加載
digits = datasets.load_digits()
# 把數(shù)據(jù)所代表的圖片顯示出來
images_and_labels = list(zip(digits.images, digits.target))
plt.figure(figsize=(8, 6))
for index, (image, label) in enumerate(images_and_labels[:8]):
plt.subplot(2, 4, index + 1)
plt.axis('off')
plt.imshow(image, cmap=plt.cm.gray_r, interpolation='nearest')
plt.title('Digit: %i' % label, fontsize=20);
特征選擇
# 將數(shù)據(jù)保存為 樣本個(gè)數(shù)x特征個(gè)數(shù) 格式的array對(duì)象 的數(shù)據(jù)格式進(jìn)行輸出
# 數(shù)據(jù)已經(jīng)保存在了digits.data文件中
print("shape of raw image data: {0}".format(digits.images.shape))
print("shape of data: {0}".format(digits.data.shape))
模型訓(xùn)練
# 把數(shù)據(jù)分成訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集(此處將數(shù)據(jù)集的百分之二十作為測(cè)試數(shù)據(jù)集) from sklearn.model_selection import train_test_split Xtrain, Xtest, Ytrain, Ytest = train_test_split(digits.data, digits.target, test_size=0.20, random_state=2); # 使用支持向量機(jī)來訓(xùn)練模型 from sklearn import svm clf = svm.SVC(gamma=0.001, C=100., probability=True) # 使用訓(xùn)練數(shù)據(jù)集Xtrain和Ytrain來訓(xùn)練模型 clf.fit(Xtrain, Ytrain);
模型測(cè)試
""" sklearn.metrics.accuracy_score(y_true, y_pred, normalize=True, sample_weight=None) normalize:默認(rèn)值為True,返回正確分類的比例;如果為False,返回正確分類的樣本數(shù) """ # 評(píng)估模型的準(zhǔn)確度(此處默認(rèn)為true,直接返回正確的比例,也就是模型的準(zhǔn)確度) from sklearn.metrics import accuracy_score # predict是訓(xùn)練后返回預(yù)測(cè)結(jié)果,是標(biāo)簽值。 Ypred = clf.predict(Xtest); accuracy_score(Ytest, Ypred)
模型保存與加載
"""
將測(cè)試數(shù)據(jù)集里的部分圖片顯示出來
圖片的左下角顯示預(yù)測(cè)值,右下角顯示真實(shí)值
"""
# 查看預(yù)測(cè)的情況
fig, axes = plt.subplots(4, 4, figsize=(8, 8))
fig.subplots_adjust(hspace=0.1, wspace=0.1)
for i, ax in enumerate(axes.flat):
ax.imshow(Xtest[i].reshape(8, 8), cmap=plt.cm.gray_r, interpolation='nearest')
ax.text(0.05, 0.05, str(Ypred[i]), fontsize=32,
transform=ax.transAxes,
color='green' if Ypred[i] == Ytest[i] else 'red')
ax.text(0.8, 0.05, str(Ytest[i]), fontsize=32,
transform=ax.transAxes,
color='black')
ax.set_xticks([])
ax.set_yticks([])
# 保存模型參數(shù) import joblib joblib.dump(clf, 'digits_svm.pkl');
保存模型參數(shù)過程中出現(xiàn)如下錯(cuò)誤:

原因:sklearn.externals.joblib函數(shù)是用在0.21及以前的版本中,在最新的版本,該函數(shù)應(yīng)被棄用。
解決方法:將 from sklearn.externals import joblib改為 import joblib
# 導(dǎo)入模型參數(shù),直接進(jìn)行預(yù)測(cè)
clf = joblib.load('digits_svm.pkl')
Ypred = clf.predict(Xtest);
clf.score(Xtest, Ytest)
到此這篇關(guān)于Python機(jī)器學(xué)習(xí)庫scikit-learn入門開發(fā)示例的文章就介紹到這了,更多相關(guān)Python scikit-learn內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Pytorch在NLP中的簡(jiǎn)單應(yīng)用詳解
今天小編就為大家分享一篇Pytorch在NLP中的簡(jiǎn)單應(yīng)用詳解,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2020-01-01
python pygame實(shí)現(xiàn)球球大作戰(zhàn)
這篇文章主要為大家詳細(xì)介紹了Python pygame實(shí)現(xiàn)球球大作戰(zhàn),文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2019-11-11
pandas讀取excel時(shí)獲取讀取進(jìn)度的實(shí)現(xiàn)
這篇文章主要介紹了pandas讀取excel時(shí)獲取讀取進(jìn)度的實(shí)現(xiàn),文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2021-04-04
Python restful框架接口開發(fā)實(shí)現(xiàn)
這篇文章主要介紹了Python restful框架接口開發(fā)實(shí)現(xiàn),文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-04-04
Anaconda安裝pytorch及配置PyCharm 2021環(huán)境
小編使用的是python3.8版本,為了防止訪問量過大導(dǎo)致http連接失敗,所以采用本地安裝,具體安裝方法本文給大家詳細(xì)介紹,在文章底部給大家提到了PyCharm 2021配置環(huán)境的方法,感興趣的朋友一起看看吧2021-06-06
分享11個(gè)Python自動(dòng)化操作Excel的方法
這篇文章主要給大家分享的是11個(gè)Python自動(dòng)化操作Excel的方法,自動(dòng)化辦公,我相信很多人都有強(qiáng)烈的需求,今天我教大家如何利用Python自動(dòng)化操作Excel,需要的朋友可以參考一下2022-02-02
Python實(shí)現(xiàn)讀取csv文件并進(jìn)行排序
這篇文章主要為大家詳細(xì)介紹了一個(gè)python簡(jiǎn)單案例并進(jìn)行代碼展示,本文的案例是利用pandas庫實(shí)現(xiàn)讀取csv文件并按照列的從小到大進(jìn)行排序,需要的可以參考一下2023-02-02
python進(jìn)階學(xué)習(xí)實(shí)時(shí)目標(biāo)跟蹤示例詳解
這篇文章主要為大家介紹了python進(jìn)階學(xué)習(xí)實(shí)時(shí)目標(biāo)跟蹤示例詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2023-03-03

