Python sklearn分類決策樹方法詳解
決策樹模型
決策樹(decision tree)是一種基本的分類與回歸方法。
分類決策樹模型是一種描述對(duì)實(shí)例進(jìn)行分類的樹形結(jié)構(gòu)。決策樹由結(jié)點(diǎn)(node)和有向邊(directed edge)組成。結(jié)點(diǎn)有兩種類型:內(nèi)部結(jié)點(diǎn)(internal node)和葉結(jié)點(diǎn)(leaf node)。內(nèi)部結(jié)點(diǎn)表示一個(gè)特征或?qū)傩?,葉結(jié)點(diǎn)表示一個(gè)類。
用決策樹分類,從根結(jié)點(diǎn)開始,對(duì)實(shí)例的某一特征進(jìn)行測(cè)試,根據(jù)測(cè)試結(jié)果,將實(shí)例分配到其子結(jié)點(diǎn);這時(shí),每一個(gè)子結(jié)點(diǎn)對(duì)應(yīng)著該特征的一個(gè)取值。如此遞歸地對(duì)實(shí)例進(jìn)行測(cè)試并分配,直至達(dá)到葉結(jié)點(diǎn)。最后將實(shí)例分到葉結(jié)點(diǎn)的類中。

用于預(yù)測(cè)一個(gè)人是否肥胖或不肥胖的決策樹
決策樹學(xué)習(xí)
決策樹學(xué)習(xí)算法包括3部分:特征選擇、樹的生成和樹的剪枝。常用的算法有ID3、 C4.5和CART。
1、特征選擇的目的在于選取對(duì)訓(xùn)練數(shù)據(jù)能夠分類的特征。特征選擇的關(guān)鍵是其準(zhǔn)則。常用的準(zhǔn)則如下:
(1)樣本集合D對(duì)特征A的信息增益(ID3)
(2)樣本集合D對(duì)特征A的信息增益比(C4.5)
(3)樣本集合D的基尼指數(shù)(CART)
2.決策樹的生成。通常使用信息增益最大、信息增益比最大或基尼指數(shù)最小作為特征選擇的準(zhǔn)則。決策樹的生成往往通過計(jì)算信息增益或其他指標(biāo),從根結(jié)點(diǎn)開始,遞歸地產(chǎn)生決策樹。這相當(dāng)于用信息增益或其他準(zhǔn)則不斷地選取局部最優(yōu)的特征,或?qū)⒂?xùn)練集分割為能夠基本正確分類的子集。
3.決策樹的剪枝。由于生成的決策樹存在過擬合問題,需要對(duì)它進(jìn)行剪枝,以簡(jiǎn)化學(xué)到的決策樹。決策樹的剪枝,往往從已生成的樹上剪掉一些葉結(jié)點(diǎn)或葉結(jié)點(diǎn)以上的子樹,并將其父結(jié)點(diǎn)或根結(jié)點(diǎn)作為新的葉結(jié)點(diǎn),從而簡(jiǎn)化生成的決策樹。
使用Scikit-learn進(jìn)行決策樹分類
import numpy as np
from sklearn.datasets import load_iris
from sklearn import tree
import matplotlib.pyplot as plt
iris=load_iris()
print(iris.feature_names)
print(iris.target_names)
#劃分?jǐn)?shù)據(jù)集
removed =[0,50,100]
new_target = np.delete(iris.target,removed)
new_data = np.delete(iris.data,removed, axis=0)
#訓(xùn)練分類器
clf = tree.DecisionTreeClassifier() # 定義決策樹分類器
clf=clf.fit(new_data,new_target)
prediction = clf.predict(iris.data[removed])
print("Original Labels",iris.target[removed])
print("Labels Predicted",prediction)
#繪制決策樹
plt.figure(figsize=(15, 10))
tree.plot_tree(clf, feature_names=iris.feature_names, filled=True)
plt.show()
參考鏈接傳送門
到此這篇關(guān)于Python sklearn分類決策樹方法詳解的文章就介紹到這了,更多相關(guān)Python sklearn決策樹內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
- Python中使用sklearn進(jìn)行特征降維的方法
- Python sklearn CountVectorizer使用詳解
- Python?sklearn?中的?make_blobs()?函數(shù)示例詳解
- Python?sklearn預(yù)測(cè)評(píng)估指標(biāo)混淆矩陣計(jì)算示例詳解
- Python+Sklearn實(shí)現(xiàn)異常檢測(cè)
- Python sklearn中的K-Means聚類使用方法淺析
- python?sklearn與pandas實(shí)現(xiàn)缺失值數(shù)據(jù)預(yù)處理流程詳解
- Python sklearn對(duì)文本數(shù)據(jù)進(jìn)行特征化提取
相關(guān)文章
python實(shí)現(xiàn)支持目錄FTP上傳下載文件的方法
這篇文章主要介紹了python實(shí)現(xiàn)支持目錄FTP上傳下載文件的方法,適用于windows及Linux平臺(tái)FTP傳輸文件及文件夾,需要的朋友可以參考下2015-06-06
Elasticsearches的集群搭建及數(shù)據(jù)分片過程詳解
這篇文章主要為大家介紹了Elasticsearches的集群搭建及數(shù)據(jù)分片過程詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2022-04-04
對(duì)Pandas DataFrame缺失值的查找與填充示例講解
今天小編就為大家分享一篇對(duì)Pandas DataFrame缺失值的查找與填充示例講解,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2018-11-11
opencv 圖像加法與圖像融合的實(shí)現(xiàn)代碼
這篇文章主要介紹了opencv 圖像加法與圖像融合的實(shí)現(xiàn)代碼,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2020-07-07
Python OpenCV圖像指定區(qū)域裁剪的實(shí)現(xiàn)
這篇文章主要介紹了Python OpenCV圖像指定區(qū)域裁剪的實(shí)現(xiàn),文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2019-10-10
Python tkinter實(shí)現(xiàn)日期選擇器
這篇文章主要為大家詳細(xì)介紹了Python tkinter實(shí)現(xiàn)日期選擇器,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2021-02-02

