Python sklearn分類決策樹方法詳解

更新時(shí)間：2022年09月22日 09:57:03 作者：#妖言惑眾

決策樹(Decision Tree）是在已知各種情況發(fā)生概率的基礎(chǔ)上，通過構(gòu)成決策樹來求取凈現(xiàn)值的期望值大于等于零的概率，評(píng)價(jià)項(xiàng)目風(fēng)險(xiǎn)，判斷其可行性的決策分析方法，是直觀運(yùn)用概率分析的一種圖解法

決策樹模型

決策樹（decision tree）是一種基本的分類與回歸方法。

分類決策樹模型是一種描述對(duì)實(shí)例進(jìn)行分類的樹形結(jié)構(gòu)。決策樹由結(jié)點(diǎn)（node）和有向邊（directed edge）組成。結(jié)點(diǎn)有兩種類型：內(nèi)部結(jié)點(diǎn)（internal node）和葉結(jié)點(diǎn)（leaf node）。內(nèi)部結(jié)點(diǎn)表示一個(gè)特征或?qū)傩?，葉結(jié)點(diǎn)表示一個(gè)類。

用決策樹分類，從根結(jié)點(diǎn)開始，對(duì)實(shí)例的某一特征進(jìn)行測(cè)試，根據(jù)測(cè)試結(jié)果，將實(shí)例分配到其子結(jié)點(diǎn)；這時(shí)，每一個(gè)子結(jié)點(diǎn)對(duì)應(yīng)著該特征的一個(gè)取值。如此遞歸地對(duì)實(shí)例進(jìn)行測(cè)試并分配，直至達(dá)到葉結(jié)點(diǎn)。最后將實(shí)例分到葉結(jié)點(diǎn)的類中。

用于預(yù)測(cè)一個(gè)人是否肥胖或不肥胖的決策樹

決策樹學(xué)習(xí)

決策樹學(xué)習(xí)算法包括3部分：特征選擇、樹的生成和樹的剪枝。常用的算法有ID3、 C4.5和CART。

1、特征選擇的目的在于選取對(duì)訓(xùn)練數(shù)據(jù)能夠分類的特征。特征選擇的關(guān)鍵是其準(zhǔn)則。常用的準(zhǔn)則如下：

（1）樣本集合D對(duì)特征A的信息增益（ID3）

（2）樣本集合D對(duì)特征A的信息增益比（C4.5）

（3）樣本集合D的基尼指數(shù)（CART）

2．決策樹的生成。通常使用信息增益最大、信息增益比最大或基尼指數(shù)最小作為特征選擇的準(zhǔn)則。決策樹的生成往往通過計(jì)算信息增益或其他指標(biāo)，從根結(jié)點(diǎn)開始，遞歸地產(chǎn)生決策樹。這相當(dāng)于用信息增益或其他準(zhǔn)則不斷地選取局部最優(yōu)的特征，或?qū)⒂?xùn)練集分割為能夠基本正確分類的子集。

3．決策樹的剪枝。由于生成的決策樹存在過擬合問題，需要對(duì)它進(jìn)行剪枝，以簡(jiǎn)化學(xué)到的決策樹。決策樹的剪枝，往往從已生成的樹上剪掉一些葉結(jié)點(diǎn)或葉結(jié)點(diǎn)以上的子樹，并將其父結(jié)點(diǎn)或根結(jié)點(diǎn)作為新的葉結(jié)點(diǎn)，從而簡(jiǎn)化生成的決策樹。

使用Scikit-learn進(jìn)行決策樹分類

import numpy as np
from sklearn.datasets import load_iris
from sklearn import tree
import matplotlib.pyplot as plt
iris=load_iris()
print(iris.feature_names)
print(iris.target_names)
#劃分?jǐn)?shù)據(jù)集
removed =[0,50,100]
new_target = np.delete(iris.target,removed)
new_data = np.delete(iris.data,removed, axis=0)
#訓(xùn)練分類器
clf = tree.DecisionTreeClassifier() # 定義決策樹分類器
clf=clf.fit(new_data,new_target)
prediction = clf.predict(iris.data[removed])
print("Original Labels",iris.target[removed])
print("Labels Predicted",prediction)
#繪制決策樹
plt.figure(figsize=(15, 10))
tree.plot_tree(clf, feature_names=iris.feature_names, filled=True)
plt.show()