python實現(xiàn)KNN分類算法

更新時間：2019年10月16日 10:31:54 作者：王念晨

這篇文章主要為大家詳細介紹了python實現(xiàn)KNN分類算法，文中示例代碼介紹的非常詳細，具有一定的參考價值，感興趣的小伙伴們可以參考一下

一、KNN算法簡介

鄰近算法，或者說K最近鄰(kNN，k-NearestNeighbor)分類算法是數(shù)據(jù)挖掘分類技術中最簡單的方法之一。所謂K最近鄰，就是k個最近的鄰居的意思，說的是每個樣本都可以用它最接近的k個鄰居來代表。

kNN算法的核心思想是如果一個樣本在特征空間中的k個最相鄰的樣本中的大多數(shù)屬于某一個類別，則該樣本也屬于這個類別，并具有這個類別上樣本的特性。該方法在確定分類決策上只依據(jù)最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別。 kNN方法在類別決策時，只與極少量的相鄰樣本有關。由于kNN方法主要靠周圍有限的鄰近的樣本，而不是靠判別類域的方法來確定所屬類別的，因此對于類域的交叉或重疊較多的待分樣本集來說，kNN方法較其他方法更為適合。

二、算法過程

1.讀取數(shù)據(jù)集

2.處理數(shù)據(jù)集數(shù)據(jù) 清洗，采用留出法hold-out拆分數(shù)據(jù)集：訓練集、測試集

3.實現(xiàn)KNN算法類：

1）遍歷訓練數(shù)據(jù)集，離差平方和計算各點之間的距離

2）對各點的距離數(shù)組進行排序，根據(jù)輸入的k值取對應的k個點

3）k個點中，統(tǒng)計每個點出現(xiàn)的次數(shù)，權重為距離的導數(shù)，得到最大的值，該值的索引就是我們計算出的判定類別

三、代碼實現(xiàn)及數(shù)據(jù)分析

import numpy as np
import pandas as pd
 
# 讀取鳶尾花數(shù)據(jù)集，header參數(shù)來指定標題的行。默認為0。如果沒有標題，則使用None。
data = pd.read_csv("你的目錄/Iris.csv",header=0)
# 顯示前n行記錄。默認n的值為5。
#data.head()
# 顯示末尾的n行記錄。默認n的值為5。
#data.tail()
# 隨機抽取樣本。默認抽取一條，我們可以通過參數(shù)進行指定抽取樣本的數(shù)量。
# data.sample(10)
# 將類別文本映射成為數(shù)值類型
 
data["Species"] = data["Species"].map({"Iris-virginica": 0, "Iris-setosa": 1, "Iris-versicolor": 2})
# 刪除不需要的Id列。
data.drop("Id", axis=1, inplace=True )
data.drop_duplicates(inplace=True)
## 查看各個類別的鳶尾花具有多少條記錄。
data["Species"].value_counts()

分析：首先讀取數(shù)據(jù)集，如下圖

最后一列為數(shù)據(jù)集的分類名稱，但是在程序中，我們更傾向于使用如0、1、2數(shù)字來表示分類，所以對數(shù)據(jù)集進行處理，處理后的數(shù)據(jù)集如下：

然后采用留出法對數(shù)據(jù)集進行拆分，一部分用作訓練，一部分用作測試，如下圖：

#構建訓練集與測試集，用于對模型進行訓練與測試。
# 提取出每個類比的鳶尾花數(shù)據(jù)
t0 = data[data["Species"] == 0]
t1 = data[data["Species"] == 1]
t2 = data[data["Species"] == 2]
# 對每個類別數(shù)據(jù)進行洗牌 random_state 每次以相同的方式洗牌 保證訓練集與測試集數(shù)據(jù)取樣方式相同
t0 = t0.sample(len(t0), random_state=0)
t1 = t1.sample(len(t1), random_state=0)
t2 = t2.sample(len(t2), random_state=0)
# 構建訓練集與測試集。
train_X = pd.concat([t0.iloc[:40, :-1], t1.iloc[:40, :-1], t2.iloc[:40, :-1]] , axis=0)#截取前40行，除最后列外的列，因為最后一列是y
train_y = pd.concat([t0.iloc[:40, -1], t1.iloc[:40, -1], t2.iloc[:40, -1]], axis=0)
test_X = pd.concat([t0.iloc[40:, :-1], t1.iloc[40:, :-1], t2.iloc[40:, :-1]], axis=0)
test_y = pd.concat([t0.iloc[40:, -1], t1.iloc[40:, -1], t2.iloc[40:, -1]], axis=0)

實現(xiàn)KNN算法類：

#定義KNN類，用于分類，類中定義兩個預測方法，分為考慮權重不考慮權重兩種情況
class KNN:
 ''' 使用Python語言實現(xiàn)K近鄰算法。（實現(xiàn)分類） '''
 def __init__(self, k):
  '''初始化方法 
   Parameters
   -----
   k:int 鄰居的個數(shù)
  '''
  self.k = k
 
 def fit(self,X,y):
  '''訓練方法
   Parameters
   ----
   X : 類數(shù)組類型，形狀為：[樣本數(shù)量, 特征數(shù)量]
   待訓練的樣本特征（屬性）
  
  y : 類數(shù)組類型，形狀為： [樣本數(shù)量]
   每個樣本的目標值（標簽）。
  '''
  #將X轉換成ndarray數(shù)組
  self.X = np.asarray(X)
  self.y = np.asarray(y)
  
 def predict(self,X):
  """根據(jù)參數(shù)傳遞的樣本，對樣本數(shù)據(jù)進行預測。
  
  Parameters
  -----
  X : 類數(shù)組類型，形狀為：[樣本數(shù)量, 特征數(shù)量]
   待訓練的樣本特征（屬性） 
  
  Returns
  -----
  result : 數(shù)組類型
   預測的結果。
  """
  X = np.asarray(X)
  result = []
  # 對ndarray數(shù)組進行遍歷，每次取數(shù)組中的一行。
  for x in X:
   # 對于測試集中的每一個樣本，依次與訓練集中的所有樣本求距離。
   dis = np.sqrt(np.sum((x - self.X) ** 2, axis=1))
   ## 返回數(shù)組排序后，每個元素在原數(shù)組（排序之前的數(shù)組）中的索引。
   index = dis.argsort()
   # 進行截斷，只取前k個元素?！救【嚯x最近的k個元素的索引】
   index = index[:self.k]
   # 返回數(shù)組中每個元素出現(xiàn)的次數(shù)。元素必須是非負的整數(shù)。【使用weights考慮權重，權重為距離的倒數(shù)。】
   count = np.bincount(self.y[index], weights= 1 / dis[index])
   # 返回ndarray數(shù)組中，值最大的元素對應的索引。該索引就是我們判定的類別。
   # 最大元素索引，就是出現(xiàn)次數(shù)最多的元素。
   result.append(count.argmax())
  return np.asarray(result)

#創(chuàng)建KNN對象，進行訓練與測試。
knn = KNN(k=3)
#進行訓練
knn.fit(train_X,train_y)
#進行測試
result = knn.predict(test_X)
# display(result)
# display(test_y)
display(np.sum(result == test_y))
display(np.sum(result == test_y)/ len(result))

得出計算結果：

26
0.9629629629629629

得出該模型計算的結果中，有26條記錄與測試集相等，準確率為96%

接下來繪制散點圖：

#導入可視化所必須的庫。
import matplotlib as mpl
import matplotlib.pyplot as plt
mpl.rcParams["font.family"] = "SimHei"
mpl.rcParams["axes.unicode_minus"] = False
 
#繪制散點圖。為了能夠更方便的進行可視化，這里只選擇了兩個維度（分別是花萼長度與花瓣長度）。
# {"Iris-virginica": 0, "Iris-setosa": 1, "Iris-versicolor": 2})
# 設置畫布的大小
plt.figure(figsize=(10, 10))
# 繪制訓練集數(shù)據(jù)
plt.scatter(x=t0["SepalLengthCm"][:40], y=t0["PetalLengthCm"][:40], color="r", label="Iris-virginica")
plt.scatter(x=t1["SepalLengthCm"][:40], y=t1["PetalLengthCm"][:40], color="g", label="Iris-setosa")
plt.scatter(x=t2["SepalLengthCm"][:40], y=t2["PetalLengthCm"][:40], color="b", label="Iris-versicolor")
# 繪制測試集數(shù)據(jù)
right = test_X[result == test_y]
wrong = test_X[result != test_y]
plt.scatter(x=right["SepalLengthCm"], y=right["PetalLengthCm"], color="c", marker="x", label="right")
plt.scatter(x=wrong["SepalLengthCm"], y=wrong["PetalLengthCm"], color="m", marker=">", label="wrong")
plt.xlabel("花萼長度")
plt.ylabel("花瓣長度")
plt.title("KNN分類結果顯示")
plt.legend(loc="best")
plt.show()

程序運行結果如下：

四、思考與優(yōu)化

①嘗試去改變鄰居的數(shù)量。

②在考慮權重的情況下，修改鄰居的數(shù)量。

③對比查看結果上的差異。

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支持腳本之家。

您可能感興趣的文章:

$python: line=f.readlines()消除line中\(zhòng)n的方法$
python: line=f.readlines()消除line中\(zhòng)n的方法
這篇文章主要介紹了python: line=f.readlines()消除line中\(zhòng)n的方法,需要的朋友可以參考下
2018-03-03
python 合并多個excel中同名的sheet
這篇文章主要介紹了python 如何合并多個excel中同名的sheet，幫助大家更好的利用python處理excel表格，感興趣的朋友可以了解下
2021-01-01
linux環(huán)境下的python安裝過程圖解(含setuptools)
這篇文章主要介紹了linux環(huán)境下的python安裝過程圖解(含setuptools),小編覺得挺不錯的，現(xiàn)在分享給大家，也給大家做個參考。一起跟隨小編過來看看吧
2017-11-11
python實現(xiàn)自動清理文件夾舊文件
這篇文章主要為大家詳細介紹了python實現(xiàn)自動清理文件夾舊文件，文中示例代碼介紹的非常詳細，具有一定的參考價值，感興趣的小伙伴們可以參考一下
2021-05-05
解決Python3 控制臺輸出InsecureRequestWarning問題
這篇文章主要介紹了解決Python3 控制臺輸出InsecureRequestWarning的問題，本文給大家介紹的非常詳細，具有一定的參考借鑒價值,需要的朋友可以參考下
2019-07-07
Python 的第三方調試庫 ???pysnooper?? 使用示例
這篇文章主要介紹了Python 的第三方調試庫 ???pysnooper?? 使用示例的相關資料,需要的朋友可以參考下
2023-02-02
python將天數(shù)轉換為日期字符串的方法實例
這篇文章主要給大家介紹了關于python將天數(shù)轉換為日期字符串的相關資料,以及將將字符串的時間轉換為時間戳的實例代碼,需要的朋友可以參考下
2022-01-01
一文帶你探索Python中15個常見的魔術方法
在Python中,特殊方法（也稱為魔術方法）是由Python解釋器自動調用的,我們不需要手動調用它們,本文小編為大家整理了15個常見特殊方法的實現(xiàn),希望對大家有所幫助
2024-01-01
Python爬蟲模擬登陸嗶哩嗶哩(bilibili)并突破點選驗證碼功能
這篇文章主要介紹了Python爬蟲模擬登陸嗶哩嗶哩(bilibili)并突破點選驗證碼功能,本文通過圖文實例相結合給大家介紹的非常詳細，對大家的學習或工作具有一定的參考借鑒價值，需要的朋友可以參考下
2020-12-12
如何基于Python深度圖生成3D點云詳解
通常使用TOF等3d攝像頭采集的格式一般只是深度圖,下面這篇文章主要給大家介紹了關于如何基于Python深度圖生成3D點云的相關資料,文中通過示例代碼介紹的非常詳細,需要的朋友可以參考下
2022-12-12