python機器學(xué)習(xí)理論與實戰(zhàn)(一)K近鄰法
機器學(xué)習(xí)分兩大類,有監(jiān)督學(xué)習(xí)(supervised learning)和無監(jiān)督學(xué)習(xí)(unsupervised learning)。有監(jiān)督學(xué)習(xí)又可分兩類:分類(classification.)和回歸(regression),分類的任務(wù)就是把一個樣本劃為某個已知類別,每個樣本的類別信息在訓(xùn)練時需要給定,比如人臉識別、行為識別、目標(biāo)檢測等都屬于分類?;貧w的任務(wù)則是預(yù)測一個數(shù)值,比如給定房屋市場的數(shù)據(jù)(面積,位置等樣本信息)來預(yù)測房價走勢。而無監(jiān)督學(xué)習(xí)也可以成兩類:聚類(clustering)和密度估計(density estimation),聚類則是把一堆數(shù)據(jù)聚成弱干組,沒有類別信息;密度估計則是估計一堆數(shù)據(jù)的統(tǒng)計參數(shù)信息來描述數(shù)據(jù),比如深度學(xué)習(xí)的RBM。
根據(jù)機器學(xué)習(xí)實戰(zhàn)講解順序,先學(xué)習(xí)K近鄰法(K Nearest Neighbors-KNN)
K近鄰法是有監(jiān)督學(xué)習(xí)方法,原理很簡單,假設(shè)我們有一堆分好類的樣本數(shù)據(jù),分好類表示每個樣本都一個對應(yīng)的已知類標(biāo)簽,當(dāng)來一個測試樣本要我們判斷它的類別是,就分別計算到每個樣本的距離,然后選取離測試樣本最近的前K個樣本的標(biāo)簽累計投票,得票數(shù)最多的那個標(biāo)簽就為測試樣本的標(biāo)簽。
例子(電影分類):

(圖一)
(圖一)中橫坐標(biāo)表示一部電影中的打斗統(tǒng)計個數(shù),縱坐標(biāo)表示接吻次數(shù)。我們要對(圖一)中的問號這部電影進行分類,其他幾部電影的統(tǒng)計數(shù)據(jù)和類別如(圖二)所示:

(圖二)
從(圖二)中可以看出有三部電影的類別是Romance,有三部電影的類別是Action,那如何判斷問號表示的這部電影的類別?根據(jù)KNN原理,我們需要在(圖一)所示的坐標(biāo)系中計算問號到所有其他電影之間的距離。計算出的歐式距離如(圖三)所示:

(圖三)
由于我們的標(biāo)簽只有兩類,那假設(shè)我們選K=6/2=3,由于前三個距離最近的電影都是Romance,那么問號表示的電影被判定為Romance。
代碼實戰(zhàn)(Python版本):
先來看看KNN的實現(xiàn):
from numpy import *
import operator
from os import listdir
def classify0(inX, dataSet, labels, k):
dataSetSize = dataSet.shape[0] #獲取一條樣本大小
diffMat = tile(inX, (dataSetSize,1)) - dataSet #計算距離
sqDiffMat = diffMat**2 #計算距離
sqDistances = sqDiffMat.sum(axis=1) #計算距離
distances = sqDistances**0.5 #計算距離
sortedDistIndicies = distances.argsort() #距離排序
classCount={}
for i in range(k):
voteIlabel = labels[sortedDistIndicies[i]] #前K個距離最近的投票統(tǒng)計
classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1 #前K個距離最近的投票統(tǒng)計
sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True) #對投票統(tǒng)計進行排序
return sortedClassCount[0][0] #返回最高投票的類別
下面取一些樣本測試KNN:
def file2matrix(filename):
fr = open(filename)
numberOfLines = len(fr.readlines()) #get the number of lines in the file
returnMat = zeros((numberOfLines,3)) #prepare matrix to return
classLabelVector = [] #prepare labels return
fr = open(filename)
index = 0
for line in fr.readlines():
line = line.strip()
listFromLine = line.split('\t')
returnMat[index,:] = listFromLine[0:3]
classLabelVector.append(int(listFromLine[-1]))
index += 1
return returnMat,classLabelVector
def autoNorm(dataSet):
minVals = dataSet.min(0)
maxVals = dataSet.max(0)
ranges = maxVals - minVals
normDataSet = zeros(shape(dataSet))
m = dataSet.shape[0]
normDataSet = dataSet - tile(minVals, (m,1))
normDataSet = normDataSet/tile(ranges, (m,1)) #element wise divide
return normDataSet, ranges, minVals
def datingClassTest():
hoRatio = 0.50 #hold out 50%
datingDataMat,datingLabels = file2matrix('datingTestSet2.txt') #load data setfrom file
normMat, ranges, minVals = autoNorm(datingDataMat)
m = normMat.shape[0]
numTestVecs = int(m*hoRatio)
errorCount = 0.0
for i in range(numTestVecs):
classifierResult = classify0(normMat[i,:],normMat[numTestVecs:m,:],datingLabels[numTestVecs:m],3)
print "the classifier came back with: %d, the real answer is: %d" % (classifierResult, datingLabels[i])
if (classifierResult != datingLabels[i]): errorCount += 1.0
print "the total error rate is: %f" % (errorCount/float(numTestVecs))
print errorCount
上面的代碼中第一個函數(shù)從文本文件中讀取樣本數(shù)據(jù),第二個函數(shù)把樣本歸一化,歸一化的好處就是降低樣本不同特征之間數(shù)值量級對距離計算的顯著性影響
datingClassTest則是對KNN測試,留了一半數(shù)據(jù)進行測試,文本文件中的每條數(shù)據(jù)都有標(biāo)簽,這樣可以計算錯誤率,運行的錯誤率為:the total error rate is: 0.064000
總結(jié):
優(yōu)點:高精度,對離群點不敏感,對數(shù)據(jù)不需要假設(shè)模型
缺點:判定時計算量太大,需要大量的內(nèi)存
工作方式:數(shù)值或者類別
下面挑選一步樣本數(shù)據(jù)發(fā)出來:

參考文獻:machine learning in action
以上就是本文的全部內(nèi)容,希望對大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
- python實現(xiàn)K近鄰回歸,采用等權(quán)重和不等權(quán)重的方法
- 用python實現(xiàn)k近鄰算法的示例代碼
- python K近鄰算法的kd樹實現(xiàn)
- python實現(xiàn)KNN近鄰算法
- K最近鄰算法(KNN)---sklearn+python實現(xiàn)方式
- Python K最近鄰從原理到實現(xiàn)的方法
- python實現(xiàn)K最近鄰算法
- python機器學(xué)習(xí)案例教程——K最近鄰算法的實現(xiàn)
- python k-近鄰算法實例分享
- K近鄰法(KNN)相關(guān)知識總結(jié)以及如何用python實現(xiàn)
相關(guān)文章
linux環(huán)境下安裝pyramid和新建項目的步驟
這篇文章簡單介紹了linux環(huán)境下安裝pyramid和新建項目的步驟,大家參考使用2013-11-11
Python中函數(shù)調(diào)用9大方法小結(jié)
在Python中,函數(shù)是一種非常重要的編程概念,它們使得代碼模塊化、可重用,并且能夠提高代碼的可讀性,本文將深入探討Python函數(shù)調(diào)用的9種方法,需要的可以參考下2024-01-01

