python機器學習Logistic回歸原理推導
前言
Logistic回歸涉及到高等數(shù)學,線性代數(shù),概率論,優(yōu)化問題。本文盡量以最簡單易懂的敘述方式,以少講公式原理,多講形象化案例為原則,給讀者講懂Logistic回歸。如對數(shù)學公式過敏,引發(fā)不適,后果自負。
Logistic回歸原理與推導
Logistic回歸中雖然有回歸的字樣,但該算法是一個分類算法,如圖所示,有兩類數(shù)據(jù)(紅點和綠點)分布如下,如果需要對兩類數(shù)據(jù)進行分類,我們可以通過一條直線進行劃分(w0 * x0 + w1 * x1+w2 * x2)。當新的樣本(x1,x2)需要預測時,帶入直線函數(shù)中,函數(shù)值大于0,則為綠色樣本(正樣本),否則為紅樣本(負樣本)。
推廣到高維空間中,我們需要得到一個超平面(在二維是直線,在三維是平面,在n維是n-1的超平面)切分我們的樣本數(shù)據(jù),實際上也就是求該超平面的W參數(shù),這很類似于回歸,所以取名為Logistic回歸。

sigmoid函數(shù)
當然,我們不直接使用z函數(shù),我們需要把z值轉(zhuǎn)換到區(qū)間[0-1]之間,轉(zhuǎn)換的z值就是判斷新樣本屬于正樣本的概率大小。 我們使用sigmoid函數(shù)完成這個轉(zhuǎn)換過程,公式如下。通過觀察sigmoid函數(shù)圖,如圖所示,當z值大于0時,σ值大于0.5,當z值小于0時,σ值小于于0.5。利用sigmoid函數(shù),使得Logistic回歸本質(zhì)上是一個基于條件概率的判別模型。

目標函數(shù)
其實,我們現(xiàn)在就是求W,如何求W呢,我們先看下圖,我們都能看出第二個圖的直線切分的最好,換句話說,能讓這些樣本點離直線越遠越好,這樣對于新樣本的到來,也具有很好的劃分,那如何用公式表示并計算這個目標函數(shù)呢?

這時就需要這個目標函數(shù)的值最大,以此求出θ。
梯度上升法
在介紹梯度上升法之前,我們看一個中學知識:求下面函數(shù)在x等于多少時,取最大值。
解:求f(x)的導數(shù):2x,令其為0,求得x=0時,取最大值為0。但在函數(shù)復雜時,求出導數(shù)也很難計算函數(shù)的極值,這時就需要使用梯度上升法,通過迭代,一步步逼近極值,公式如下,我們順著導數(shù)的方向(梯度)一步步逼近。
利用梯度算法計算該函數(shù)的x值:
def f(x_old):
return -2*x_old
def cal():
x_old = 0
x_new = -6
eps = 0.01
presision = 0.00001
while abs(x_new-x_old)>presision:
x_old=x_new
x_new=x_old+eps*f(x_old)
return x_new
-0.0004892181072978443
Logistic回歸實踐
數(shù)據(jù)情況
讀入數(shù)據(jù),并繪圖顯示:
def loadDataSet():
dataMat = [];labelMat = []
fr = open('數(shù)據(jù)/Logistic/TestSet.txt')
for line in fr.readlines():
lineArr = line.strip().split()
dataMat.append([1.0, float(lineArr[0]), float(lineArr[1])])
labelMat.append(int(lineArr[2]))
return dataMat, labelMat
訓練算法
利用梯度迭代公式,計算W:
def sigmoid(inX):
return 1.0/(1 + np.exp(-inX))
def gradAscent(dataMatIn, labelMatIn):
dataMatrix = np.mat(dataMatIn)
labelMat = np.mat(labelMatIn).transpose()
m,n = np.shape(dataMatrix)
alpha = 0.001
maxCycles = 500
weights = np.ones((n,1))
for k in range(maxCycles):
h = sigmoid(dataMatrix * weights)
error = labelMat - h
weights = weights + alpha * dataMatrix.transpose() * error
return weights
通過計算的weights繪圖,查看分類結(jié)果
算法優(yōu)缺點
- 優(yōu)點:易于理解和計算
- 缺點:精度不高
以上就是python機器學習Logistic回歸原理推導的詳細內(nèi)容,更多關(guān)于python機器學習Logistic回歸的資料請關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
Python3按一定數(shù)據(jù)位數(shù)格式處理bin文件的方法
今天小編就為大家分享一篇Python3按一定數(shù)據(jù)位數(shù)格式處理bin文件的方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-01-01
解決Python3 被PHP程序調(diào)用執(zhí)行返回亂碼的問題
今天小編就為大家分享一篇解決Python3 被PHP程序調(diào)用執(zhí)行返回亂碼的問題,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-02-02
如何將Pycharm中調(diào)整字體大小的方式設(shè)置為"ctrl+鼠標滾輪上下滑"
這篇文章主要介紹了如何將Pycharm中調(diào)整字體大小的方式設(shè)置為"ctrl+鼠標滾輪上下滑",本文通過圖文并茂的形式給大家介紹的非常詳細,對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下2020-11-11
python Matplotlib基礎(chǔ)--如何添加文本和標注
這篇文章主要介紹了python Matplotlib基礎(chǔ)--如何添加文本和標注,幫助大家更好的利用Matplotlib繪制圖表,感興趣的朋友可以了解下2021-01-01
python對數(shù)組進行排序,并輸出排序后對應的索引值方式
今天小編就為大家分享一篇python對數(shù)組進行排序,并輸出排序后對應的索引值方式,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-02-02

