Spark MLlib隨機(jī)梯度下降法概述與實(shí)例
機(jī)器學(xué)習(xí)算法中回歸算法有很多,例如神經(jīng)網(wǎng)絡(luò)回歸算法、蟻群回歸算法,支持向量機(jī)回歸算法等,其中也包括本篇文章要講述的梯度下降算法,本篇文章將主要講解其基本原理以及基于Spark MLlib進(jìn)行實(shí)例示范,不足之處請(qǐng)多多指教。
梯度下降算法包含多種不同的算法,有批量梯度算法,隨機(jī)梯度算法,折中梯度算法等等。對(duì)于隨機(jī)梯度下降算法而言,它通過(guò)不停的判斷和選擇當(dāng)前目標(biāo)下最優(yōu)的路徑,從而能夠在最短路徑下達(dá)到最優(yōu)的結(jié)果。我們可以在一個(gè)人下山坡為例,想要更快的到達(dá)山低,最簡(jiǎn)單的辦法就是在當(dāng)前位置沿著最陡峭的方向下山,到另一個(gè)位置后接著上面的方式依舊尋找最陡峭的方向走,這樣每走一步就停下來(lái)觀察最下路線的方法就是隨機(jī)梯度下降算法的本質(zhì)。

隨機(jī)梯度下降算法理論基礎(chǔ)
在線性回歸中,我們給出回歸方程,如下所示:
我們知道,對(duì)于最小二乘法要想求得最優(yōu)變量就要使得計(jì)算值與實(shí)際值的偏差的平方最小。而隨機(jī)梯度下降算法對(duì)于系數(shù)需要通過(guò)不斷的求偏導(dǎo)求解出當(dāng)前位置下最優(yōu)化的數(shù)據(jù),那么梯度方向公式推導(dǎo)如下公式,公式中的θ會(huì)向著梯度下降最快的方向減少,從而推斷出θ的最優(yōu)解。

因此隨機(jī)梯度下降法的公式歸結(jié)為通過(guò)迭代計(jì)算特征值從而求出最合適的值。θ的求解公式如下。

α是下降系數(shù),即步長(zhǎng),學(xué)習(xí)率,通俗的說(shuō)就是計(jì)算每次下降的幅度的大小,系數(shù)越大每次計(jì)算的差值越大,系數(shù)越小則差值越小,但是迭代計(jì)算的時(shí)間也會(huì)相對(duì)延長(zhǎng)。θ的初值可以隨機(jī)賦值,比如下面的例子中初值賦值為0。
Spark MLlib隨機(jī)梯度下降算法實(shí)例
下面使用Spark MLlib來(lái)迭代計(jì)算回歸方程y=2x的θ最優(yōu)解,代碼如下:
package cn.just.shinelon.MLlib.Algorithm
import java.util
import scala.collection.immutable.HashMap
/**
* 隨機(jī)梯度下降算法實(shí)戰(zhàn)
* 隨機(jī)梯度下降算法:最短路徑下達(dá)到最優(yōu)結(jié)果
* 數(shù)學(xué)表達(dá)公式如下:
* f(θ)=θ0x0+θ1x1+θ2x2+...+θnxn
* 對(duì)于系數(shù)要通過(guò)不停地求解出當(dāng)前位置下最優(yōu)化的數(shù)據(jù),即不停對(duì)系數(shù)θ求偏導(dǎo)數(shù)
* 則θ求解的公式如下:
* θ=θ-α(f(θ)-yi)xi
* 公式中α是下降系數(shù),即每次下降的幅度大小,系數(shù)越大則差值越小,系數(shù)越小則差值越小,但是計(jì)算時(shí)間也相對(duì)延長(zhǎng)
*/
object SGD {
var data=HashMap[Int,Int]() //創(chuàng)建數(shù)據(jù)集
def getdata():HashMap[Int,Int]={
for(i <- 1 to 50){ //創(chuàng)建50個(gè)數(shù)據(jù)集
data += (i->(2*i)) //寫(xiě)入公式y(tǒng)=2x
}
data //返回?cái)?shù)據(jù)集
}
var θ:Double=0 //第一步 假設(shè)θ為0
var α:Double=0.1 //設(shè)置步進(jìn)系數(shù)
def sgd(x:Double,y:Double)={ //隨機(jī)梯度下降迭代公式
θ=θ-α*((θ*x)-y) //迭代公式
}
def main(args: Array[String]): Unit = {
val dataSource=getdata() //獲取數(shù)據(jù)集
dataSource.foreach(myMap=>{ //開(kāi)始迭代
sgd(myMap._1,myMap._2) //輸入數(shù)據(jù)
})
println("最終結(jié)果值θ為:"+θ)
}
}
需要注意的是隨著步長(zhǎng)系數(shù)增大以及數(shù)據(jù)量的增大,θ值偏差越來(lái)越大。同時(shí)這里也遺留下一個(gè)問(wèn)題,當(dāng)數(shù)據(jù)量大到一定程度,為什么θ值會(huì)為NaN,筆者心中有所疑惑,如果哪位大佬有想法可以留言探討,謝謝!
以上就是本文的全部?jī)?nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
相關(guān)文章
SpringBoot基于SpringSecurity表單登錄和權(quán)限驗(yàn)證的示例
這篇文章主要介紹了SpringBoot基于SpringSecurity表單登錄和權(quán)限驗(yàn)證的示例。文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2020-09-09
Spring Cloud Gateway Hystrix fallback獲取異常信息的處理
這篇文章主要介紹了Spring Cloud Gateway Hystrix fallback獲取異常信息的處理方式,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2021-07-07
使用AbstractRoutingDataSource實(shí)現(xiàn)數(shù)據(jù)源動(dòng)態(tài)切換的實(shí)例
AbstractRoutingDataSource 是 Spring 框架提供的一個(gè)抽象類(lèi),用于實(shí)現(xiàn)動(dòng)態(tài)數(shù)據(jù)源路由,這個(gè)類(lèi)主要用于多數(shù)據(jù)源場(chǎng)景,其中可以根據(jù)不同的條件動(dòng)態(tài)地切換到不同的數(shù)據(jù)源,本文給大家介紹了如何使用AbstractRoutingDataSource實(shí)現(xiàn)數(shù)據(jù)源動(dòng)態(tài)切換,需要的朋友可以參考下2024-03-03
SpringBoot整合RabbitMQ實(shí)現(xiàn)交換機(jī)與隊(duì)列的綁定
這篇文章將通過(guò)幾個(gè)實(shí)例為大家介紹一些SpringBoot中RabbitMQ如何綁定交換機(jī)(交換器)與隊(duì)列,文中的示例代碼講解詳細(xì),感興趣的可以了解一下2022-05-05
Java模擬單鏈表和雙端鏈表數(shù)據(jù)結(jié)構(gòu)的實(shí)例講解
這篇文章主要介紹了Java模擬單鏈表和雙端鏈表數(shù)據(jù)結(jié)構(gòu)的實(shí)例,注意這里的雙端鏈表不是雙向鏈表,是在單鏈表的基礎(chǔ)上保存有對(duì)最后一個(gè)鏈接點(diǎn)的引用,需要的朋友可以參考下2016-04-04
springBoot接入阿里云oss的實(shí)現(xiàn)步驟
這篇文章主要介紹了springBoot接入阿里云oss的實(shí)現(xiàn)步驟,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2021-01-01
javacv-ffmpeg ProcessBuilder批量旋轉(zhuǎn)圖片方式
為了批量處理大量圖片的旋轉(zhuǎn),可以使用javacv-ffmpeg結(jié)合ProcessBuilder,首先在maven配置文件中添加ffmpeg及javacpp依賴,javacpp支持調(diào)用C/C++方法,而ffmpeg基于C語(yǔ)言,使用ProcessBuilder創(chuàng)建進(jìn)程調(diào)用ffmpeg方法2024-09-09

