Python PCA降維的兩種實(shí)現(xiàn)方法
前言
PCA降維,一般是用于數(shù)據(jù)分析和機(jī)器學(xué)習(xí)。它的作用是把一個(gè)高維的數(shù)據(jù)在保留最大信息量的前提下降低到一個(gè)低維的空間,從而使我們能夠提取數(shù)據(jù)的主要特征分量,從而得到對(duì)數(shù)據(jù)影響最大的主成分,便于我們對(duì)數(shù)據(jù)進(jìn)行分析等后續(xù)操作。
例如,在機(jī)器學(xué)習(xí)中,當(dāng)你想跟據(jù)一個(gè)數(shù)據(jù)集來(lái)進(jìn)行預(yù)測(cè)工作時(shí),往往要采用特征構(gòu)建、不同特征相乘、相加等操作,來(lái)擴(kuò)建特征,所以,當(dāng)數(shù)據(jù)處理完畢后,每個(gè)樣本往往會(huì)有很多個(gè)特征,但是,如果把所有數(shù)據(jù)全部喂入模型,可能會(huì)導(dǎo)致糟糕的結(jié)果。在高維數(shù)據(jù)集中,往往只有部分特征有良好的預(yù)測(cè)能力,很多特征純粹是噪音(沒(méi)有預(yù)測(cè)能力),很多特征彼此之間也可能高度相關(guān),這些因素會(huì)降低模型的預(yù)測(cè)精度,訓(xùn)練模型的時(shí)間也更長(zhǎng)。降低數(shù)據(jù)集的維度在某種程度上能解決這些問(wèn)題,這時(shí)候就用到了PCA降維。
假設(shè)原始數(shù)據(jù)集的特征有500個(gè),通過(guò)PCA降維,降到了400,那么我們就可以用降維后得到的這400個(gè)特征代替原始數(shù)據(jù)集的那500個(gè),此時(shí)再喂給模型,那么模型的預(yù)測(cè)能力相比之前會(huì)有所提升。但要明白一點(diǎn)的是,降維后得到的這400個(gè)特征是新的特征,是原始數(shù)據(jù)集在高維空間某一平面上的投影,能夠反映原特征提供的大部分信息,并不是指在原來(lái)的500個(gè)中篩選400個(gè)特征。
PCA降維的一般步驟為:
1.將原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化(一般是去均值,如果特征在不同的數(shù)量級(jí)上,則還要將其除以標(biāo)準(zhǔn)差)
2.計(jì)算標(biāo)準(zhǔn)化數(shù)據(jù)集的協(xié)方差矩陣
3.計(jì)算協(xié)方差矩陣的特征值和特征向量
4.保留最重要(特征值最大)的前k個(gè)特征(k就表示降維后的維度)
5.找到這k個(gè)特征值對(duì)應(yīng)的特征向量
6.將標(biāo)準(zhǔn)化數(shù)據(jù)集乘以該k個(gè)特征向量,得到降維后的結(jié)果
實(shí)現(xiàn)PCA降維,一般有兩種方法:
首先先來(lái)解釋一下代碼中用到的數(shù)據(jù)集:
在這兩個(gè)代碼中,用的是sklean庫(kù)中自帶的iris(鳶尾花)數(shù)據(jù)集。iris數(shù)據(jù)集包含150個(gè)樣本,每個(gè)樣本包含四個(gè)屬性特征(花萼長(zhǎng)度、花萼寬度、花瓣長(zhǎng)度、花瓣寬度)和一個(gè)類(lèi)別標(biāo)簽(分別用0、1、2表示山鳶尾、變色鳶尾和維吉尼亞鳶尾)。
data = load_iris() y = data.target x = data.data
y就表示數(shù)據(jù)集中的類(lèi)別標(biāo)簽,x表示數(shù)據(jù)集中的屬性數(shù)據(jù)。因?yàn)轼S尾花類(lèi)別分為三類(lèi),所以我們降維后,要跟據(jù)y的值,分別對(duì)這三類(lèi)數(shù)據(jù)點(diǎn)進(jìn)行繪圖。
第一種,就是依照上面PCA的步驟,通過(guò)矩陣運(yùn)算,最終得到降維后的結(jié)果:
import numpy as np
from sklearn.datasets import load_iris
import matplotlib.pyplot as plt
def pca(dataMat, topNfeat):
meanVals = np.mean(dataMat, axis=0)
meanRemoved = dataMat - meanVals # 標(biāo)準(zhǔn)化(去均值)
covMat = np.cov(meanRemoved, rowvar=False)
eigVals, eigVets = np.linalg.eig(np.mat(covMat)) # 計(jì)算矩陣的特征值和特征向量
eigValInd = np.argsort(eigVals) # 將特征值從小到大排序,返回的是特征值對(duì)應(yīng)的數(shù)組里的下標(biāo)
eigValInd = eigValInd[:-(topNfeat + 1):-1] # 保留最大的前K個(gè)特征值
redEigVects = eigVets[:, eigValInd] # 對(duì)應(yīng)的特征向量
lowDDatMat = meanRemoved * redEigVects # 將數(shù)據(jù)轉(zhuǎn)換到低維新空間
# reconMat = (lowDDatMat * redEigVects.T) + meanVals # 還原原始數(shù)據(jù)
return lowDDatMat
def plotPCA(lowMat):
reconArr = np.array(lowMat)
red_x, red_y = [], []
blue_x, blue_y = [], []
green_x, green_y = [], []
for i in range(len(reconArr)):
if y[i] == 0:
red_x.append(reconArr[i][0])
red_y.append(reconArr[i][1])
elif y[i] == 1:
blue_x.append(reconArr[i][0])
blue_y.append(reconArr[i][1])
else:
green_x.append(reconArr[i][0])
green_y.append(reconArr[i][1])
plt.scatter(red_x, red_y, c='r', marker='x')
plt.scatter(blue_x, blue_y, c='b', marker='D')
plt.scatter(green_x, green_y, c='g', marker='.')
plt.show()
if __name__ == '__main__':
data = load_iris()
y = data.target
x = data.data
matx = np.mat(x)
lowDMat = pca(matx, 2)
plotPCA(lowDMat)第二種,是在sklearn庫(kù)中調(diào)用PCA算法來(lái)實(shí)現(xiàn):
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA # 加載PCA算法包
from sklearn.datasets import load_iris
import numpy as np
data = load_iris()
y = data.target
x = data.data
pca = PCA(n_components=2) # 加載PCA算法,設(shè)置降維后主成分?jǐn)?shù)目為2
reduced_x = pca.fit_transform(x) # 對(duì)樣本進(jìn)行降維
# reduced_x = np.dot(reduced_x, pca.components_) + pca.mean_ # 還原數(shù)據(jù)
red_x, red_y = [], []
blue_x, blue_y = [], []
green_x, green_y = [], []
# print(reduced_x)
for i in range(len(reduced_x)):
if y[i] == 0:
red_x.append(reduced_x[i][0])
red_y.append(reduced_x[i][1])
elif y[i] == 1:
blue_x.append(reduced_x[i][0])
blue_y.append(reduced_x[i][1])
else:
green_x.append(reduced_x[i][0])
green_y.append(reduced_x[i][1])
plt.scatter(red_x, red_y, c='r', marker='x')
plt.scatter(blue_x, blue_y, c='b', marker='D')
plt.scatter(green_x, green_y, c='g', marker='.')
plt.show()在第二個(gè)代碼中,值得一說(shuō)的是fit_transform()這個(gè)函數(shù),它其實(shí)就是fit()和transform()這兩個(gè)函數(shù)的結(jié)合,相當(dāng)于先調(diào)用fit()再調(diào)用transform()。fit()和transform()這兩個(gè)函數(shù)在sklearn庫(kù)中經(jīng)常出現(xiàn),fit()函數(shù)可以理解為求傳入的數(shù)據(jù)集的一些固有的屬性(如方差、均值等等),相當(dāng)于一個(gè)訓(xùn)練過(guò)程,而transform()函數(shù),可以理解為對(duì)訓(xùn)練后的數(shù)據(jù)集進(jìn)行相應(yīng)的操作(如歸一化、降維等等)。在不同的模塊中,這兩個(gè)函數(shù)的具體實(shí)現(xiàn)也不一樣,比如在PCA模塊里,fit()相當(dāng)于去均值,transform()則相當(dāng)于降維。
這兩種代碼運(yùn)行后,生成的圖像如下(圖一為第一種代碼,圖二為第二種代碼):

圖一

圖二
可以看到,第一種代碼畫(huà)出的圖像與第二種代碼畫(huà)出的圖像關(guān)于y=0這條直線(xiàn)對(duì)稱(chēng),雖然不清楚這是什么原因(后續(xù)有空的話(huà)我會(huì)去找找原因),但是這并不影響降維的結(jié)果。
降維前的數(shù)據(jù)(部分):

降維后的數(shù)據(jù)(部分):

所以,此時(shí)我們使用降維后的二維數(shù)據(jù)集就可以用來(lái)表示降維前四維數(shù)據(jù)集的大部分信息。
降維后得到的數(shù)據(jù)可以通過(guò)逆操作來(lái)進(jìn)行數(shù)據(jù)集的還原,具體原理就不過(guò)多解釋?zhuān)唧w操作代碼的話(huà)我已在代碼的注釋里面寫(xiě)出,但是重建出來(lái)的數(shù)據(jù)會(huì)和原始數(shù)據(jù)有一定的誤差(如下圖)

原因的話(huà)你可以這樣理解:我們的原始數(shù)據(jù)為四維空間,現(xiàn)在用PCA降維到二維空間,則保留數(shù)據(jù)投影方差最大的兩個(gè)軸向,因此舍棄掉了另外兩個(gè)相對(duì)不重要的特征軸,從而造成了一定的信息丟失,所以會(huì)產(chǎn)生重構(gòu)誤差。
總結(jié)
到此這篇關(guān)于Python PCA降維的兩種實(shí)現(xiàn)方法的文章就介紹到這了,更多相關(guān)Python PCA降維內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Python+Kepler.gl輕松制作酷炫路徑動(dòng)畫(huà)的實(shí)現(xiàn)示例
這篇文章主要介紹了Python+Kepler.gl輕松制作酷炫路徑動(dòng)畫(huà)的實(shí),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧現(xiàn)示例2020-06-06
python演示解答正則為什么是最強(qiáng)文本處理工具
正則表達(dá)式又稱(chēng)規(guī)則表達(dá)式,通常被用來(lái)檢索、替換那些符合某個(gè)模式(規(guī)則)的文本,它是最強(qiáng)的文本處理工具,至于原因本文將給你答案2021-09-09
Python3 使用selenium插件爬取蘇寧商家聯(lián)系電話(huà)
這篇文章主要介紹了Python3 selenium爬取蘇寧商家聯(lián)系電話(huà),此處使用了selenium插件 使用的是火狐瀏覽器 信息存儲(chǔ)到csv表格里面,需要的朋友可以參考下2019-12-12

