python代碼實(shí)現(xiàn)TSNE降維數(shù)據(jù)可視化教程
TSNE降維
降維就是用2維或3維表示多維數(shù)據(jù)(彼此具有相關(guān)性的多個(gè)特征數(shù)據(jù))的技術(shù),利用降維算法,可以顯式地表現(xiàn)數(shù)據(jù)。(t-SNE)t分布隨機(jī)鄰域嵌入 是一種用于探索高維數(shù)據(jù)的非線性降維算法。它將多維數(shù)據(jù)映射到適合于人類觀察的兩個(gè)或多個(gè)維度。
python代碼
km.py
#k_mean算法
import pandas as pd
import csv
import pandas as pd
import numpy as np
#參數(shù)初始化
inputfile = 'x.xlsx' #銷量及其他屬性數(shù)據(jù)
outputfile = 'x_1.xlsx' #保存結(jié)果的文件名
k = 2 #聚類的類別
iteration = 3 #聚類最大循環(huán)次數(shù)
data = pd.read_excel(inputfile, index_col = 'Id') #讀取數(shù)據(jù)
data_zs = 1.0*(data - data.mean())/data.std() #數(shù)據(jù)標(biāo)準(zhǔn)化,std()表示求總體樣本方差(除以n-1),numpy中std()是除以n
print('data_zs')
from sklearn.cluster import KMeans
model = KMeans(n_clusters = k, max_iter = iteration) #分為k類
#model = KMeans(n_clusters = k, n_jobs = 4, max_iter = iteration) #分為k類,并發(fā)數(shù)4
print('data_zs')
model.fit(data_zs) #開始聚類
#簡單打印結(jié)果
r1 = pd.Series(model.labels_).value_counts() #統(tǒng)計(jì)各個(gè)類別的數(shù)目
r2 = pd.DataFrame(model.cluster_centers_) #找出聚類中心
r = pd.concat([r2, r1], axis = 1) #橫向連接(0是縱向),得到聚類中心對應(yīng)的類別下的數(shù)目
print('data_zs')
print(r)
r.columns = list(data.columns) + [u'類別數(shù)目'] #重命名表頭
print(r)
#詳細(xì)輸出原始數(shù)據(jù)及其類別
r = pd.concat([data, pd.Series(model.labels_, index = data.index)], axis = 1) #詳細(xì)輸出每個(gè)樣本對應(yīng)的類別
r.columns = list(data.columns) + [u'聚類類別'] #重命名表頭
r.to_excel(outputfile) #保存結(jié)果
TSNE.py
# coding=utf-8
from sklearn.manifold import TSNE
from pandas.core.frame import DataFrame
import pandas as pd
import numpy as np
import km as k
#用TSNE進(jìn)行數(shù)據(jù)降維并展示聚類結(jié)果
tsne = TSNE()
tsne.fit_transform(k.data_zs) #進(jìn)行數(shù)據(jù)降維,并返回結(jié)果
tsne = pd.DataFrame(tsne.embedding_, index = k.data_zs.index) #轉(zhuǎn)換數(shù)據(jù)格式
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['SimHei'] #用來正常顯示中文標(biāo)簽
plt.rcParams['axes.unicode_minus'] = False #用來正常顯示負(fù)號
#不同類別用不同顏色和樣式繪圖
d = tsne[k.r[u'聚類類別']== 0] #找出聚類類別為0的數(shù)據(jù)對應(yīng)的降維結(jié)果
plt.plot(d[0], d[1], 'r.')
d = tsne[k.r[u'聚類類別'] == 1]
plt.plot(d[0], d[1], 'go')
#d = tsne[k.r[u'聚類類別'] == 2]
#plt.plot(d[0], d[1], 'b*')
plt.savefig("data.png")
plt.show()
數(shù)據(jù)格式
數(shù)據(jù)需要用xlsx文件存儲,表頭名為Id。
執(zhí)行 TSNE.py即可獲得可視化圖片。

以上這篇python代碼實(shí)現(xiàn)TSNE降維數(shù)據(jù)可視化教程就是小編分享給大家的全部內(nèi)容了,希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。
相關(guān)文章
獲取python的list中含有重復(fù)值的index方法
今天小編就為大家分享一篇獲取python的list中含有重復(fù)值的index方法,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-06-06
使用Python創(chuàng)建一個(gè)文件夾結(jié)構(gòu)生成器
這篇文章主要為大家詳細(xì)介紹了如何使用Python創(chuàng)建一個(gè)文件夾結(jié)構(gòu)生成器,文中的示例代碼講解詳細(xì),感興趣的小伙伴可以跟隨小編一起學(xué)習(xí)一下2025-01-01
python GUI庫圖形界面開發(fā)之PyQt5菜單欄控件QMenuBar的詳細(xì)使用方法與實(shí)例
這篇文章主要介紹了python GUI庫圖形界面開發(fā)之PyQt5菜單欄控件QMenuBar的詳細(xì)使用方法與實(shí)例,需要的朋友可以參考下2020-02-02
python使用tkinter實(shí)現(xiàn)簡單計(jì)算器
這篇文章主要為大家詳細(xì)介紹了python使用tkinter實(shí)現(xiàn)簡單計(jì)算器,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2018-01-01
Python+OpenCV實(shí)現(xiàn)圖片中的圓形檢測
這篇文章主要介紹了如何利用Python+OpenCV實(shí)現(xiàn)檢測圖片中的圓形,文中的示例代碼講解詳細(xì),感興趣的小伙伴快跟隨小編一起學(xué)習(xí)一下2022-04-04
PyTorch搭建LSTM實(shí)現(xiàn)多變量多步長時(shí)序負(fù)荷預(yù)測
這篇文章主要為大家介紹了PyTorch搭建LSTM實(shí)現(xiàn)多變量多步長時(shí)序負(fù)荷預(yù)測,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2022-05-05

