Python sklearn中的K-Means聚類使用方法淺析

更新時間：2022年12月20日 16:19:58 作者：微小冷

這篇文章主要介紹了Python sklearn中的K-Means聚類使用方法，小編覺得挺不錯的，現在分享給大家，也給大家做個參考。一起跟隨小編過來看看吧

初步認識

k-means翻譯過來就是K均值聚類算法，其目的是將樣本分割為k個簇，而這個k則是KMeans中最重要的參數：n_clusters，默認為8。

下面做一個最簡單的聚類

import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs
X, y = make_blobs(1500)
fig = plt.figure()
for i in range(2):
    ax = fig.add_subplot(1,2,i+1)
    y = KMeans(i+2).fit_predict(X)
    plt.scatter(X[:, 0], X[:, 1], c=y)
plt.show()

其中，y是聚類結果，其數值表示對應位置X所屬類號。

效果如圖所示，對于下面這組數據來說，顯然最好是分為兩類，但如果KMeans的n_clusters設為3，那就會聚成3類。

上面調用的KMeans是一個類，sklearn中同樣提供了函數形式的調用，其使用方法如下

from sklearn.cluster import k_means
cen, y, interia = k_means(X, 3)

其中，cen表示聚類后，每一類的質心；y為聚類后的標簽；interia表示均方誤差之和。

初值選取

在KMeans最重要的概念是簇，也就是被分割后的數據種類；而每個簇都有一個非常重要的點，就是質心。在設定好簇的個數之后，也就相當于確定了質心的個數，而KMeans算法的基本流程是

選擇k個點作為k個簇的初始質心
計算樣本到這k個質心(簇)的距離，并將其劃入距離最近的簇中
計算每個簇的均值，并使用該均值更新簇的質心

重復上述2-3的操作，直到質心區(qū)域穩(wěn)定或者達到最大迭代次數。

從這個流程可以看出來，KMeans算法至少有兩個細節(jié)需要考慮，一個是初始化方案，另一個則是質心更新的方案。

在KMeans類或者k_means函數中，提供了兩種初始化質心方案，通過參數init來控制

'random'：表示隨機生成k個質心
'k-means++'：此為默認值，通過kMeans++方法來初始化質心。

kMeans++初始化質心的流程如下

隨機選擇1個點作為初始質心 x 0
?計算其他點到最近質心的距離
假定現有 n n n個質心了，那么選擇距離當前質心較遠的點作為下一個質心 x n x_n xn?

重復步驟2和3，直到質心個數達到 k k k個。

若希望直接調用kMeans++函數，則可使用kmeans_plusplus。

小批

sklearn提供了KMeans的一個變種MiniBatchKMeans，可在每次訓練迭代中隨機抽樣，這種小批量的訓練過程大大減少了運算時間。

當樣本量非常巨大時，小批KMeans的優(yōu)勢是非常明顯的

from sklearn.cluster import MiniBatchKMeans
import time
ys, xs = np.indices([4,4])*6
cens = list(zip(xs.reshape(-1), ys.reshape(-1)))
X, y = make_blobs(100000,centers=cens)
km = KMeans(16)
mbk = MiniBatchKMeans(16)
def test(func, value):
    t = time.time()
    func(value)
    print("耗時", time.time()-t)
test(km.fit_predict, X)
# 耗時 3.2028110027313232
test(mbk.fit_predict, X)
# 耗時 0.2590029239654541

可見效果非常明顯，其中fit_predict和predict相似，但并沒有返回值，km.fit_predict(X)運行之后，會更改km中的labels_屬性，此即分類結果

fig = plt.figure()
ax = fig.add_subplot(1,2,1)
ax.scatter(X[:,0], X[:,1], c=km.labels_, 
    marker='.', alpha=0.5)
ax = fig.add_subplot(1,2,2)
ax.scatter(X[:,0], X[:,1], c=mbk.labels_, 
    marker='.', alpha=0.5)
plt.show()

效果如圖所示，可見小批的KMeans算法和KMeans算法從結果上來看區(qū)別不大。

到此這篇關于Python sklearn中的K-Means聚類使用方法淺析的文章就介紹到這了,更多相關Python K-Means聚類內容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

如何使用?profile?進行python代碼性能分析
對代碼優(yōu)化的前提是需要了解性能瓶頸在什么地方,程序運行的主要時間是消耗在哪里,對于比較復雜的代碼可以借助一些工具來定位,python?內置了豐富的性能分析工具,本文介紹如何使用profile進行python代碼性能分析,感興趣的朋友一起看看吧
2024-12-12
python+splinter實現12306網站刷票并自動購票流程
這篇文章主要為大家詳細介紹了python+splinter實現12306網站刷票并自動購票流程，具有一定的參考價值，感興趣的小伙伴們可以參考一下
2018-09-09
wx.CheckBox創(chuàng)建復選框控件并響應鼠標點擊事件
這篇文章主要為大家詳細介紹了wx.CheckBox創(chuàng)建復選框控件并響應鼠標點擊事件，具有一定的參考價值，感興趣的小伙伴們可以參考一下
2018-04-04
PyTorch使用cpu加載模型運算方式
今天小編就為大家分享一篇PyTorch使用cpu加載模型運算方式，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2020-01-01
python中如何提高圖像質量
這篇文章主要介紹了python中如何提高圖像質量問題，具有很好的參考價值，希望對大家有所幫助。如有錯誤或未考慮完全的地方，望不吝賜教
2023-05-05
Python腳本暴力破解柵欄密碼
在滲透測試當中，免不了要進行密碼破解。本文通過好幾種方法給大家介紹python密碼破解，有通用腳本，FTP暴力破解腳本，SSH暴力破解，TELNET密碼暴力破解，感興趣的朋友一起學習吧
2015-10-10
Python的生成器函數詳解
這篇文章主要介紹了Python的生成器函數,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教
2024-02-02
對于Python的Django框架使用的一些實用建議
這篇文章主要介紹了對于Python的Django框架使用的一些實用建議,包括一些優(yōu)秀模塊的介紹,要的朋友可以參考下
2015-04-04
Python字典創(chuàng)建遍歷添加等實用基礎操作技巧
字段是Python是字典中唯一的鍵-值類型，本文講述了Python中字典如何創(chuàng)建遍歷添加等實用基礎操作技巧,內容非常基礎但非常重要，一定要熟練掌握
2018-09-09
Python?數據庫操作SQL基礎
在本章節(jié)中，我們將討論?Python?數據庫操作的基礎知識，重點關注?SQL即Structured?Query?Language，結構化查詢語言，SQL?是用于管理關系型數據庫的標準編程語言，可以用來執(zhí)行數據定義、數據操作和數據控制等任務
2023-06-06