python實現(xiàn)聚類算法原理

更新時間：2018年02月12日 09:44:27 作者：FishBear_move_on

這篇文章主要為大家詳細介紹了python實現(xiàn)聚類算法原理，具有一定的參考價值，感興趣的小伙伴們可以參考一下

本文主要內(nèi)容：

聚類算法的特點
聚類算法樣本間的屬性(包括，有序屬性、無序屬性)度量標準
聚類的常見算法，原型聚類(主要論述K均值聚類)，層次聚類、密度聚類
K均值聚類算法的python實現(xiàn)，以及聚類算法與EM最大算法的關系
參考引用

先上一張gif的k均值聚類算法動態(tài)圖片，讓大家對算法有個感性認識：

其中：N=200代表有200個樣本，不同的顏色代表不同的簇(其中 3種顏色為3個簇)，星星代表每個簇的簇心。算法通過25次迭代找到收斂的簇心，以及對應的簇。每次迭代的過程中，簇心和對應的簇都在變化。

聚類算法的特點

聚類算法是無監(jiān)督學習算法和前面的有監(jiān)督算法不同，訓練數(shù)據(jù)集可以不指定類別(也可以指定)。聚類算法對象歸到同一簇中，類似全自動分類。簇內(nèi)的對象越相似，聚類的效果越好。K-均值聚類是每個類別簇都是采用簇中所含值的均值計算而成。

聚類樣本間的屬性(包括，有序屬性、無序屬性)度量標準 1. 有序屬性

例如：西瓜的甜度：0.1， 0.5， 0.9(值越大，代表越甜)

我們可以使用明可夫斯基距離定義:

2. 無序屬性

例如：色澤，青綠、淺綠、深綠（又例如: 性別: 男, 女，中性，人yao…明顯也不能使用0.1， 0.2 等表示求距離）。這些不能使用連續(xù)的值表示，求距離的，一般使用VDM計算：

聚類的常見算法，原型聚類(主要論述K均值聚類)，層次聚類、密度聚類

聚類算法分為如下三大類：

1. 原型聚類(包含3個子類算法)：

K均值聚類算法

學習向量量化

高斯混合聚類

2. 密度聚類：

3. 層次聚類：

下面主要說明K均值聚類算法(示例來源于，周志華西瓜書)

算法基本思想：

K-Means 是發(fā)現(xiàn)給定數(shù)據(jù)集的 K 個簇的聚類算法, 之所以稱之為 K-均值是因為它可以發(fā)現(xiàn) K 個不同的簇,且每個簇的中心采用簇中所含值的均值計算而成.簇個數(shù) K 是用戶指定的, 每一個簇通過其質心（centroid）, 即簇中所有點的中心來描述.

算法流程如下：

主要是三個步驟：

初始化選擇K個簇心，假設樣本有 m個屬性，則相當于k個m為向量
對于k個簇，求離其最近的樣本，并劃分新的簇
對于每個新的簇，更新簇心的向量(一般可以求簇的樣本的屬性的均值)
重復2~3直到算法收斂，或者運行了指定的次數(shù)

下面給出西瓜書的示例：

西瓜包含下面兩個屬性，密度以及含糖率，這兩個屬性構成的二維向量，作為輸入向量(具體數(shù)據(jù)如下表)

算法大致過程如下：

下圖是分類的，每一輪簇心的更新結果，圖中橫坐標為密度屬性，縱坐標為含糖率屬性：

4. K均值聚類算法的python實現(xiàn)

下面給出K-means cluster算法的實現(xiàn)的大致框架:

class KMeans(object):
  def __init__(self, k, init_vec, max_iter=100):
    """
    :param k:
    :param init_vec: init mean vectors type: k * n array(n properties)
    """
    self._k = k
    self._cluster_vec = init_vec
    self._max_iter = max_iter

  def fit(self, x):
    # 迭代最大次數(shù)
    for i in xrange(self._max_iter):
      print 'iteration %s' % i
      # 求每個簇心的簇類
      d_cluster = self._cluster_point(x)
      # 對現(xiàn)有的簇類，更新簇心
      new_center_node = self._reevaluate_center_node(d_cluster)

      # 檢測簇心是否變化，判斷算法收斂
      if self._check_converge(new_center_node):
        print 'found converge node'
        break
      else:
        self._cluster_vec = new_center_node

  def _cal_distance(self, vec1, vec2):
    return np.linalg.norm(vec1 - vec2)

  def _cluster_point(self, x):
    # 求每個簇心的簇
    pass
    return d_cluster

  def _reevaluate_center_node(self, d_cluster):
    # 對新的簇，求最佳簇心
    return arr_center_node

  def _check_converge(self, vec):
    # 判斷簇心是否改變，算法收斂
    return np.array_equal(self._cluster_vec, vec)

具體的算法，以及見本人的github

下面給出程序的運行結果, 由圖可見經(jīng)過三次迭代程序收斂，并且找到最佳節(jié)點:

下面再給出，另一次運行結果，可見由于初始化點選擇不一樣，得到的結果也是不一樣的，初始點的選擇對聚類算法的影響還是很大。

K-means實際上是EM算法的一個特例，根據(jù)中心點(簇心)決定數(shù)據(jù)點歸屬是expectation，而根據(jù)構造出來的cluster更新中心(簇心)則是maximization。理解了K-means，也就順帶了解了基本的EM算法思路。

5. 參考引用

參考引用地址

以上就是本文的全部內(nèi)容，希望對大家的學習有所幫助，也希望大家多多支持腳本之家。

您可能感興趣的文章:

分享4個Python中高效省時的技巧
小伙伴們?nèi)粘９ぷ髦卸急夭豢缮俚厥褂肞ython實現(xiàn)一些簡單的功能,但是不同的人所編寫的代碼執(zhí)行效率往往是不同的,下面這篇文章主要給大家介紹了4個Python中高效的技巧,需要的朋友可以參考下
2022-05-05
py3nvml實現(xiàn)GPU相關信息讀取的案例分析
這篇文章主要介紹了py3nvml實現(xiàn)GPU相關信息讀取,此時就可以考慮使用py3nvml這樣的工具，針對于GPU任務執(zhí)行的過程進行細化的分析，有助于提升GPU的利用率和程序執(zhí)行的性能，需要的朋友可以參考下
2022-01-01
Python如何處理異常報錯方法(建議收藏!)
開發(fā)程序其實就像預測天氣一樣,即使是代碼的異常錯誤,也應該能預測且被控制,下面這篇文章主要給大家介紹了關于Python如何處理異常報錯方法的相關資料,需要的朋友可以參考下
2022-06-06
GPU排隊腳本實現(xiàn)空閑觸發(fā)python腳本實現(xiàn)示例
有的服務器是多用戶使用，GPU的資源常常被占據(jù)著，很可能在夜間GPU空閑了，但來不及運行自己的腳本。如果沒有和別人共享服務器的話，自己的多個程序想排隊使用GPU，也可以用這個腳本
2021-11-11
Python?操作?MongoDB數(shù)據(jù)庫的方法(非?ODM)
這篇文章主要介紹了Python?操作?MongoDB?----非?ODM的方法，本文通過實例代碼給大家介紹的非常詳細，對大家的學習或工作具有一定的參考借鑒價值，需要的朋友可以參考下
2023-03-03
python selenium操作cookie的實現(xiàn)
這篇文章主要介紹了python selenium操作cookie的實現(xiàn)，文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值，需要的朋友們下面隨著小編來一起學習學習吧
2020-03-03
Django基礎知識 URL路由系統(tǒng)詳解
這篇文章主要介紹了Django基礎知識 URL路由系統(tǒng)詳解,文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
2019-07-07
Numpy中np.expand_dims的用法
np.expand_dims是Numpy庫中的一個函數(shù),它的主要作用是在數(shù)組的指定位置增加一個新的維度,本文就來介紹一下它的用法,具有一定的參考價值,感興趣的可以了解一下
2024-03-03
Matlab實現(xiàn)時間序列預測分類實例代碼
時間序列是按時間順序排列的、隨時間變化且相互關聯(lián)的數(shù)據(jù)序列,這篇文章主要給大家介紹了關于Matlab實現(xiàn)時間序列預測分類的相關資料,需要的朋友可以參考下
2021-07-07
Python實現(xiàn)的隨機森林算法與簡單總結
這篇文章主要介紹了Python實現(xiàn)的隨機森林算法,結合實例形式詳細分析了隨機森林算法的概念、原理、實現(xiàn)技巧與相關注意事項,需要的朋友可以參考下
2018-01-01