Python取讀csv文件做dbscan分析
1.讀取csv數(shù)據(jù)做dbscan分析
讀取csv文件中相應(yīng)的列,然后進(jìn)行轉(zhuǎn)化,處理為本算法需要的格式,然后進(jìn)行dbscan運(yùn)算,目前公開的代碼也比較多,本文根據(jù)公開代碼修改,
具體代碼如下:
from sklearn import datasets
import numpy as np
import random
import matplotlib.pyplot as plt
import time
import copy
import pandas as pd
# from sklearn.datasets import load_iris
?
def find_neighbor(j, x, eps):
? ? N = list()
? ? for i in range(x.shape[0]):
? ? ? ? temp = np.sqrt(np.sum(np.square(x[j] - x[i]))) ?# 計(jì)算歐式距離
? ? ? ? if temp <= eps:
? ? ? ? ? ? N.append(i)
? ? return set(N)
?
?
def DBSCAN(X, eps, min_Pts):
? ? k = -1
? ? neighbor_list = [] ?# 用來保存每個(gè)數(shù)據(jù)的鄰域
? ? omega_list = [] ?# 核心對(duì)象集合
? ? gama = set([x for x in range(len(X))]) ?# 初始時(shí)將所有點(diǎn)標(biāo)記為未訪問
? ? cluster = [-1 for _ in range(len(X))] ?# 聚類
? ? for i in range(len(X)):
? ? ? ? neighbor_list.append(find_neighbor(i, X, eps))
? ? ? ? if len(neighbor_list[-1]) >= min_Pts:
? ? ? ? ? ? omega_list.append(i) ?# 將樣本加入核心對(duì)象集合
? ? omega_list = set(omega_list) ?# 轉(zhuǎn)化為集合便于操作
? ? while len(omega_list) > 0:
? ? ? ? gama_old = copy.deepcopy(gama)
? ? ? ? j = random.choice(list(omega_list)) ?# 隨機(jī)選取一個(gè)核心對(duì)象
? ? ? ? k = k + 1
? ? ? ? Q = list()
? ? ? ? Q.append(j)
? ? ? ? gama.remove(j)
? ? ? ? while len(Q) > 0:
? ? ? ? ? ? q = Q[0]
? ? ? ? ? ? Q.remove(q)
? ? ? ? ? ? if len(neighbor_list[q]) >= min_Pts:
? ? ? ? ? ? ? ? delta = neighbor_list[q] & gama
? ? ? ? ? ? ? ? deltalist = list(delta)
? ? ? ? ? ? ? ? for i in range(len(delta)):
? ? ? ? ? ? ? ? ? ? Q.append(deltalist[i])
? ? ? ? ? ? ? ? ? ? gama = gama - delta
? ? ? ? Ck = gama_old - gama
? ? ? ? Cklist = list(Ck)
? ? ? ? for i in range(len(Ck)):
? ? ? ? ? ? cluster[Cklist[i]] = k
? ? ? ? omega_list = omega_list - Ck
? ? return cluster
?
# X = load_iris().data
data = pd.read_csv("testdata.csv")
x,y=data['Time (sec)'],data['Height (m HAE)']
print(type(x))
n=len(x)
x=np.array(x)
x=x.reshape(n,1)
y=np.array(y)
y=y.reshape(n,1)
X = np.hstack((x, y))
cluster_std=[[.1]], random_state=9)
?
eps = 0.08
min_Pts = 5
begin = time.time()
C = DBSCAN(X, eps, min_Pts)
end = time.time()
plt.figure()
plt.scatter(X[:, 0], X[:, 1], c=C)
plt.show()2.輸出結(jié)果顯示

修改參數(shù)顯示:
eps = 0.8 min_Pts = 5


3.計(jì)算效率
采用少量數(shù)據(jù)計(jì)算的時(shí)候效率問題不明顯,隨著數(shù)據(jù)量增大,計(jì)算效率問題就變得尤為明顯,難以滿足大量數(shù)據(jù)的計(jì)算需求了,后期將想辦法優(yōu)化計(jì)算方法或者收集C++代碼進(jìn)行優(yōu)化了。
到此這篇關(guān)于Python取讀csv文件做dbscan分析的文章就介紹到這了,更多相關(guān)Python dbscan分析內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Python2和Python3中@abstractmethod使用方法
這篇文章主要介紹了Python2和Python3中@abstractmethod使用方法,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-02-02
Python使用metaclass實(shí)現(xiàn)Singleton模式的方法
這篇文章主要介紹了Python使用metaclass實(shí)現(xiàn)Singleton模式的方法,實(shí)例分析了Python基于metaclass實(shí)現(xiàn)單例模式的相關(guān)技巧,具有一定參考借鑒價(jià)值,需要的朋友可以參考下2015-05-05
使用pandas 將DataFrame轉(zhuǎn)化成dict
今天小編就為大家分享一篇使用pandas 將DataFrame轉(zhuǎn)化成dict,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2019-12-12
編寫Python小程序來統(tǒng)計(jì)測(cè)試腳本的關(guān)鍵字
這篇文章主要介紹了編寫Python小程序來統(tǒng)計(jì)測(cè)試腳本的關(guān)鍵字的方法,文中的實(shí)例不僅可以統(tǒng)計(jì)關(guān)鍵字?jǐn)?shù)量,還可以按主關(guān)鍵字來歸類,需要的朋友可以參考下2016-03-03
pytorch中的model=model.to(device)使用說明
這篇文章主要介紹了pytorch中的model=model.to(device)使用說明,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2021-05-05

