詳解DBSCAN算法原理及其Python實現(xiàn)
原理
DBSCAN,即Density-Based Spatial Clustering of Applications with Noise,基于密度的噪聲應用空間聚類。
在DBSCAN算法中,將數(shù)據(jù)點分為三類:
1.核心點:若樣本xi的ε鄰域內至少包含了M個點,則為核心點
2.邊界點:若樣本xi的ε鄰域內包含的點數(shù)小于M,但在其他核心點的ε鄰域內,則為邊界點
3.噪聲:既非核心點也非邊界點則為噪聲
那么,在實際實現(xiàn)DBSCAN算法時,對這三種點理應采取不同的操作
1.若一個點是核心點,那么應該窮盡所有與其相連接的邊界點,再得到與邊界點相連接的所有點,知道遍歷完整個點集。
2.若一個點是邊界點,若這個點尚未歸類;若已經歸類,則如1中所說,繼續(xù)搜索與其相連的點。
3.若為噪聲,則直接跳過。
可見,DBSCAN算法需要兩個參數(shù),分別是鄰域半徑ε和點數(shù)M。
Python實現(xiàn)
為了衡量兩點之間的距離,計算一個距離矩陣以備調用,可以降低計算次數(shù)。對于一組點集data,其歐氏距離矩陣的求解方法如下
# 距離矩陣
def disMat(data):
arr = np.array(data)
dMat = lambda arr : arr.reshape(1,-1) - arr.reshape(-1,1)
# 此為單個軸的距離矩陣
mats = [dMat(arr[:,i]) for i in range(arr.shape[1])]
return np.linalg.norm(mats, axis=0)
其中,dMat用于求解一維向量的距離矩陣。
下面則是基于距離矩陣的DBSCAN算法。
import numpy as np
class DBSCAN(object):
# e 最小距離, minPts 最少樣本數(shù)量
def __init__(self, e, minPts):
self.e = e
self.minPts = minPts
# 獲取點id的臨近點
def nearby(self, id):
return np.where(self.mat[id] <= self.e)[0]
def searchNearbyPts(self, points, group):
for id in points:
if id not in self.data:
continue
group.append(id)
self.data.remove(id)
# 查看id點的臨近點
nearbyPts = self.nearby(id)
if len(nearbyPts) >= self.minPts:
self.searchNearbyPts(nearbyPts, group)
def fit(self, mat):
self.mat = mat
groups = list()
keys = range(mat.shape[0])
self.data = list(keys)
for id in keys:
if id not in self.data:
continue
# id點的臨近點
nearbyPts = self.nearby(id)
if len(nearbyPts) < self.minPts:
continue
group = [id]
self.data.remove(id)
self.searchNearbyPts(nearbyPts, group)
groups.append(group)
# 加入飛點
groups += self.data
return groups
在上面的DBSCAN類中,fit相當于執(zhí)行聚類的開關,其輸入?yún)?shù)mat是點集的距離矩陣。
self.data是點的序號的列表。其中的for循環(huán)是DBSCAN算法的核心部分,其基本邏輯是,如果一個點已經被歸類了,那么就從self.data中刪除;如果這個點恰好又是核心點,那么就要搜尋其所有的鄰近點。
函數(shù)nearby用于查找序號為id的點的所有臨近點,searchNearbyPts則將某點的所有臨近點進行歸類。
驗證
其數(shù)據(jù)生成、繪圖代碼如下所示
# 初始化數(shù)據(jù)
def initData(num, min, max):
return [np.random.randint(min, max, size=2) for _ in range(num)]
def drawRes(data, groups):
for gp in groups:
xy = np.array([data[i] for i in gp])
plt.scatter(xy[:,0], xy[:,1])
plt.title(u'DBSCAN')
plt.grid()
plt.tight_layout()
plt.show()
if __name__ == '__main__':
np.random.seed(42)
ds1 = initData(20, 0, 30)
ds2 = initData(20, 40, 60)
ds3 = initData(20, 70, 100)
ds = ds1 + ds2 + ds3
score_mat = disMat(ds)
groups = DBSCAN(20, 3).fit(score_mat)
drawRes(ds, groups)
聚類結果為

到此這篇關于詳解DBSCAN算法原理及其Python實現(xiàn)的文章就介紹到這了,更多相關Python DBSCAN算法內容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!
相關文章
python數(shù)字圖像處理數(shù)據(jù)類型及顏色空間轉換
這篇文章主要為大家介紹了python數(shù)字圖像處理數(shù)據(jù)類型及顏色空間轉換示例,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪2022-06-06
python3+mysql查詢數(shù)據(jù)并通過郵件群發(fā)excel附件
這篇文章主要為大家詳細介紹了python3+mysql查詢數(shù)據(jù),并通過郵件群發(fā)excel附件,具有一定的參考價值,感興趣的小伙伴們可以參考一下2018-02-02
利用python微信庫itchat實現(xiàn)微信自動回復功能
最近發(fā)現(xiàn)了一個特別好玩的Python 微信庫itchat,可以實現(xiàn)自動回復等多種功能,下面這篇文章主要給大家介紹了利用python微信庫itchat實現(xiàn)微信自動回復功能的相關資料,需要的朋友可以參考學習,下面來一起看看吧。2017-05-05
python實現(xiàn)提取str字符串/json中多級目錄下的某個值
今天小編就為大家分享一篇python實現(xiàn)提取str字符串/json中多級目錄下的某個值,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-02-02

