詳解DBSCAN算法原理及其Python實現(xiàn)

更新時間：2023年12月08日 09:13:12 作者：微小冷

DBSCAN,即Density-Based Spatial Clustering of Applications with Noise,基于密度的噪聲應用空間聚類,本文將詳細介紹DBSCAN算法的原理及其Python實現(xiàn),需要的可以參考下

原理

DBSCAN，即Density-Based Spatial Clustering of Applications with Noise，基于密度的噪聲應用空間聚類。

在DBSCAN算法中，將數(shù)據(jù)點分為三類：

1.核心點：若樣本xi的ε鄰域內至少包含了M個點，則為核心點

2.邊界點：若樣本xi的ε鄰域內包含的點數(shù)小于M，但在其他核心點的ε鄰域內，則為邊界點

3.噪聲：既非核心點也非邊界點則為噪聲

那么，在實際實現(xiàn)DBSCAN算法時，對這三種點理應采取不同的操作

1.若一個點是核心點，那么應該窮盡所有與其相連接的邊界點，再得到與邊界點相連接的所有點，知道遍歷完整個點集。

2.若一個點是邊界點，若這個點尚未歸類；若已經歸類，則如1中所說，繼續(xù)搜索與其相連的點。

3.若為噪聲，則直接跳過。

可見，DBSCAN算法需要兩個參數(shù)，分別是鄰域半徑ε和點數(shù)M。

Python實現(xiàn)

為了衡量兩點之間的距離，計算一個距離矩陣以備調用，可以降低計算次數(shù)。對于一組點集data，其歐氏距離矩陣的求解方法如下

# 距離矩陣
def disMat(data):
    arr = np.array(data)
    dMat = lambda arr : arr.reshape(1,-1) - arr.reshape(-1,1)
    # 此為單個軸的距離矩陣
    mats = [dMat(arr[:,i]) for i in range(arr.shape[1])]
    return np.linalg.norm(mats, axis=0)

其中，dMat用于求解一維向量的距離矩陣。

下面則是基于距離矩陣的DBSCAN算法。

import numpy as np

class DBSCAN(object):
    # e 最小距離, minPts 最少樣本數(shù)量
    def __init__(self, e, minPts):
        self.e = e
        self.minPts = minPts

    # 獲取點id的臨近點
    def nearby(self, id):
        return np.where(self.mat[id] <= self.e)[0]

    def searchNearbyPts(self, points, group):
        for id in points:
            if id not in self.data:
                continue

            group.append(id)
            self.data.remove(id)

            # 查看id點的臨近點
            nearbyPts = self.nearby(id)
            if len(nearbyPts) >= self.minPts:
                self.searchNearbyPts(nearbyPts, group)

    def fit(self, mat):
        self.mat = mat
        groups = list()

        keys = range(mat.shape[0])
        self.data = list(keys)

        for id in keys:
            if id not in self.data:
                continue

            # id點的臨近點
            nearbyPts = self.nearby(id)
            if len(nearbyPts) < self.minPts:
                continue

            group = [id]
            self.data.remove(id)
            self.searchNearbyPts(nearbyPts, group)
            groups.append(group)

        # 加入飛點
        groups += self.data
        return groups

在上面的DBSCAN類中，fit相當于執(zhí)行聚類的開關，其輸入?yún)?shù)mat是點集的距離矩陣。

self.data是點的序號的列表。其中的for循環(huán)是DBSCAN算法的核心部分，其基本邏輯是，如果一個點已經被歸類了，那么就從self.data中刪除；如果這個點恰好又是核心點，那么就要搜尋其所有的鄰近點。

函數(shù)nearby用于查找序號為id的點的所有臨近點，searchNearbyPts則將某點的所有臨近點進行歸類。

驗證

其數(shù)據(jù)生成、繪圖代碼如下所示

# 初始化數(shù)據(jù)
def initData(num, min, max):
    return [np.random.randint(min, max, size=2) for _ in range(num)]

def drawRes(data, groups):
    for gp in groups:
        xy = np.array([data[i] for i in gp])
        plt.scatter(xy[:,0], xy[:,1])
    plt.title(u'DBSCAN')
    plt.grid()
    plt.tight_layout()
    plt.show()

if __name__ == '__main__':
    np.random.seed(42)
    ds1 = initData(20, 0, 30)
    ds2 = initData(20, 40, 60)
    ds3 = initData(20, 70, 100)
    ds = ds1 + ds2 + ds3

    score_mat = disMat(ds)

    groups = DBSCAN(20, 3).fit(score_mat)
    drawRes(ds, groups)

聚類結果為

到此這篇關于詳解DBSCAN算法原理及其Python實現(xiàn)的文章就介紹到這了,更多相關Python DBSCAN算法內容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

python數(shù)字圖像處理數(shù)據(jù)類型及顏色空間轉換
這篇文章主要為大家介紹了python數(shù)字圖像處理數(shù)據(jù)類型及顏色空間轉換示例，有需要的朋友可以借鑒參考下，希望能夠有所幫助，祝大家多多進步，早日升職加薪
2022-06-06
Python 中pandas.read_excel詳細介紹
這篇文章主要介紹了Python 中pandas.read_excel詳細介紹的相關資料,需要的朋友可以參考下
2017-06-06
Python?標準庫?fileinput與文件迭代器
這篇文章主要介紹了Python標準庫fileinput與文件迭代器，fileinput模塊可以對一個或多個文件中的內容進行迭代、遍歷等操作，更多詳細內容需要的朋友可以參考一下
2022-09-09
python3+mysql查詢數(shù)據(jù)并通過郵件群發(fā)excel附件
這篇文章主要為大家詳細介紹了python3+mysql查詢數(shù)據(jù)，并通過郵件群發(fā)excel附件，具有一定的參考價值，感興趣的小伙伴們可以參考一下
2018-02-02
利用python微信庫itchat實現(xiàn)微信自動回復功能
最近發(fā)現(xiàn)了一個特別好玩的Python 微信庫itchat，可以實現(xiàn)自動回復等多種功能，下面這篇文章主要給大家介紹了利用python微信庫itchat實現(xiàn)微信自動回復功能的相關資料，需要的朋友可以參考學習，下面來一起看看吧。
2017-05-05
Python實現(xiàn)自動化整理文件的示例代碼
這篇文章主要介紹了如何通過Python編程完成文件的自動分類、文件和文件夾的快速查找、重復文件的清理、圖片格式的轉換等常見工作，需要的可以參考一下
2022-09-09
python實現(xiàn)提取str字符串/json中多級目錄下的某個值
今天小編就為大家分享一篇python實現(xiàn)提取str字符串/json中多級目錄下的某個值，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2020-02-02
python 爬取知乎回答下的微信8.0狀態(tài)視頻
這篇文章主要介紹了python 爬取知乎的微信8.0狀態(tài)視頻的方法，幫助大家更好的理解和學習使用python，感興趣的朋友可以了解下
2021-03-03
python 根據(jù)正則表達式提取指定的內容實例詳解
這篇文章主要介紹了python 根據(jù)正則表達式提取指定的內容實例詳解的相關資料,需要的朋友可以參考下
2016-12-12
python聚類算法選擇方法實例
在本篇文章里小編給大家整理的是一篇關于python聚類算法選擇方法實例，有需要的朋友們可以學習參考下。
2021-07-07