거리 기반 클러스터링은 데이터 간의 직선 거리(예: 유클리드 거리)를 기준으로 가까운 점들을 모아 클러스터를 형성합니다. 가장 대표적인 예는 K-Means로, 미리 정해진 K개의 중심점을 기준으로 데이터를 할당하고 반복적으로 중심을 재계산하여 수렴합니다. 이 방식은 데이터가 원형 구조를 가지거나 클러스터의 밀도가 일정할 때 잘 작동하지만, 복잡한 경계나 잡음에 취약합니다.
반면, 밀도 기반 클러스터링은 각 데이터 포인트의 주변 밀도를 기준으로 클러스터를 형성합니다. 즉, 어떤 점 주변에 일정 거리 내에 이웃이 충분히 많으면 '밀도가 높다'고 판단하고, 그런 점들을 연결해 클러스터를 구성합니다. 이 방식은 비정형 구조의 클러스터를 찾는 데 유리하고, 노이즈나 이상치를 별도로 분리할 수 있다는 강점이 있습니다.


밀도 기반 클러스터링의 장점과 단점
장점으로는
- 비정형 클러스터 탐지: 원형이 아닌, 복잡한 구조의 클러스터도 잘 탐지할 수 있습니다.
- 잡음 및 이상치 분리: 밀도가 낮은 데이터 포인트는 자동으로 노이즈로 간주되어 클러스터에 포함되지 않습니다.
- 사전 클러스터 수 지정 불필요: DBSCAN, HDBSCAN은 클러스터 개수를 미리 지정하지 않아도 됩니다.
- 현실적인 데이터 분포에 적합: 자연어 임베딩이나 위치 정보처럼 비균형적인 분포에서 유용합니다.
단점으로는 아래와 같을수 있는데, 대화라는 공간에서 특정패턴을 발견함에 있어서 밀도 기반 클러스터링은 매우 유용한 방법이라고 생각한다. 복잡한 자연어 임베딩 공간이나, 사용자의 발화 패턴이 명확히 나뉘지 않는 상황에선 밀도 기반 방식(HDBSCAN 등)이 훨씬 자연스럽게 구조를 포착하기 때문이다. 특히 HDBSCAN은 자동으로 최적 클러스터 수를 결정해주고, 클러스터 안정성(persistence)도 함께 제공해주기때문에 원하는 용도에 맞게 고려해 쓰는게 좋겠다.
- 하이퍼파라미터 민감성: eps(반경)와 minPts(최소 이웃 수) 설정에 따라 결과가 크게 달라질 수 있습니다.
- 고차원 데이터에서 비효율: 거리 개념이 희석되는 고차원 공간에서는 밀도 추정이 어려워 성능 저하 가능성이 있습니다.
- 희소 클러스터 탐지 어려움: 밀도가 낮지만 의미 있는 패턴은 무시될 수 있습니다.
밀도 기반 클러스터링 알고리즘 예시
- DBSCAN (Density-Based Spatial Clustering of Applications with Noise)
가장 대표적인 알고리즘으로, 이웃 수가 충분한 점을 중심으로 클러스터를 확장해 나갑니다. 노이즈는 label -1로 분리됩니다. - HDBSCAN (Hierarchical DBSCAN)
DBSCAN의 단점을 보완한 확장 버전으로, 다양한 eps 값을 사용해 계층적 클러스터 구조를 구성하고, 가장 안정적인 클러스터만 추출합니다. 클러스터 신뢰도(persistence) 점수도 함께 제공됩니다. - DENCLUE (DENsity-based CLUstEring)
커널 밀도 추정 방식에 기반해 수학적으로 정확한 밀도 함수 모델을 사용합니다. 복잡하지만 이론적으로 탄탄한 방식입니다. - CLIQUE
다차원 공간에서 격자 기반(grid-based)으로 밀도를 계산해 고차원 데이터에 적합하게 설계된 방식입니다.

밀도 기반 클러스터링은 중심점이 아니라 데이터 주변의 이웃 밀도를 기준으로 클러스터를 구성하는 방식으로, 거리 기반 방식보다 유연하게 비정형 데이터 구조를 탐지할 수 있으며, 노이즈 분리와 클러스터 수 자동 추정 측면에서 특히 강점을 갖는다. DBSCAN과 HDBSCAN은 이 접근의 대표적인 예이며, 각각 간단한 밀도 추정과 계층적 구조 기반의 고도화된 방식으로 활용된다.


밀도 기반 클러스터링은 중심점이 아니라 데이터 주변의 이웃 밀도를 기준으로 클러스터를 구성하는 방식으로, 거리 기반 방식보다 유연하게 비정형 데이터 구조를 탐지할 수 있으며, 노이즈 분리와 클러스터 수 자동 추정 측면에서 특히 강점을 갖는다. DBSCAN과 HDBSCAN은 이 접근의 대표적인 예이며, 각각 간단한 밀도 추정과 계층적 구조 기반의 고도화된 방식으로 활용된다.
'ML&AI' 카테고리의 다른 글
| 아웃라이어탐지의 접근방식으로는 파라메트릭, 넌파라메트릭,프록시미티(=거리/밀도 기반 근접성) 기반방법 (0) | 2025.12.11 |
|---|---|
| 아웃라이어 디텍션 > 컨셉 (0) | 2025.12.11 |
| GNN 수업을 듣다가 알게 된 GNN RAG – 관계를 학습하는 그래프 신경망의 가능성 (0) | 2025.11.27 |
| JSON / Function-Call 기반 스트럭처드 아웃풋은 응답시간(latency)과 토큰 비용이 확실히 증가하는 경향이 있다. (0) | 2025.11.03 |
| 이미지를 이해하는 신경망의 눈: 스케일, 바운딩박스, 그리고 NMS (0) | 2025.10.30 |