본문 바로가기
ML&AI

아웃라이어탐지의 접근방식으로는 파라메트릭, 넌파라메트릭,프록시미티(=거리/밀도 기반 근접성) 기반방법

by 혜룐 2025. 12. 11.
반응형

아웃라이어(outlier)란 무엇인가?

데이터 전체의 일반적 패턴·분포·행동에서 유의미하게 벗어난 관측값을 의미한다.
즉, 대부분의 데이터가 형성하는 규칙 또는 밀도 범위에서 벗어나 통계적으로 희귀한 점이다.

왜 중요한가? 

1) 희귀하지만 영향력이 매우 크다

아웃라이어는 비율은 적지만 위험·손실·오류·보안 문제를 유발할 가능성이 높다.
대표 예:

  • 부정 신용카드 결제
  • 의료 이상 신호
  • 제조 결함 감지
  • 사이버 공격
  • 센서 오작동

2) 정상 데이터와 섞여 있기 때문에 탐지가 어렵다

아웃라이어는 노이즈처럼 보이기도 하고, 고차원에서는 정상·비정상 차이가 희미해진다. 그래서 LOF, Isolation Forest, One-Class SVM 같은 모형이 필요하다.

형태적 정의로 보면 3가지 관점이 있다.

  • 통계적 관점 (Statistical outlier) : 정규분포 기준 ±3σ처럼, 분포 기반으로 “너무 먼 값”.
  • 거리 기반 관점 (Distance-based outlier) : KNN 거리, 유클리드 거리 등을 계산했을 때 다수의 점들과 거리 차이가 큰 값.
  • 밀도 기반 관점 (Density-based outlier) : LOF처럼 자기 주변 지역의 밀도보다 상대적으로 현저히 낮은 지역에 속한 점.
  • 맥락 기반(Contextual)·행동 기반 (Behavioral) : 거래금액은 정상적으로 보이지만 시간·장소·기기 정보와의 조합에서 비정상. = (산업에서는 이 방식이 훨씬 많이 사용됨)

아웃라이어탐지의 접근방식으로는 파라메트릭, 넌파라메트릭,프록시미티(=거리/밀도 기반 근접성) 기반방법이 있다.

1. 파라메트릭 vs 넌파라메트릭: 왜 구분하는가?

파라메트릭(parametric)은 “데이터가 특정 분포(예: 정규분포)를 따른다고 가정하고, 그 분포의 파라미터(μ, σ 등)를 추정해 이상치를 판단하는 방식이다.

논파라메트릭(non-parametric)은 “어떤 데이터 분포도 가정하지 않고, 데이터 자체의 구조(거리, 밀도, 지역 특성)만으로 이상치를 판단하는 방식이다.

즉, 가장 큰 차이는 ‘분포 가정을 하느냐(Parametric) / 하지 않느냐(Non-parametric = KNN, LOF, Isolation Forest, DBSCAN)’이다.

온도 예시(최근 10년간 7월 기온 분포로 이상 여부 탐지)로 설명해보면

파라메트릭(Parametric)

  • 기본 가정: 데이터가 특정 분포(대개 Gaussian) 를 따른다.
  • 장점: 단순, 계산 비용 낮음, 해석 가능.
  • 단점: 현실 데이터가 가정된 분포를 따르지 않는 경우가 훨씬 많다.

예:

  • 여름 기온은 정규분포와 유사하므로 Z-score, Grubb’s test 같은 방법이 유효하다.
  • 하지만 폭염 기간이 길게 지속되면 분포가 비대칭(heavy-tailed)해지고, 더 이상 정규 가정이 성립하지 않는다.

이런 이유로 실제 산업에서는 파라메트릭 기법을 제한적으로만 활용한다.

넌파라메트릭(Non-parametric)

  • 기본 가정 없음: 데이터 자체가 분포를 결정한다.
  • 현실 데이터 대부분이 정규성을 따르지 않기 때문에 실무에서는 넌파라메트릭이 훨씬 많이 쓰인다.

예:

  • 거래금액, 사용자 로그, IoT 센서 등은 분포 형태가 예측 불가
  • 이 경우 히스토그램 기반, KDE(kernel density estimation) 로 확률밀도(PDF)를 추정
  • 확률이 낮은 영역을 outlier로 판단

핵심 아이디어는 간단하다: 데이터가 많이 몰린 구간은 정상, 밀도가 희박한 구간은 이상

2. 통계적 아웃라이어 탐지 정리

2.1 Boxplot (IQR 기반)

  • 분포 모양을 가정하지 않는 반(Non-parametric) 단순 요약
  • 정상 범위:
    Q1 − 1.5×IQR ~ Q3 + 1.5×IQR
  • 바깥 점 = outlier
  • 업계에서 가장 직관적으로 설명 가능한 기법

활용 예:

  • 제조 라인의 센서 값 품질 관리
  • 배송 시간의 지연 감지

2.2 Z-score (정규분포 가정)

  • 정규성 가정 하에서 많이 쓰임
  • |z| > 3 등으로 임계값 설정
  • 확률 기반 판단이라 해석이 명확하다

활용 예:

  • 금융 시계열에서 “당일 변화량이 과거 대비 얼마나 이례적인지” 검증
  • 지수형 data smoothing 이후 anomaly 스코어링

2.3 Grubb’s test (가설검증)

  • “의심되는 값이 평균에서 유의미하게 벗어났는가?”를 검정
  • 작은 데이터셋(예: n < 50)에 강함
  • 다만 정규성 가정 + 단일 이상치(single outlier) 상황에 제한됨

활용 예:

  • 샘플 수가 적은 실험 데이터 품질 점검
  • 외부 변수 없이 유일한 outlier 후보를 검증해야 하는 과학 실험 데이터

3. 넌파라메트릭 통계 기법

3.1 Histogram-based

  • 구간(bin) 별 데이터 비율을 본다
  • 빈도 낮은 구간은 outlier 후보
  • 문제점: bin size 선택이 어렵고 고차원으로 갈수록 의미가 사라진다

실제 사례:

  • 거래금액 fraud rule 기반 모델
  • 앱 세션 길이의 빈도 기반 분포 시각화

3.2 Kernel Density Estimation (KDE)

각 데이터가 커널(예: Gaussian)로 기여하여 전체 분포를 부드럽게 만든다.

  • 모든 데이터가 “밀도 형성에 사용되는 커널센터”가 된다
  • 특정 지점의 밀도가 낮으면 그 위치는 outlier
  • 데이터가 많을수록 더 자연스러운 분포 추정
  • 파라메트릭 가정 없이 확률 밀도를 직접 추정할 수 있다는 장점

실제 사례:

  • 네트워크 트래픽 분포 기반 이상 탐지
  • 사용자 행동 임베딩의 low-density region 탐지

4. 근접성(Proximity)-기반 이상 탐지

비정형 데이터(embedding 기반, 시계열 기반, 고객 행동 등)에서는 통계적 방법보다 거리/밀도 기반 방식이 압도적으로 유용하다.

4.1 Distance-based (kNN 방식)

가장 널리 사용되는 비지도 이상탐지 기법이다. 핵심 아이디어는 단순하다.

“가장 가까운 k개의 이웃까지의 거리”가 크면 outlier

  • k-NN distance
  • k-distance graph(엘보 방식)
  • 거리 기반 thresholding

문제점:

  • n개의 데이터에 대해 모든 쌍 거리를 비교해야 함 (O(n²))
  • 대규모 데이터에서는 계산 비용이 매우 크다
  • 그래서 KD-tree, Ball-tree, HNSW 등 근사(ANN) 구조를 실제 서비스에서는 사용

실제 사례:

  • embedding 기반 고객 행동 anomaly
  • bot 탐지
  • 보안 이벤트에서 distance spike 분석

4.2 Density-based (LOF, KDE)

밀도 기반 접근에서는 핵심 메시지가 다음과 같다. “주변 이웃보다 상대적으로 밀도가 낮으면 outlier”

대표 기법:

  • LOF(Local Outlier Factor): 지역 밀도 대비 낮은 점 탐지
  • DBSCAN: 클러스터 외부의 low-density 점 탐지

실제 사례:

  • IoT 센서 데이터 중 맥락적(out-of-pattern) 이상치 탐지
  • 사용자 세그먼트 내에서 특이 행동을 보이는 고객 탐색

Proximity-based Outlier Detection, 즉 거리 기반(근접성 기반) 이상치 탐지 기법의 기본 개념

거리 기반 모델은 각 점과 가장 가까운 k개의 이웃(kNN)의 거리 를 계산하고, 다른 점들에 비해 유난히 먼 점 = 이상치(outlier) 로 본다. C1: 밀집한 클러스 / C2: 비교적 퍼져 있는 클러스터 / o1, o2, o3, o4: 주변과 멀리 떨어져 있는 점들 → 거리 기반 이상치 후보
근접성 기반 이상 탐지를 수행할 때 필연적으로 발생하는 O(n²) 거리 계산을 줄이기 위한 스케일링 전략

근접성 기반 이상 탐지를 수행할 때 필연적으로 발생하는 O(n²) 거리 계산을 줄이기 위한 스케일링 전략에 대해 정리해보자.

대용량 데이터에서 kNN 기반 이상 탐지는 중첩 반복문 수준의 계산 복잡도를 가지며 스케일러블하지 않다.
따라서 공간 분할(cell-based), 공간 인덱싱(index-based), 샘플링 기반 근사(approximation) 기법을 사용하여 계산량을 줄인다.

1) Cell-based partitioning (공간 분할)

  • 공간을 grid(cell)로 나누어
  • 같은 cell 또는 인접 cell만 검사한다.
  • 먼 cell은 애초에 고려하지 않아도 된다는 특징을 이용.

산업 적용 예:

  • 2D·3D 센서 데이터, 위치 기반 이상 탐지

2) Index-based (KD-tree, R-tree, Ball-tree, HNSW 등)

  • 공간 인덱스를 만들어 최근접 이웃 탐색을 빠르게 한다.
  • 최근에는 HNSW(Hierarchical Navigable Small World) 가 사실상 표준
    (벡터 DB, 실시간 anomaly scoring 등)

3) Sampling-based

  • 거리 계산을 전체가 아니라 일부 대표 샘플에만 수행
  • approximate k-nearest-neighbor(ANN)
  • FAISS, ScaNN 등 업계 도구들이 여기에 속함

 

반응형