아웃라이어(outlier)란 무엇인가?

데이터 전체의 일반적 패턴·분포·행동에서 유의미하게 벗어난 관측값을 의미한다.
즉, 대부분의 데이터가 형성하는 규칙 또는 밀도 범위에서 벗어나 통계적으로 희귀한 점이다.

왜 중요한가?

1) 희귀하지만 영향력이 매우 크다

아웃라이어는 비율은 적지만 위험·손실·오류·보안 문제를 유발할 가능성이 높다.
대표 예:

부정 신용카드 결제
의료 이상 신호
제조 결함 감지
사이버 공격
센서 오작동

2) 정상 데이터와 섞여 있기 때문에 탐지가 어렵다

아웃라이어는 노이즈처럼 보이기도 하고, 고차원에서는 정상·비정상 차이가 희미해진다. 그래서 LOF, Isolation Forest, One-Class SVM 같은 모형이 필요하다.

형태적 정의로 보면 3가지 관점이 있다.

통계적 관점 (Statistical outlier) : 정규분포 기준 ±3σ처럼, 분포 기반으로 “너무 먼 값”.
거리 기반 관점 (Distance-based outlier) : KNN 거리, 유클리드 거리 등을 계산했을 때 다수의 점들과 거리 차이가 큰 값.
밀도 기반 관점 (Density-based outlier) : LOF처럼 자기 주변 지역의 밀도보다 상대적으로 현저히 낮은 지역에 속한 점.
맥락 기반(Contextual)·행동 기반 (Behavioral) : 거래금액은 정상적으로 보이지만 시간·장소·기기 정보와의 조합에서 비정상. = (산업에서는 이 방식이 훨씬 많이 사용됨)

아웃라이어탐지의 접근방식으로는 파라메트릭, 넌파라메트릭,프록시미티(=거리/밀도 기반 근접성) 기반방법이 있다.

1. 파라메트릭 vs 넌파라메트릭: 왜 구분하는가?

파라메트릭(parametric)은 “데이터가 특정 분포(예: 정규분포)를 따른다고 가정하고, 그 분포의 파라미터(μ, σ 등)를 추정해 이상치를 판단하는 방식이다.

논파라메트릭(non-parametric)은 “어떤 데이터 분포도 가정하지 않고, 데이터 자체의 구조(거리, 밀도, 지역 특성)만으로 이상치를 판단하는 방식이다.

즉, 가장 큰 차이는 ‘분포 가정을 하느냐(Parametric) / 하지 않느냐(Non-parametric = KNN, LOF, Isolation Forest, DBSCAN)’이다.

온도 예시(최근 10년간 7월 기온 분포로 이상 여부 탐지)로 설명해보면

파라메트릭(Parametric)

기본 가정: 데이터가 특정 분포(대개 Gaussian) 를 따른다.
장점: 단순, 계산 비용 낮음, 해석 가능.
단점: 현실 데이터가 가정된 분포를 따르지 않는 경우가 훨씬 많다.

예:

여름 기온은 정규분포와 유사하므로 Z-score, Grubb’s test 같은 방법이 유효하다.
하지만 폭염 기간이 길게 지속되면 분포가 비대칭(heavy-tailed)해지고, 더 이상 정규 가정이 성립하지 않는다.

이런 이유로 실제 산업에서는 파라메트릭 기법을 제한적으로만 활용한다.

넌파라메트릭(Non-parametric)

기본 가정 없음: 데이터 자체가 분포를 결정한다.
현실 데이터 대부분이 정규성을 따르지 않기 때문에 실무에서는 넌파라메트릭이 훨씬 많이 쓰인다.

예:

거래금액, 사용자 로그, IoT 센서 등은 분포 형태가 예측 불가
이 경우 히스토그램 기반, KDE(kernel density estimation) 로 확률밀도(PDF)를 추정
확률이 낮은 영역을 outlier로 판단

핵심 아이디어는 간단하다: 데이터가 많이 몰린 구간은 정상, 밀도가 희박한 구간은 이상

2. 통계적 아웃라이어 탐지 정리

2.1 Boxplot (IQR 기반)

분포 모양을 가정하지 않는 반(Non-parametric) 단순 요약
정상 범위:
Q1 − 1.5×IQR ~ Q3 + 1.5×IQR
바깥 점 = outlier
업계에서 가장 직관적으로 설명 가능한 기법

활용 예:

제조 라인의 센서 값 품질 관리
배송 시간의 지연 감지

2.2 Z-score (정규분포 가정)

정규성 가정 하에서 많이 쓰임
|z| > 3 등으로 임계값 설정
확률 기반 판단이라 해석이 명확하다

활용 예:

금융 시계열에서 “당일 변화량이 과거 대비 얼마나 이례적인지” 검증
지수형 data smoothing 이후 anomaly 스코어링

2.3 Grubb’s test (가설검증)

“의심되는 값이 평균에서 유의미하게 벗어났는가?”를 검정
작은 데이터셋(예: n < 50)에 강함
다만 정규성 가정 + 단일 이상치(single outlier) 상황에 제한됨

활용 예:

샘플 수가 적은 실험 데이터 품질 점검
외부 변수 없이 유일한 outlier 후보를 검증해야 하는 과학 실험 데이터

3. 넌파라메트릭 통계 기법

3.1 Histogram-based

구간(bin) 별 데이터 비율을 본다
빈도 낮은 구간은 outlier 후보
문제점: bin size 선택이 어렵고 고차원으로 갈수록 의미가 사라진다

실제 사례:

거래금액 fraud rule 기반 모델
앱 세션 길이의 빈도 기반 분포 시각화

3.2 Kernel Density Estimation (KDE)

각 데이터가 커널(예: Gaussian)로 기여하여 전체 분포를 부드럽게 만든다.

모든 데이터가 “밀도 형성에 사용되는 커널센터”가 된다
특정 지점의 밀도가 낮으면 그 위치는 outlier
데이터가 많을수록 더 자연스러운 분포 추정
파라메트릭 가정 없이 확률 밀도를 직접 추정할 수 있다는 장점

실제 사례:

네트워크 트래픽 분포 기반 이상 탐지
사용자 행동 임베딩의 low-density region 탐지

4. 근접성(Proximity)-기반 이상 탐지

비정형 데이터(embedding 기반, 시계열 기반, 고객 행동 등)에서는 통계적 방법보다 거리/밀도 기반 방식이 압도적으로 유용하다.

4.1 Distance-based (kNN 방식)

가장 널리 사용되는 비지도 이상탐지 기법이다. 핵심 아이디어는 단순하다.

“가장 가까운 k개의 이웃까지의 거리”가 크면 outlier

k-NN distance
k-distance graph(엘보 방식)
거리 기반 thresholding

문제점:

n개의 데이터에 대해 모든 쌍 거리를 비교해야 함 (O(n²))
대규모 데이터에서는 계산 비용이 매우 크다
그래서 KD-tree, Ball-tree, HNSW 등 근사(ANN) 구조를 실제 서비스에서는 사용

실제 사례:

embedding 기반 고객 행동 anomaly
bot 탐지
보안 이벤트에서 distance spike 분석

4.2 Density-based (LOF, KDE)

밀도 기반 접근에서는 핵심 메시지가 다음과 같다. “주변 이웃보다 상대적으로 밀도가 낮으면 outlier”

대표 기법:

LOF(Local Outlier Factor): 지역 밀도 대비 낮은 점 탐지
DBSCAN: 클러스터 외부의 low-density 점 탐지

실제 사례:

IoT 센서 데이터 중 맥락적(out-of-pattern) 이상치 탐지
사용자 세그먼트 내에서 특이 행동을 보이는 고객 탐색

Proximity-based Outlier Detection, 즉 거리 기반(근접성 기반) 이상치 탐지 기법의 기본 개념

거리 기반 모델은 각 점과 가장 가까운 k개의 이웃(kNN)의 거리 를 계산하고, 다른 점들에 비해 유난히 먼 점 = 이상치(outlier) 로 본다. C1: 밀집한 클러스 / C2: 비교적 퍼져 있는 클러스터 / o1, o2, o3, o4: 주변과 멀리 떨어져 있는 점들 → 거리 기반 이상치 후보

근접성 기반 이상 탐지를 수행할 때 필연적으로 발생하는 O(n²) 거리 계산을 줄이기 위한 스케일링 전략에 대해 정리해보자.

대용량 데이터에서 kNN 기반 이상 탐지는 중첩 반복문 수준의 계산 복잡도를 가지며 스케일러블하지 않다.
따라서 공간 분할(cell-based), 공간 인덱싱(index-based), 샘플링 기반 근사(approximation) 기법을 사용하여 계산량을 줄인다.

1) Cell-based partitioning (공간 분할)

공간을 grid(cell)로 나누어
같은 cell 또는 인접 cell만 검사한다.
먼 cell은 애초에 고려하지 않아도 된다는 특징을 이용.

산업 적용 예:

2D·3D 센서 데이터, 위치 기반 이상 탐지

2) Index-based (KD-tree, R-tree, Ball-tree, HNSW 등)

공간 인덱스를 만들어 최근접 이웃 탐색을 빠르게 한다.
최근에는 HNSW(Hierarchical Navigable Small World) 가 사실상 표준
(벡터 DB, 실시간 anomaly scoring 등)

3) Sampling-based

거리 계산을 전체가 아니라 일부 대표 샘플에만 수행
approximate k-nearest-neighbor(ANN)
FAISS, ScaNN 등 업계 도구들이 여기에 속함

저작자표시 비영리 동일조건 (새창열림)

'ML&AI' 카테고리의 다른 글

왜 고차원 데이터에서 아웃라이어 디텍션이 어려운가? -> 딥러닝 기반 Outlier Detection (0)	2025.12.13
인코더라는 아이디어가 어떻게 “표현학습(representation learning)”과 “생성모델(generative modeling)”의 핵심 축으로 진화해 왔는가 : Decoder 관점으로 다시 보는 Autoencoder (1)	2025.12.11
아웃라이어 디텍션 > 컨셉 (0)	2025.12.11
노이즈 속 의미 있는 패턴 찾기: 밀도 기반 클러스터링 (1)	2025.12.04
GNN 수업을 듣다가 알게 된 GNN RAG – 관계를 학습하는 그래프 신경망의 가능성 (0)	2025.11.27

아름답게 나이들게 하소서

아웃라이어탐지의 접근방식으로는 파라메트릭, 넌파라메트릭,프록시미티(=거리/밀도 기반 근접성) 기반방법

아웃라이어(outlier)란 무엇인가?

왜 중요한가?

1) 희귀하지만 영향력이 매우 크다

2) 정상 데이터와 섞여 있기 때문에 탐지가 어렵다

형태적 정의로 보면 3가지 관점이 있다.

아웃라이어탐지의 접근방식으로는 파라메트릭, 넌파라메트릭,프록시미티(=거리/밀도 기반 근접성) 기반방법이 있다.

1. 파라메트릭 vs 넌파라메트릭: 왜 구분하는가?

온도 예시(최근 10년간 7월 기온 분포로 이상 여부 탐지)로 설명해보면

파라메트릭(Parametric)

넌파라메트릭(Non-parametric)

2. 통계적 아웃라이어 탐지 정리

2.1 Boxplot (IQR 기반)

2.2 Z-score (정규분포 가정)

2.3 Grubb’s test (가설검증)

3. 넌파라메트릭 통계 기법

3.1 Histogram-based

3.2 Kernel Density Estimation (KDE)

4. 근접성(Proximity)-기반 이상 탐지

4.1 Distance-based (kNN 방식)

4.2 Density-based (LOF, KDE)

Proximity-based Outlier Detection, 즉 거리 기반(근접성 기반) 이상치 탐지 기법의 기본 개념

1) Cell-based partitioning (공간 분할)

2) Index-based (KD-tree, R-tree, Ball-tree, HNSW 등)

3) Sampling-based

'ML&AI' 카테고리의 다른 글

티스토리툴바

아웃라이어탐지의 접근방식으로는 파라메트릭, 넌파라메트릭,프록시미티(=거리/밀도 기반 근접성) 기반방법

아웃라이어(outlier)란 무엇인가?

왜 중요한가?

1) 희귀하지만 영향력이 매우 크다

2) 정상 데이터와 섞여 있기 때문에 탐지가 어렵다

형태적 정의로 보면 3가지 관점이 있다.

아웃라이어탐지의 접근방식으로는 파라메트릭, 넌파라메트릭,프록시미티(=거리/밀도 기반 근접성) 기반방법이 있다.

1. 파라메트릭 vs 넌파라메트릭: 왜 구분하는가?

온도 예시(최근 10년간 7월 기온 분포로 이상 여부 탐지)로 설명해보면

파라메트릭(Parametric)

넌파라메트릭(Non-parametric)

2. 통계적 아웃라이어 탐지 정리

2.1 Boxplot (IQR 기반)

2.2 Z-score (정규분포 가정)

2.3 Grubb’s test (가설검증)

3. 넌파라메트릭 통계 기법

3.1 Histogram-based

3.2 Kernel Density Estimation (KDE)

4. 근접성(Proximity)-기반 이상 탐지

4.1 Distance-based (kNN 방식)

4.2 Density-based (LOF, KDE)

Proximity-based Outlier Detection, 즉 거리 기반(근접성 기반) 이상치 탐지 기법의 기본 개념

1) Cell-based partitioning (공간 분할)

2) Index-based (KD-tree, R-tree, Ball-tree, HNSW 등)

3) Sampling-based

'ML&AI' 카테고리의 다른 글

관련글

티스토리툴바