본문 바로가기
ML&AI

아웃라이어 디텍션 > 컨셉

by 혜룐 2025. 12. 11.
반응형

아웃라이어 탐지(Outlier detection)는 전통적으로 단순히 “이상치 찾기”로 여겨졌지만, 현대 ML/정보검색에서는 훨씬 정교하게 나뉜다.

클러스터링 vs 아웃라이어 탐지의 관계

  • 클러스터링은 유사한 데이터 묶음을 찾는 작업이며, 이 과정에서 군집과 군집 사이에서 고립된 데이터는 자연스럽게 아웃라이어로 해석될 수 있다.
  • 즉, 클러스터링 기반 아웃라이어 탐지는 분포 기반 이상 탐지의 한 형태로 볼 수 있다.

아웃라이어 = 정확히 말하면 다음의 세 가지 Task는 서로 다른 문제 설정을 위한 이름이다.

  • Novelty Detection
    기존 데이터의 분포를 학습해두고, 나중에 등장한 새로운 패턴을 감지하는 문제 = 기존 데이터에는 없었지만, 실제로 의미 있는 새로운 유형의 패턴
      • 뉴스 토픽 클러스터링에서 갑자기 등장한 “새로운 사건 기사”
      • 제품 리뷰 분석에서 새로 등장한 “신규 모델명, 신규 기능 관련 표현”
    • 중요한 점 : 초기에 하나의 outlier처럼 보이지만 이후 유사 데이터가 쌓이며 새로운 클래스가 됨
    • One-class classification과 매우 밀접한 개념
    • 실제 산업에서 “신규 고객군·신규 상품 카테고리 탐지" 등에 많이 사용
  • Noise Detection
    학습에 방해가 되는 의미 없는 비정형 데이터를 걸러내는 단계 = 모델링 목적에 아무 기여가 없는 비정상적·오염된 데이터
    • 예: 잘못 수집된 센서 값, 크롤링 오류, 중간에 끼어든 광고 문구 등
    • 특징: 의미는 없고, 반복성도 없으며 다시 등장한다고 해서 패턴이 생기지 않음
    • 실무에서는 대부분 데이터 전처리 단계에서 제거하는 것이 목표
  • OOD (Out-of-Distribution) Detection
    모델이 학습한 분포 밖의 입력 전체를 판별하는 문제 = 입력 데이터가 모델이 학습한 어떤 클래스/도메인에도 속하지 않을 때
    • 예:
      • 개/고양이 분류 모델에 “말 이미지”를 넣는 경우
      • 금융 사기 탐지 모델에 완전히 다른 산업의 거래 패턴이 들어오는 경우
    • 특징 : 클래스가 존재하더라도 모델은 전혀 본 적이 없기 때문에 ‘판단 불가’ 상태를 만들어야 한다
    • 최근 LLM에서도 매우 중요한 연구 분야이며, “신뢰 가능한 AI”의 핵심 기술
  • Outlier Detection
    클러스터 내부 혹은 분포 내부에서 극단적으로 다른 개체를 찾는 문제 
    • 기존 분포 안에서 극단적으로 멀리 떨어진 희귀 데이터
    • 예: 고객 대부분이 1만~10만원 소비하는데 10억을 쓰는 고객
    • 보통 분석 대상에서 제외하거나 원인 분석을 위해 따로 처리
    • 클러스터링에서도 “군집 안에서 떨어져 있는 점”으로 정의 가능

클러스터링과도 긴밀히 연결되어 있으며, 본질적으로 분포 경계 밖의 데이터를 다룬다는 점에서는 공통적이다.

특정 기사 안에서도 아웃라이어에 해당하는 데이터는 제거하는 전처리용으로도 사용될수 있다.

또 예를 들어 뉴스토픽 클러스터링에서 처음 등장한 기사는 아웃라이어처럼 보이지만, 이후 관련된 기사들이 따라 나오기 시작하면 novel class로 정착한다. 추천 시스템에서는 새로운 취향 그룹이 생길때 Novelty Detection을 활용하여 개인화 알고리즘을 업데이트한다.

금융예스는 OOD사건이 시스템을 위협할수 있어서 분포 밖 거래를 즉시 탐지해 리스크관리에 활용한다. (거래 이상징후탐지)

아웃라이어는 데이터의 어떤 기준과 맥락을 사용하느냐에 따라 구분된다. 이 구분은 업계 실무에서 데이터 품질 관리, 사기 탐지, 이상 패턴 분석 등에서 매우 중요하게 쓰인다.

 

Global Outliers (전역적 이상치)

전체 데이터 분포를 기준으로 극단적으로 벗어난 경우이다. 전역 이상치는 “전체 패턴 대비”의 문제이기 때문에 비교적 정의가 명확하다. 산업에서는 센서 오류 탐지, 결제금액 급증 탐지 등에서 자주 등장한다.

  • 예: 한국에서 “오늘 50도”라고 기록된 온도
  • 전체 분포 상 명백히 이례적이며, 별도의 조건이 필요 없다
  • 통계 기반 Z-score, Mahalanobis Distance 등이 잘 맞는 상황

Contextual Outliers (조건부·맥락적 이상치)

특정 조건(context) 안에서만 이상치로 판단되는 경우이다. = 시계열 데이터, 웹 사용 로그, 사용자 그룹별 행동 데이터에서 매우 중요한 개념이다. 단일 값만 보면 정상처럼 보이지만 “맥락이 바뀌면 이상치”가 된다.

  • 예: 한국의 봄에 35°C는 이상치이지만, 여름에는 정상값
  • 시간, 위치, 계절, 사용자 그룹 같은 조건이 함께 고려되어야 한다

그래서 contextual outlier detection은

  • conditional density estimation
  • seasonal decomposition
  • time-aware anomaly detection 같은 모델들이 많이 쓰인다.

Local Outliers (근접성 기반 이상치)

자신이 속한 지역적 이웃(local neighborhood) 에 비해 다른 것을 말한다. 고차원 데이터에서 특히 중요하다. 예: embedding 기반 고객 행동 공간에서는 전체 분포는 매끄러워 보이지만, 특정 군집 안에서는 “튀는” 사용자가 발생한다.

  • 예: 특정 클러스터 안에서 한 점만 유난히 멀리 떨어짐
  • 전체 분포 기준으로는 이상처럼 보이지 않을 수도 있음

대표 알고리즘: LOF(Local Outlier Factor), DBSCAN 기반 local-density methods

Collective Outliers (집합적 이상치)

데이터 한 점은 정상처럼 보이지만, 데이터 집합으로 보면 이상치인것을 말한다. = 시계열·로그·보안 분야에서 매우 중요한 유형이다.실제로 APT 공격(Advanced Persistent Threat)은 단일 이벤트가 아니라조용한 반복 패턴의 비정상 집합으로 나타난다.

  • 예: 한 달 내내 온도가 36~37°C로 유지
  • 단일 포인트는 정상 범위지만 “비정상적인 패턴(집단)”을 이룸

Outlier Detection 는 참 어려운 작업이다. 아웃라이어 탐지가 어려운 이유를 업계 시각에서 설명하면 다음과 같다.

1) Lack of labels

  • 이상치는 원래 “희귀”하므로 레이블 확보가 어렵다
  • 보안·품질·사기 탐지에서는 labeled anomaly가 극히 제한적
  • 그래서 대부분 비지도 또는 semi-supervised 방식을 선택한다

2) Modeling normal vs abnormal

  • 정상/비정상 경계가 명확하지 않고, 도메인마다 다르다
  • 예: 사용자 로그인 패턴은 요일·디바이스·위치에 따라 자연스럽게 달라진다
  • 그래서 정상 모델을 먼저 구축하는 방식(one-class 방식)이 많이 쓰인다

3) Application-specific outliers

  • 제조, 금융, 추천, 로그 분석 등 도메인마다 “이상”의 정의가 크게 다르다
  • 예: 제조에서는 0.1mm 오차도 결함이지만, e-commerce에서는 무시해도 되는 수준
  • 특징 공간 설계와 threshold 설정 자체가 업무 지식에 강하게 의존

4) Handling noise

  • 데이터 노이즈는 거의 모든 현실 데이터에서 필연적
  • 센서 드리프트, 데이터 수집 오류, 텍스트 크롤링 중 광고 문구 삽입 등
  • 노이즈와 outlier는 다르다
    • noise → 의미 없는 데이터
    • outlier → 의미가 있거나 비정상 패턴을 나타낼 가능성
  • 이 두 가지를 혼동하면 모델 품질이 급격히 떨어진다

5) Interpretability

  • 이상 탐지는 “왜 이것이 이상치인가?”를 설명해야 하는 경우가 많다
  • 특히 금융(사기탐지),제조(불량품검출), 보안(보안 침입 탐지), 의료(질병 진단)는 규제가 강해 설명 부족 시 활용이 어렵다
  • 최근에는 SHAP, Counterfactual Explanation, Attention Map 등을 활용해 설명 가능한 anomaly detection(이상치탐지) 연구가 활발하다.
    • 예를 들어 신용카드의 사용이 평소와 다른 지역이나 금액의 거래를 이상 거래로 탐지하는것 또는 제조업 산업에서는 생산 라인에서 정상 제품과 다른 미세한 결함을 가진 제품을 찾아내는것을 활용 예로 들수있다.

 Outlier Detection 하는 여러 접근 방법이 있다.

1) Statistical approaches = 정규성 가정, 분포 기반 thresholding

  • 평균/분산 기반
  • Mahalanobis distance
  • Gaussian Mixture 기반 likelihood
  • 제조 공정의 품질 관리, 금융 거래 금액의 이상 탐지

2) Proximity-based approaches = 거리·밀도를 기준으로 outlier 판단

  • k-NN distance
  • LOF(Local Outlier Factor)
  • DBSCAN 기반 밀도 이상 탐지
  • Embedding 공간에서 고객 행동 이상 탐지, 스팸/봇 사용자 탐지

3) High-dimensional approaches = 고차원에서는 “거리 개념이 붕괴”되기 때문에 특수한 기법이 필요하다

  • Subspace-based
  • Dimension reduction 기반
  • Local Projection Score
  • 추천 시스템 사용자/아이템 embedding 이상 탐지, Time-series embedding 기반 장애 탐지

4) Additional categories (실제 산업에서 많이 쓰임)

Reconstruction-based = Autoencoder, PCA

  • 정상 패턴을 재구성하고 재구성 오차가 크면 이상치로 판단
  • 제조 불량 탐지, 로그 패턴 이상 탐지

Forecasting-based = 시계열 예측 모델 기반

  • LSTM, Prophet, Neural Forecasting
  • 예측 오차가 이상 구간을 판단

Deep learning–based

  • CNN 기반 defect detection
  • Transformer 기반 event anomaly detection
  • Variational Autoencoder, Deep SVDD 등이 있다.
반응형