본문 바로가기
ML&AI

Pattern mining (2) : Frequent Pattern Mining

by 혜룐 2025. 10. 2.
반응형

패턴마이닝을 알아야 하는 이유는 많은 데이터 속에서 자주 등장하는 조합(패턴)을 찾아내고, 이를 바탕으로 유의미한 인사이트 또는 예측 기반을 만들기 위함이다. 장바구니를 분석한다고 가정하면 "맥주를 사는 사람은 기저귀도 산다" → 교차 판매 전략으로 인사이트 도출하기 위한것이라고 생각하면 된다.

 

  • 전체 가능한 조합(2^n)을 다 보자면 너무 비효율적이니까
  • Apriori 같은 방법으로 후보를 효율적으로 줄이고,
  • 의미 있는 패턴만 남기는 방식으로 학습하게된다.

 

즉, 기계학습 전에 패턴기반특징추출의 핵심이라고 보면 된다. 패턴마이닝은 사전 학습 없이, 규칙이나 패턴을 직접 찾을수 있고, EDA에 유용하게 쓰이고 있다.

플로우를 생각해보면

 

  • 자주 발생하는 조합을 자동으로 찾아내고 (frequent pattern mining)
  • 의미 있는 규칙으로 변환하여 (association rule)
  • 향후 추천, 분류, 예측, 설명 등에 활용하면 된다.

 


Frequent Itemset = 자주 함께 나오는 아이템 조합

 

  • 거래 데이터에서 자주 같이 등장하는 아이템 집합(frequent itemset)을 찾고
  • 그걸 기반으로 유의미한 규칙(X → Y)을 도출하는 것.

 

트랜잭션1: {a1, a2, ..., a50} 트랜잭션2: {a1, a2, ..., a100} → minsup=2일 경우 {a1 ~ a50}는 모두 2번 등장하므로 frequent.
너비우선탐색 알고리즘이라고도 볼수있을듯

  • Y가 frequent면, Y의 모든 부분집합 X도 frequent이다.
  • 반대로, X가 frequent가 아니라면, X를 포함하는 어떤 Y도 frequent가 될 수 없다. 이걸 Apriori의 핵심 pruning 논리로 사용

Apriori의 pruning 활용 이미 {Beer, Milk}가 infrequent라면 → {Beer, Diaper, Milk}는 굳이 count할 필요 없음! 즉, 서브셋이 infrequent인 후보는 만들지도, 세지도 말자! 이걸 "candidate pruning"이라고 하고, Apriori는 이걸 중심으로 동작한다.
일일이 스캐닝해야되는데 이게 최선인가?


라인 재팬 앱에서의 키워드 추천 시스템은 사용자의 검색 쿼리가 부족하거나 개인정보 이슈로 인해 로그 기반 추천이 어려운 상황을 고려해, 콘텐츠 자체에 등장하는 키워드들 간의 연관 패턴을 분석하여 질의 추천을 제공하는 구조다.

이를 위해 단순히 단어의 등장 횟수를 세는 것이 아니라, 다음과 같은 방식으로 품질을 높인다:

  1. Window size를 고려하여, 하나의 문장에서 서로 가까운 위치에 등장한 키워드들만 연관된 패턴 후보로 간주한다. 예를 들어, “twice”와 “공개”가 문장 양 끝에 있다면 그 연관성은 낮다고 보고 제외한다.
  2. 시간 가중치(time-aware support)를 적용해, 동일한 패턴이라도 최근 콘텐츠에서 자주 등장한 조합일수록 더 높은 점수를 부여한다.
    이때는 log 스케일을 사용한 decay function을 써서, 최신 트렌드에 민감한 키워드 추천이 가능하게 만든다.
  3. TF-IDF는 개별 키워드의 중요도를 판단하는 데 초점을 두는 반면, frequent pattern mining은 키워드 간의 조합을 중심으로 관계성과 트렌드를 발견하는 데 강점을 가진다.
    실제 서비스에서는 TF-IDF로 중요 키워드를 먼저 뽑고, 그 조합을 frequent pattern 방식으로 분석하여 추천 질을 높이는 방식으로 두 기술을 결합하기도 한다.

나는 종종 텍스트마이닝해서 데이터를 보기도 한다. 이유는 어떤 단어 조합이 왜 추천되었는지, 사람이 바로 이해할 수 있고. 딥러닝 모델보다 해석이 쉬워서인데 필요하면 모델만들때 라벨링데이터로 쓸수도 잇으니까..^^

오늘 수업 쿠키슬라이드인데 더재밌당^^;;

"frequent pattern mining"을 윈도우 기반 으로 확장하여 질 높은 키워드 연관성을 추출

반응형