[이탐] 내가 보려고 정리한 ML 이상탐지

서쿠·2024년 5월 14일

Anomaly-Detection

목록 보기

1/6

이상탐지

이상탐지는 데이터셋에서 정상적인 패턴에서 벗어난 데이터 포인트를 식별하는 과정입니다. 이러한 이상치는 데이터의 분포나 특성에서 눈에 띄게 다른 점들을 나타내며, 종종 오류, 사기, 결함 등의 문제를 나타낼 수 있습니다. 따라서 이상탐지는 데이터 분석, 품질 관리, 보안 등 다양한 분야에서 중요한 역할을 합니다.

이상감지

이상탐지 방법론에 따른 분류

이상탐지 방법론은 데이터의 특성과 문제의 성격에 따라 다양한 접근 방식을 사용합니다.
주요 방법론은 아래와 같이 정의할 수 있습니다:

밀도 기반 이상탐지 방법론
거리 기반 이상탐지 방법론
앙상블 기반 이상탐지 방법론
결정 경계 기반 이상탐지 방법론
통계(분포) 기반 이상탐지 방법론

이번 포스팅은 머신러닝 이상탐지 방법론을 분류하고 이를 대표하는 알고리즘들을 함께 정리하는 것을 목표로 하고 있습니다.

좀 더 자세한 알고리즘에 대한 설명을 원하신다면, 이전에 작성한 아래 포스팅 글들을 참고해주세요 🤗

1. 밀도 기반 알고리즘

밀도 기반 알고리즘은 데이터 포인트 간의 지역적 밀도를 기반으로 이상치를 탐지합니다. 이러한 알고리즘은 데이터 분포가 불균일한 경우에도 잘 작동할 수 있습니다.

DBSCAN (Density-Based Spatial Clustering of Applications with Noise):
- 개념: 데이터 포인트 사이의 밀도를 측정하여 밀도가 높은 영역과 낮은 영역을 구분합니다.
- 적합한 데이터: 공간적 분포가 있는 데이터, 지리적 위치 데이터, 물류 데이터
- 정상 데이터로만 학습 가능 여부: 불가능. 정상 데이터와 이상 데이터를 모두 필요로 합니다.
- 비즈니스 이점:
  - 유연한 클러스터링: 클러스터의 수를 사전에 지정할 필요가 없으므로 사전 지식 없이도 유연하게 적용 가능합니다.
  - 비정형 클러스터 탐지: 기하학적 모양을 갖는 클러스터도 잘 탐지할 수 있어 다양한 형태의 데이터에 적합합니다.
  - 잡음 처리: 노이즈 포인트를 효과적으로 처리하여 이상치(Outlier)를 정확하게 검출할 수 있습니다.
LOF (Local Outlier Factor):
- 개념: 각 데이터 포인트의 밀도를 주변 데이터 포인트와 비교하여 지역적 밀도 차이를 통해 이상치를 탐지합니다.
- 적합한 데이터: 밀도가 불균일한 대규모 데이터, 고객 행동 데이터, 웹사이트 트래픽 데이터
- 정상 데이터로만 학습 가능 여부: 불가능. 정상 데이터와 이상 데이터를 모두 필요로 합니다.
- 비즈니스 이점:
  - 지역 밀도 기반 탐지: 각 데이터 포인트의 지역 밀도를 비교하여 밀도 차이를 정확하게 파악할 수 있습니다.
  - 정확한 이상치 탐지: 밀도가 불균일한 데이터에서도 정확한 이상치 탐지가 가능하여 다양한 상황에 적용 가능합니다.
  - 복잡한 데이터 구조 처리: 복잡한 데이터 구조에서도 유연하게 적용할 수 있어 다양한 비즈니스 문제에 대응할 수 있습니다.

2. 통계(분포) 기반 알고리즘

통계적 접근 방식을 사용하여 모델이 데이터의 '정상적인' 행동을 학습하고 통계적으로 이례적인 행동을 보이는 데이터 포인트를 이상치로 식별합니다.

GMM (Gaussian Mixture Models):
- 개념: 데이터를 여러 개의 가우시안 분포의 혼합으로 모델링하여 이상치를 탐지합니다.
- 적합한 데이터: 여러 분포가 혼합된 데이터, 매출 및 거래 데이터
- 정상 데이터로만 학습 가능 여부: 가능하지만, 이상치 탐지의 정확도는 정상 데이터만 사용할 때 낮아질 수 있습니다.
- 비즈니스 이점:
  - 복잡한 데이터 분포 모델링: 여러 개의 가우시안 분포를 사용하여 복잡한 데이터 분포를 효과적으로 모델링할 수 있습니다.
  - 세그먼트 분석: 다양한 고객 세그먼트를 정확하게 식별하고 분석할 수 있어 맞춤형 마케팅 전략을 수립할 수 있습니다.
  - 정밀한 이상치 탐지: 다양한 분포를 고려하여 정확한 이상치 탐지가 가능해 금융 및 마케팅에서 신뢰성을 높일 수 있습니다.
PCA (Principal Component Analysis):
- 개념: 고차원 데이터를 저차원으로 변환하여 주요 변동성을 캡처하고, 재구성 오류를 통해 이상치를 탐지합니다.
- 적합한 데이터: 고차원 데이터, 상품 속성 데이터, 재고 데이터
- 정상 데이터로만 학습 가능 여부: 가능. 정상 데이터만으로 주요 변동성을 학습하여 이상치를 탐지할 수 있습니다.
- 비즈니스 이점:
  - 차원 축소: 고차원 데이터를 저차원으로 축소하여 데이터 시각화와 이해도를 높일 수 있습니다.
  - 효율적인 변동성 캡처: 데이터의 주요 변동성을 캡처하여 중요한 정보만을 유지할 수 있습니다.
  - 정확한 이상치 탐지: 주요 성분을 기반으로 재구성 오류를 계산하여 이상치를 효과적으로 탐지할 수 있습니다.

3. 거리 기반 알고리즘

거리 기반 알고리즘은 데이터 포인트 간의 거리를 기반으로 이상치를 탐지합니다. 데이터 포인트가 다른 포인트와의 거리가 멀다면 이상치로 간주됩니다.

KNN (K-Nearest Neighbors):
- 개념: 각 데이터 포인트와 가장 가까운 K개의 이웃과의 거리를 계산하여 이상치를 탐지합니다.
- 적합한 데이터: 클러스터링이 가능한 데이터, 고객 리뷰 데이터
- 정상 데이터로만 학습 가능 여부: 불가능. 정상 데이터와 이상 데이터를 모두 필요로 합니다.
- 비즈니스 이점:
  - 직관적인 이해: 알고리즘이 간단하고 직관적이어서 비전문가도 쉽게 이해하고 적용할 수 있습니다.
  - 밀도 평가: 데이터의 밀도를 평가하여 클러스터 내에서 이상치를 효과적으로 탐지할 수 있습니다.
  - 유연성: 다양한 종류의 데이터에 적용 가능하여 다목적 활용이 가능합니다.
K-Means (K-Means Clustering):
- 개념: 데이터를 K개의 군집으로 나누고, 각 군집 내의 거리 정보를 사용하여 이상치를 탐지합니다.
- 적합한 데이터: 군집 형성이 명확한 데이터, 판매 채널 데이터
- 정상 데이터로만 학습 가능 여부: 불가능. 정상 데이터와 이상 데이터를 모두 필요로 합니다.
- 비즈니스 이점:
  - 쉽고 빠른 군집화: 알고리즘이 간단하고 빠르게 동작하여 실시간 분석에 적합합니다.
  - 명확한 군집 분리: 명확한 군집을 형성하여 데이터의 구조를 쉽게 파악할 수 있습니다.
  - 효율적인 이상치 탐지: 군집 내의 거리를 기준으로 이상치를 탐지하여 비정상적인 패턴을 신속히 발견할 수 있습니다.

4. 앙상블 기반 알고리즘

앙상블 기반 알고리즘은 여러 개의 의사결정 기반 모델을 조합하여 이상치를 탐지합니다. 이 방법은 일반적으로 높은 정확도를 제공합니다.

Isolation Forest:
- 개념: 데이터의 랜덤 분할을 통해 이상치를 고립시키는 방식으로 작동합니다.
- 적합한 데이터: 대규모 데이터셋, 전자 상거래 데이터
- 정상 데이터로만 학습 가능 여부: 가능. 정상 데이터만으로도 학습하여 이상치를 고립시킬 수 있습니다.
- 비즈니스 이점:
  - 효율적 고립: 랜덤 분할을 통해 이상치를 효과적으로 고립시켜 정확한 탐지가 가능합니다.
  - 빠른 처리 속도: 대규모 데이터셋에서도 빠르게 작동하여 실시간 분석에 유리합니다.
  - 비선형 데이터 처리: 비선형적인 데이터 분포에서도 효과적으로 작동하여 다양한 비즈니스 환경에 적합합니다.

5. 결정 경계 기반 알고리즘

결정 경계 기반 알고리즘은 데이터의 분포를 학습하여 명확한 경계를 형성하고, 이 경계를 벗어나는 점들을 이상치로 간주합니다.

OCSVM (One-Class Support Vector Machine):
- 개념: 데이터의 특징을 학습하여 고차원 공간에서 결정 경계를 형성하고, 이 경계를 벗어나는 데이터 포인트를 이상치로 식별합니다.
- 적합한 데이터: 고차원 데이터, 금융 거래 데이터
- 정상 데이터로만 학습 가능 여부: 가능. 정상 데이터만으로도 학습하여 이상치를 탐지할 수 있습니다.
- 비즈니스 이점:
  - 고차원 데이터 처리: 고차원 데이터에서도 효과적으로 작동하여 복잡한 데이터 구조를 다룰 수 있습니다.
  - 명확한 경계 형성: 명확한 결정 경계를 형성하여 이상치를 정확하게 식별할 수 있습니다.
  - 비선형 경계 학습: 비선형적인 경계도 학습할 수 있어 다양한 데이터 분포에 적용 가능합니다.

정리

이상탐지는 다양한 알고리즘과 접근 방식을 통해 수행될 수 있으며, 데이터의 특성과 분석 목적에 따라 적절한 방법론을 선택하는 것이 중요합니다.
밀도 기반, 거리 기반, 앙상블 기반, 결정 경계 기반, 통계(분포) 기반 알고리즘은 각각의 장점과 단점을 가지고 있어 특정 상황에 맞는 최적의 알고리즘을 선택하여 사용해야 합니다.

이를 통해 데이터의 품질을 향상시키고, 이상치로 인한 문제를 효과적으로 해결할 수 있습니다.

서쿠

Always be passionate ✨

다음 포스트