Gaussian Density Estimation & Mixtue of Gaussians
밀도 기반 이상치 탐지 기법의 목적
- 주어진 데이터를 바탕으로 각 객체들이 생성될 확률을 추정
⇒ 새로운 데이터가 생성될 확률이 낮을 경우 이상치로 판단함

위의 사진에서 파란색 그래프가 실제 데이터의 히스토그램이라고 가정하자. 파란색 데이터를 보고 ⇒ 가우시안 분포로부터 만들어졌겠네 ! ⇒ 가우시안 분포의 평균과 분산을 구하자 ⇒ 가우시안 분포의 모양을 추정하자 ⇒ 새로운 데이터가 들어왔을 때 양끝단의 빨간색 데이터가 들어오면 현재 가지고 있는 데이터의 평균과 분산을 따르는 가우시안 분포에서는 매우 낮은 확률로 생성되는 데이터 이므로 해당 데이터는 정상데이터가 아닐 것이다 라고 판단
이상치 탐지에서 사용되는 가우시안 분포의 종류
- Gaussian Density Estimation
- number of modals = 1 (봉우리가 하나)

- Mixture of Gaussian Density Estimation
- 1< Number of modals < Number of instances
- 데이터가 하나의 가우시안 분포로 부터 생성되었다는 것은 너무 과도한 가정이다!
⇒ 현재 우리가 보고있는 데이터는 두 개 이상의 가우시안 분포로 부터 생성이 되었을 것이다.

- Kernel Density Estimation