이상치 탐지: 주로 목적은 지도학습이지만 데이터에 대한 접근 방식(모델의 학습 방식)은 비지도 학습에 가까움
이상치 데이터 : 매우 다른 소수 객체의 집합
- outlier : 주로 단변량 분석에서 사용하는 용어 (ex) box-plot에서 범위 바깥의 값들이 outlier)
- novelty : (긍정적인 뉘앙스를 내포하는)극소수에 해당하는 특이한 데이터
ex) 주식시장에서의 폭등 주
- anomaly : (부정적인 뉘앙스를 내포하는)극소수에 해당하는 특이한 데이터
ex) 제조공정에서의 불량, 의료쪽에서 특수한 질병의 진단
이상치 데이터란? :
원인 관점: 이상치 데이터는 정상데이터와 생성 매커니즘 자체가 다름.
결과 관점: 실제 확률 밀도가 매우 낮은 (매우 희귀하게 관찰되는) 데이터가 이상치 데이터임.
이상치 데이터 vs 노이즈 데이터
노이즈 데이터
- 측정 과정에서의 무작위성(randomness)에 기반하여 생성된 데이터를 의미함.
⇒ y= f(x) + ε 에서 우리가 컨트롤 할 수 없는 ε에 해당하는 것이 노이즈임
- 이론적으로는 가능하면 노이즈를 모델링하기 전에 제거 해야 됨
- 현실은 노이즈만 제거하는것은 현실적으로 불가능하므로 이를 포함하여 모델링을 수행함
이상치 데이터
- 객체 중의 일부임. 소수지만 매우 중요한 역할을 담당하는 데이터를 의미함