이진분류 모델에서의 metric

평가지표(metric)을 크게 분류를 위한 평가지표와 회귀를 위한 평가지표로 나눌 수 있다.

정확도는 모델의 예측이 얼마나 정확한지를 의미한다. 분류모델에서 예측 한 것과 실제가 동일한 데이터의 수 / 전체 데이터 수로 계산한다.

$$ ACCUEACY = \frac {TP + TN} { TP + FP + FN + TN} $$

하지만 데이터가 불균형한 경우 정확도만을 사용하여 분석을 수행하면 잘못된 판단을 할 수가 있다. 예를 들어, 희귀질환의 유병률이 전체 모집단의 1%인 경우, 모든 개체를 희귀질환이 없다고 분류하는 모델을 만들면 99%의 정확도를 얻어 언뜻보면 좋은 모델처럼 보인다. 하지만, 이러한 상황에서는 희귀질환에 걸린 환자를 잘 맞춰내는 모델이 좋은 모델이다. 즉, 계급의 불균형이 있는 분류 모델에서는 주로 소수계급을 맞추는 것이 목적이므로 정확도가 아닌 다른 측도를 이용해서 모형을 평가해야 한다.

업무의 특성상 precision이 중요한 지표가 되는 경우가 있고, recall이 중요한 지표가 되는 경우가 있다

recall이 중요한 경우는 소수계급을 다수계급으로 잘못 판단하게 되면 업무상 큰 영향을 받는 경우이다. 예를 들어 암 판단 모델에서는 암환자를 정상인으로 분류할 경우 심각한 문제가 발생할 수 있다. 이런 경우 recall이 중요한 지표가 된다. 이러한 예로는 보험사기나 금융 사기 적발 모델 등이 있다.

precision이 중요한 경우는 다수그룹을 소수그룹으로 잘못 분류할 경우에 크게 문제가 발생하는 경우이다. 이러한 경우의 예로는 스팸메일이 있다. 소수그룹인 스팸메일을 일반메일로 분류할 경우 사용자가 불편함을 느끼게 된다. 하지만 실제 중요한 메일을 스팸메일(소수계급)로 분류한다면 큰 문제가 된다.

하지만 일반적으로는 두 값이 모두 중요하므로 이 두 값이 큰 경우 소수계급에 대한 분류 성능이 좋다고 할 수 있다. 반면 둘 중 어느 하나의 지표만 매우 크고 다른 한 수치는 매우 작은 경우에는 바람직하지 않다.

하지만 precision과 recall은 서로 trade-off 관계를 가지고 있다. 따라서 두 측도를 모두 반영한 F1-score을 계산할 수 있다.