이산확률분포

PRML(Pattern Recognition & Machien Learning) 2장의 내용을 정리한 것임.

밀도추정 (Density Estimation)

밀도 추정 : $N$개의 관찰데이터(observations) $x_1, ..., x_N$가 주어졌을 때 분포함수 $p(x)$를 찾는 것

$p(x)$를 파라미터화된 분포로 가정한다. 회귀, 분류문제에서는 주로 p(t|x), p(C|x)를 추정한다.
그다음 분포의 파라미터를 찾는다.
- 빈도주의(Frequentism) 방법 : 어떤 기준(예: likelihood)을 최적화시키는 과정을 통해파라미터 값을 정한다. 그렇게 파라미터의 하나의 값을 구하게 된다.
- 베이시안(Bayesian) 방법 : 먼저 파라미터의 사전확률을 가정하고Bayes' rule을 통해 파라미터의 사후확률을 구한다. (참고: 베이즈 룰 과 딥러닝)
파라미터를 찾았다면(한 개의 값이든 분포든) 그것을 사용해 예측할 수 있다. (t 혹은 C).

켤레사전분포(Conjugate Prior) : 사후확률이 사전확률과 동일한 함수형태를 가지도록 해준다.

이항확률변수(binary random variable) $x \in {0,1}$ (예: 동전던지기) 가 다음을 만족한다고 하자.

$$ p(x=1|\mu)=\mu, \; p(x=0|\mu)=1-\mu $$

$p(x)$는 베르누이 분포(Bernoulli distribution)로 표현될 수 있다.

$$ Bern(x|\mu)=\mu^x(1-\mu)^{1-x} $$

기댓값 : $\mathbb E[x]= \mu$
분산 : $var[x] = \mu(1-\mu)$ $(\because\begin{aligned}var&= \mathbb E[x^2]-\mathbb E[x]^2= {1\cdot\mu+0\cdot (1-\mu)} - \mathbb \mu^2=\mu-\mu^2=\mu(1-\mu)\end{aligned})$
우도함수 (Likelihood Function) (우도함수는 파라미터 $\mu$의 함수)

$x$값을 $N$번 관찰한 결과를 $D={\{x_1,\dots, x_N\}}$라고 하자.각 $x$가 독립적으로 $p(x|\mu)$에서 뽑혀진다고 가정하면 다음과 같이 우도함수($\mu$의 함수)를 만들 수 있다.

$$ p(D|\mu)=\prod_{n=1}^Np(x_n|\mu)=\prod_{n=1}^N\mu^{x_n}(1-\mu)^{1-x_n} $$