참고: PRML 2-3
가우시안 분포가 일어나는 여러가지 상황
정보이론에서 엔트로피를 최대화시키는 확률분포
중심극한 정리
• 단일변수 $x$
$$ N(x \mid \mu, \sigma^2) = \frac{1}{(2\pi\sigma^{2})^{1/2}}exp\{- \frac{1}{2\sigma^{2}}(x-\mu)^{2} \} $$
• $D$차원 벡터 $\textbf x$
$$ N(\boldsymbol{x} \mid \boldsymbol{\mu}, \boldsymbol{ \Sigma}) = \frac{1}{(2\pi)^{D/2}} \frac{1}{ \mid \boldsymbol{ \Sigma} \mid ^{1/2}} exp\{- \frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^{T}\boldsymbol{ \Sigma}^{-1}(\boldsymbol{x}- \boldsymbol{\mu}) \} $$
여기서 $\mu$는 $D$차원의 평균 벡터 $\Sigma$(sigma)는 $D \times D$ 크기를 가지는 공분산 행렬이다.
중요한 것은 $\boldsymbol{\mu}$와 $\boldsymbol\Sigma$가 평균과 공분산으로 주어진 것이 아니고, 이것들이 파라미터로 주어진 확률밀도함수의 평균과 공분산 $\boldsymbol\mu$와 $\boldsymbol\Sigma$가 된다는 것이다.
• $\textbf x$ 에 대한 함수적 종속성은 지수부에 등장하는 이차형식(quadratic form)에 있다.
$$ \Delta^{2} = (\boldsymbol{x} - \boldsymbol{\mu})^{T}\boldsymbol{ \Sigma }^{-1}(\boldsymbol{x} - \boldsymbol{\mu}) $$
• $\boldsymbol{\sum}$가 공분산으로 주어진 것이 아니기 때문에 처음부터 이 행렬이 대칭이라고 생각할 필요는 없다. 하지만 이차형식에 나타나는 행렬은 오직 대칭부분만이 그 값에 기여한다는 사실을 기억할 것!
$$ \boldsymbol{x}^{T}\boldsymbol{A}\boldsymbol{x} =(\boldsymbol{x}^{T}\boldsymbol{A}\boldsymbol{x})^{T} = \boldsymbol{x}^{T}\boldsymbol{A^{T}}\boldsymbol{x} = \boldsymbol{x}^{T}\boldsymbol{ (\frac{1}{2} A + \frac{1}{2} A^{T}) }\boldsymbol{x} $$
따라서 $\boldsymbol{\sum}$가 대칭형렬인 것으로 간주할 수 있다.
대칭행렬의 성질에 따라서 $\sum$를 다음과 같이 나타낼 수 있다.
$$ \boldsymbol{ \Sigma ^{-1}} = \sum_{ㅑ=1}^{D} \frac{1}{\lambda_{i}}\boldsymbol{u_{i}u_{i}^{T}} $$
이차형식은 다음과 같이 표현될 수 있다
$$ \Delta ^{2} = (\boldsymbol{x} - \boldsymbol{\mu})^{T}\boldsymbol{ \Sigma }^{-1}(\boldsymbol{x} - \boldsymbol{\mu})= (\boldsymbol{x}- \boldsymbol{\mu})^{T}\sum_{i=1}^{D}\frac{1}{\lambda_{i}}\boldsymbol{u_{i}}\boldsymbol{u_{i}^{T}}(\boldsymbol{x} - \boldsymbol{\mu})
\\ = \sum_{i=1}^{D}\frac{1}{\lambda_{i}}(\boldsymbol{x} - \boldsymbol{\mu})^{T}\boldsymbol{u_{i}}\boldsymbol{u_{i}^{T}}(\boldsymbol{x} - \boldsymbol{\mu}) = \sum_{i=1}^{D} \frac{y_i^{2}}{\lambda_{i}}
\\(단, y_i = \boldsymbol{u_i^{T}(x - \mu)}) $$
이를 벡터식으로 확장하면
$$ \textbf y =U( \textbf x- \boldsymbol{\mu}) $$
$\textbf y$를 벡터들 $\boldsymbol{\mu}_i$에 의해 정의된 새로운 좌표체계 내의 점으로 해석할 수 있다. 이것을 기저변환(change of basis)이라고 한다.
$\boldsymbol{x-\mu}$ : standard basis 에서의 좌표
$\textbf y$ : basis {$\boldsymbol{u_{1}, u_{1}, …, u_{D}}$} 에서의 좌표
타원을 이루며, 모양은 $\lambda$값에 의해 결정됨
$\textbf y$의 확률밀도함수를 구하기 위해서 Jacobian $\textbf J$ 를 구해야 한다.
$$ \textbf J_{ij}=\frac{\partial x_i}{\partial y_j}=U_{ji}=(U^T)_{ij} $$
따라서, $| \textbf J|^2=|U^T|^2=|U^T||U|=|U^TU|=| \textbf I|=1$
행렬식 $|\Sigma|$는 고유값의 곱으로 나타낼 수 있다.
$$ |\Sigma|^{1/2}=\prod_{j=1}^D\lambda_j^{1/2} $$
따라서, $\textbf y$의 확률밀도함수는
$$
p(\boldsymbol{y}) = p(\boldsymbol{x}) \mid \boldsymbol{J} \mid = p(\boldsymbol{x}) = \frac{1}{(2\pi)^{D/2}} \frac{1}{ \mid \boldsymbol{ \Sigma} \mid ^{1/2}} exp\{- \frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^{T}\boldsymbol{ \Sigma}^{-1}(\boldsymbol{x}- \boldsymbol{\mu}) \}
\\= \frac{1}{(2\pi)^{D/2}}\prod_{j=1}^{D}\frac{1}{(\lambda_{j})^{1/2}}exp( \frac{-1}{2}\sum_{j=1}^{l}\frac{y_i^{2}}{\lambda_j} ) = \frac{1}{(2\pi)^{D/2}}\prod_{j=1}^{D}\frac{1}{(\lambda_{j})^{1/2}}\prod_{j=1}^{D}exp( \frac{-1}{2}\frac{y_i^{2}}{\lambda_j} )
\\ = \prod_{j=1}^{D} \frac{1}{(2\pi\lambda_{j})^{1/2}}exp( \frac{-y_i^{2}}{2\lambda_j} )
$$
따라서 $\textbf y$의 normalization은 다음과 같이 증명된다.
$$ \int p(\boldsymbol{y})d\boldsymbol{y} = \prod_{j=1}^D \frac{1}{(2\pi\lambda_{j})^{1/2}}exp( \frac{-y_j^{2}}{2\lambda_j} )dy_j = 1 $$
다변량(multivariate) 확률변수의 기댓값
z에 관한 식은 결국 0이 된다. 따라서 다음과 같은 식이 성립한다.
공분산을 구하기 위해서 먼저 2차 적률(second order moments)을 구한다.
$\textbf z=U^T \textbf y$로 치환하면 $\textbf z=U^T \textbf y$ = $\sum u_iy_i$ , $\boldsymbol{zz^{T}}$=($\sum u_i$$y_i$)($\sum u_j^{T}$$y_j$) = ($\sum_{i}\sum_{j}u_iu_j^Ty_iy_j$)
$\boldsymbol{z\sum^{-1} z^{T}} = (U^T\boldsymbol{y})^T\sum^{-1}(U^T\boldsymbol{y}) = \boldsymbol{y}^{T}UU^T\ \Lambda ^{-1}UU^T\boldsymbol{y} =\boldsymbol{y}^{T}\ \Lambda ^{-1}\boldsymbol{y} = \sum_{i=1}^D\sum_{j=1}^D \ \Lambda_{ij}^{-1}y_iy_j$
= $\sum_{i=1}^{D} \frac{1}{ \lambda _i}y_i^2$
따라서
위의 결과를 이용하면 공분산은 다음과 같다.
$D$차원의 확률변수 벡터 $\textbf x$가 가우시안 분포 $N( \textbf x| \boldsymbol {\mu}, \Sigma)$를 따른다고 하자.
$\textbf x$를 두 그룹의 확률변수들로 나누었을 때, 한 그룹이 주어졌을 때 나머지 그룹의 조건부 확률도 가우시안 분포를 따르고, 각 그룹의 주변확률 또한 가우시안 분포를 따른다는 것을 보이고자 한다.
$\textbf x$ 가 다음과 같은 형태를 가진다고 하자.
$\textbf x_a$는 $M$개의 원소를 가진다고 하자. 그리고 평균 벡터와 공분산 행렬은 다음과 같이 주어진다고 하자.
때로는 공분산의 역행렬, 즉 정확도 행렬(precision matrix)을 사용하는 것이 수식을 간편하게 한다.
주의! 두 전체 행렬의 관계는 서로 역행렬이 되는 관계 (그러나 각각의 작은 행렬에 대해서는 성립하지 않음)
즉,
지수부의 이차형식을 위의 파티션을 사용해서 전개해보면
완전제곱식(Completing the Square) 방법
다음과 같은 조건부 확률을 구하고자 한다.
우리가 알고자 하는 것은 $x_b$가 주어졌을 때$x_a$의 조건부 확률
$$ p(\boldsymbol{x_a} \mid \boldsymbol{x_b}) = N(\boldsymbol{x_a} \mid \boldsymbol{\mu_{a \mid b}}, \sum_{a \mid b}) $$
확률밀도함수 $p( \textbf x_a, \textbf x_b)$를 $p( \textbf x_a, \textbf x_b)=g( \textbf x_a)\alpha$로 나타낼 수 있다고 하자.
여기서 $\alpha$는 $\textbf x_a$와 독립적이고 $\int g( \textbf x_a)d \textbf x_a=1$이다.
따라서
$$ \begin{aligned}\int p( \textbf x_a, \textbf x_b)d \textbf x_a &=\int g( \textbf x_a)\alpha;d \textbf x_a\&=\alpha \int g( \textbf x_a) ;d \textbf x_a\&=\alpha\end{aligned} $$
$$ \alpha=p( \textbf x_b) $$
$$ p( \textbf x_a, \textbf x_b)=g( \textbf x_a)p( \textbf x_b) $$
위에서 함수 f($\textbf x_b, \textbf x_a$)는 원래 지수부를 $\textbf x_a, \textbf x_b$ 파티션을 통해 전개한 식 중에서 $\textbf x_b$을 포함한 모든 항들을 모은 식이다. 그리고 g($\textbf x_a$)는 f($\textbf x_b, \textbf x_a$)에 포함된 항들을 제외한 항들 중 $\textbf x_a$를 포함한 모든 항들을 모은 식이다. const는 나머지 항들을 모은 식이다.
f($\textbf x_b, \textbf x_a$)- $\tau$는 $\textbf x_b$ 와 독립적이므로 적분식 밖으로 나갈 수 있다.
$\tau + g(\textbf x_a)$를 $\textbf x_a$의 완전제곱식으로 만들면 $\textbf x_a$의 평균벡터와 공분산행렬을 구할 수 있다.