본문 바로가기
카테고리 없음 by 생활정보 전문가입니다. 4 2023. 12. 28.

가우시안 분포는 정말 많이 쓰이는 분포이다. 가우시안 분포는 1변수도그렇고 다변수도 많이 쓰인다. 가우시안 분포를 구성하는 두개의 parameter는 mean과 covariance matrix인데 mean의 의미는 얼추 알겠고 covariance matrix의 의미는 잘모르겠었다. 그래서 찾고 찾다보니 그 의미를 알게 되었다. 이번에는 가우시안 분포의 covariance matrix의 의미를 알아보자.

Covariance matrix의 의미

$\mathbf{x}$는 평균이 $\mathbf{\mu}$이고 covariance matrix가 $\Sigma$인 가우시안 분포라고 하자. 평균과 $\mathbf{x}$의 거리를 구하는데 분산을 고려해서 구하면 아래와 같은 식이 나온다.

$$\Delta^2 = (\mathbf{x}-\mathbf{\mu})^T \Sigma^{-1} (\mathbf{x}-\mathbf{\mu})$$

위의 식이 이상하다고 생각할 수 있는데 1차원일때를 생각해보면 아래와 같이 표준화 된 거리로 보면 된다.

$$\frac{(x-\mu)^2}{\sigma^2}$$

 

Covariance matrix 대각화

Covariance matrix는 주로 positive definite symmetric matrix 이므로 아래와 같이 대각화가 된다.

$$ \Sigma = U \Lambda U^T$$

이것을 다시 써보면 $ \Sigma = U \Lambda^{1/2} \Lambda^{1/2} U^T$으로 표현할 수 있다. 공분산 행렬이 positive matrix이므로 eigen value가 양수이기 때문이다. 이이제 $\mathbf{y} = \Lambda^{-1/2} U^t \mathbf{x}$ 라 하고 아까 정의한 $\Delta^2$에 대입하면 아래의 식을 얻는다.

$$\Delta^2 = \mathbf{y}^T\mathbf{y}$$

 

위에서 얻은식은 이차형식이다. 이차형식에서 단위원을 생각해보자.

$$1 = \mathbf{y}^T \mathbf{y}$$

1이 되게하는 $\mathbf{y}$의 값은 많지만 대표적으로 $\mathbf{y} = \mathbf{e}_i$와 같이 i번째만 1이가 나머지가 0인 벡터가 있다. 

$\mathbf{y} = \mathbf{e}_i$일 때 식 $\mathbf{y} = \Lambda^{-1/2} U^t \mathbf{x}$ 에서  $\mathbf{x} = \sqrt{\lambda_i} U_i$임을 유도할 수 있다. 여기서 $U_i$는 $U$의 열벡터이자 $\Sigma$의 eigenvector이다. 위의 관계에서 도달할 수 있는 결론은 공분산을 고려한 거리 $\Delta^2$를 구하는데 $\Delta^2$가 1이되는 점들은 타원의 형태이고 타원의 축은 $\Sigma$의 eigen value와 eigen vector의 곱으로 구성된 $\sqrt{\lambda_i}U_i$라는 점이다.

 

reference - Bishop-Pattern-Recognition-and-Machine-Learning-2006