Math

[AI class w7d2] Probability Distributions 2(연속확률분포) 확률분포 TIL

makeitworth 2021. 6. 8. 11:24

주로 PRML 2-3 에 해당되는 내용인 것 같다.

가우시안 분포 (Gaussian Distribution)

  • 가우시안 분포가 일어나는 여러가지 상황
    • 정보이론에서 엔트로피를 최대화시키는 확률분포
    • 중심극한 정리
  • 단일변수 $x$
  • $D$차원 벡터 $ \textbf x$
  • (전체 값은 스칼라가 됨)

💡 여기서 $\mu$는 $D$차원의 평균 벡터$\Sigma$(sigma)는 $D \times D$ 크기를 가지는 공분산 행렬이다.

중요한 것은 $\mu$와 $\Sigma$가 평균과 공분산으로 주어진 것이 아니고, 이것들이 파라미터로 주어진 확률밀도함수의 평균과 공분산이 $\mu$와 $\Sigma$가 된다는 것이다.

가우시안 분포의 가하학적인 형태

  • $ \textbf x$ 에 대한 함수적 종속성은 지수부에 등장하는 이차형식(quadratic form)에 있다.
  • $\sum$가 공분산으로 주어진 것이 아니기 때문에 처음부터 이 행렬이 대칭이라고 생각할 필요는 없다. 하지만 이차형식에 나타나는 행렬은 오직 대칭부분만이 그 값에 기여한다는 사실을 기억할 것!
  • -> $\sum$는 대칭행렬인 것으로 간주

대칭행렬의 성질에 따라서 $\sum$를 다음과 같이 나타낼 수 있다.

$$\sum = U^T{\Lambda}U$$

 

역행렬$\sum^{-1}/$도 쉽게 구할 수 있다.

이차형식은 다음과 같이 표현될 수 있다.

벡터식으로 확장하면

$$ \textbf y =U( \textbf x- \boldsymbol{\mu})
$$

  • $ \textbf y$ 를 벡터들 $ \boldsymbol{\mu}_i$ 에 의해 정의된 새로운 좌표체계 내의 점으로 해석할 수 있다.
    이것을 기저변환(change of basis)이라고 한다.
    • $ \textbf{x-\mu}$ : standard basis 에서의 좌표
    • $ \textbf y$ : basis ${ \textbf u_1, \textbf u_2, \dots, \textbf u_D}$ 에서의 좌표
  • 타원을 이루며, 모양은 $\lambda$ 값에 의해 결정됨
  • $$\textbf y =U( \textbf{x}-\boldsymbol{\mu})$$
  • $$\textbf{x}-\boldsymbol{\mu} =U^{-1} \textbf y$$
  • $$=U^T \textbf y$$
  • $\textbf{x}-\boldsymbol{\mu}$ : standard basis에서의 좌표
  • $\textbf y$ : $\{u_1, u_2, \dots, u_D\}$에서의 좌표

가우시안 분포의 Normalization 증명

확률이론시간에 배운 확률변수의 함수를 복습할 것.

$ \textbf y$ 의 확률밀도함수를 구하기 위해서 Jacobian $ \textbf J$ 를 구해야 한다.

$$ \textbf J_{ij}=\frac{\partial x_i}{\partial y_j}=U_{ji}=(U^T)_{ij}
$$

$$ \textbf J=U^T
$$

$$| \textbf J|^2=|U^T|^2=|U^T||U|=|U^TU|=| \textbf I|=1
$$

행렬식 $|\Sigma|$는 고유값의 곱으로 나타낼 수 있다.

$$|\Sigma|^{1/2}=\prod_{j=1}^D\lambda_j^{1/2}
$$

따라서, $ \textbf y$의 확률밀도함수는

$ \textbf y$의 normalization

가우시안 분포의 기댓값

다변량(multivariate) 확률변수의 기댓값

  • $ \textbf x=(x_1, x_2,\dots,x_n)^T$
  • $\mathbb E[ \textbf x]=(\mathbb E[x_1],\dots, \mathbb E[x_n])^T$
  • $\mathbb E[x_1]=\int x_1p(x_1)dx_1$
  • 여기서 $x$는 벡터

$$\text{by} ; \textbf z= \textbf{x}-\boldsymbol{\mu}
$$

z에 관한 식은 결국 0이 된다. 따라서 다음과 같은 식이 성립한다.

가우시안 분포의 공분산

공분산을 구하기 위해서 먼저 2차 적률(second order moments)을 구한다.

$ \textbf z=U^T \textbf y$로 치환하면

위의 결과를 이용하면 공분산은 다음과 같다.

조건부 가우시안 분포 (Conditional Gaussian Distributions)

$D$차원의 확률변수 벡터 $ \textbf x$가 가우시안 분포 $N( \textbf x| \boldsymbol {\mu}, \Sigma)$를 따른다고 하자.

$ \textbf x$를 두 그룹의 확률변수들로 나누었을 때, 한 그룹이 주어졌을 때 나머지 그룹의 조건부 확률도 가우시안 분포를 따르고, 각 그룹의 주변확률 또한 가우시안 분포를 따른다는 것을 보이고자 한다.

$ \textbf x$ 가 다음과 같은 형태를 가진다고 하자.

$ \textbf x_a$는 $M$개의 원소를 가진다고 하자. 그리고 평균 벡터와 공분산 행렬은 다음과 같이 주어진다고 하자.

때로는 공분산의 역행렬, 즉 정확도 행렬(precision matrix)을 사용하는 것이 수식을 간편하게 한다.

💡 두 전체 행렬의 관계는 서로 역행렬이 되는 관계 (그러나 각각의 작은 행렬에 대해서는 성립하지 않음)

지수부의 이차형식을 위의 파티션을 사용해서 전개해보면

 

완전제곱식(Completing the Square) 방법

다음과 같은 조건부 확률을 구하고자 한다.

(우리가 알고자 하는 것은 $x_b$가 주어졌을 때 $x_a$의 조건부 확률

확률밀도함수 $p( \textbf x_a, \textbf x_b)$를 $p( \textbf x_a, \textbf x_b)=g( \textbf x_a)\alpha$ 로 나타낼 수 있다고 하자.

여기서 $\alpha$는 $ \textbf x_a$와 독립적이고 $\int g( \textbf x_a)d \textbf x_a=1$이다.

따라서

$$\begin{aligned}\int p( \textbf x_a, \textbf x_b)d \textbf x_a &=\int g( \textbf x_a)\alpha;d \textbf x_a\&=\alpha \int g( \textbf x_a) ;d \textbf x_a\&=\alpha\end{aligned}$$

$$\alpha=p( \textbf x_b)$$

$$p( \textbf x_a, \textbf x_b)=g( \textbf x_a)p( \textbf x_b)$$

$$g( \textbf x_a)=p( \textbf x_a| \textbf x_b)$$

위 과정을 통해 함수 $g( \textbf x_a)$ 를 찾는 것이 목표!

 

 

 가우시안 분포의 지수부는 다음과 같이 전개된다는 것이 중요한 포인트이다.

->여기서 상수부 const는 $ \textbf x$와 독립된 항들의 모든 것이다. 따라서 어떤 복잡한 함수라도 지수부를 정리했을 때 위의 형태가 된다면 이 함수는 공분산 행렬 $\Sigma$와 평균벡터 $ \boldsymbol {\mu}$를 가지는 가우시안 분포임을 알 수 있다.

$ \textbf x$에 관한 이차항과 일차항의 계수를 살피면 된다는 것이다.

$ \textbf x_a$의 이차항은

따라서 공분산은

이제 평균벡터를 구하기 위해서는 $ \textbf x_a$ 의 일차항을 정리하면 된다.

$ \textbf x_a$ 의 일차항은

$ \textbf x_a$ 의 일차항의 계수는 $\Sigma_{a|b}^{-1}\mu_{a|b}$ 이어야 하므로 $\Sigma_{a|b}$ 를 곱하면

 

 

주변 가우시안 분포 (Marginal Gaussian Distributions)

 

다음과 같은 주변분포를 계산하고자 한다.

아래와 같이 $f( \textbf x_b, \textbf x_a)$ 를 완전제곱식으로 만든다.

따라서 $\tau = \frac1{2}m^T{\Lambda}_{bb}^{-1}m$ 이고,

 

$ \int\text{exp}\{f(x_b,x_a)-\tau\}dx_b$ =

-> 이 값은 공분산 $\Lambda_{bb}$ 에만 종속되고 $ \textbf x_a$에 독립적이므로 $\alpha\beta \text{exp}{\tau+g( \textbf x_a)+\text{const}}$의 지수부에만 집중하면 된다.

 

 

마지막으로 $\tau+g( \textbf x_a)+\text{const}$ 를 살펴보자.

 

따라서 공분산은

 

평균벡터는

 

공분산의 형태가 복잡하게 보이지만 Schur complement(슐러 보수)를 사용하면

-> 정리하면

  • $\mathbb E[ \textbf x_a]= \boldsymbol{\mu}_a$
  • $\text{cov}[ \textbf x_a]=\Sigma_{aa}$

 

가우시안 분포를 위한 베이즈 정리 (Bayes' Theorem for Gaussian Variables)

 

$p( \textbf x)$와 $p( \textbf y| \textbf x)$ 가 주어져 있고 $p( \textbf y| \textbf x)$ 의 평균은 $ \textbf x$의 선형함수이고 공분산은 $ \textbf x$와 독립적이라고 하자.

이제 $p( \textbf y)$와 $p( \textbf x| \textbf y)$를 구할 것이다.

(이 결과는 다음 시간에 배울 선형회귀(베이시안)의 주요 내용을 유도하는 데 유용하게 쓰일 것이다.)

$p( \textbf x)$와 $p( \textbf y| \textbf x)$가 다음과 같이 주어진다고 하자.

 

 

먼저 $ \textbf z=\begin{bmatrix} \textbf x\ \textbf y\end{bmatrix}$를 위한 결합확률분포를 구하자.

이 결합확률분포를 구하고 나면 $p( \textbf y)$와 $p( \textbf x| \textbf y)$는 앞에서 얻은 결과에 의해 쉽게 유도할 수 있다.

먼저 로그값을 생각해보자.

 

$ \textbf z$ 의 이차항은 다음과 같다.

 

정확도 행렬

 

 

따라서 공분산(정확도 행렬의 역행렬)은 다음과 같다.

 

 

평균벡터를 찾기 위해서 $ \textbf z$의 1차항을 정리한다.

 

따라서 평균벡터는

 

$ \textbf y$를 위한 주변확률분포의 평균과 공분산은 앞의 "주변 가우시안 분포" 결과를 적용하면 쉽게 구할 수 있다.

 

마찬가지로 조건부 확률 $p( \textbf x| \textbf y)$의 평균과 공분산은 "조건부 가우시안 분포" 결과를 적용해 유도할 수 있다.

 

주어진 x에 대한 주변 가우스 분포와 폼에서 주어진 x에 대한 조건부 가우스 분포

가우시안 분포의 최대우도 (Maximum Likelihood for the Gaussian)

가우시안 분포에 의해 생성된 데이터 $ \textbf X = ( \textbf x_1, \dots, \textbf x_n)^T$가 주어졌을 때,

우도를 최대화하는 파라미터 값들(평균, 공분산)을 찾는 것이 목표라고 하자.

 

로그우도 함수는 다음과 같다.

 

먼저 우도를 최대화하는 평균벡터 $ \boldsymbol{\mu}_{ML}$을 찾아보자.

$ \textbf y= \textbf{(x-\mu)}$라고 하면 다음의 식이 유도된다.

 

다음으로 우도를 최대화하는 공분산행렬 $\Sigma_{ML}$은 다음과 같다.

 

 위의 식 유도를 위해 아래의 기본적인 선형대수 결과를 사용

  • $|A^{-1}|=1/|A|$
  • $ \textbf x^TA \textbf x=\text{tr}( \textbf x^TA \textbf x)=\text{tr}( \textbf x \textbf x^TA)$
  • $\text{tr}(A)+\text{tr}(B)=\text{tr}(A+B)$
  • $\frac{\partial}{\partial A}\text{tr}(BA)=B^T$
  • $\frac{\partial}{\partial A}\ln|A|=(A^{-1})^T$

 

가우시안 분포를 위한 베이시안 추론 (Bayesian Inference for the Gaussian)

MLE 방법은 파라미터들($ \boldsymbol {\mu}$, $\Sigma$)의 하나의 값만을 구하게 해준다.

베이시안 방법을 사용하면 파라미터의 확률분포 자체를 구할수 있게 된다.

단변량 가우시안 확률변수 $x$의 $\mu$를 베이시안 추론을 통해 구해보자(분산 $\sigma^2$는 주어졌다고 가정)

목표는 $\mu$의 사후확률 $p(\mu| \textbf X)$을 우도함수 $p( \textbf X|\mu)$와 사전확률 $p(\mu)$을 통해 구하는 것이다.

  • 우도함수

  • 사전확률

  • 사후확률