Post

[Probabilistics] 확률 이론(9강) - Univariate Transformation

Univariate Transformation을 이해하고, 직접 변환할 수 있습니다.

[Probabilistics] 확률 이론(9강) - Univariate Transformation
  • 수식이 제대로 보이지 않는다면, 새로고침(F5)을 해주시기 바랍니다.

이번 시간에는 단변수 변환법(Univariate Transformation)에 대해 알아보겠습니다.


Univariate Transformation: Discrete case

이산(discrete) 확률 변수 $X$에 대해 함수 $Y = g(X)$로 새로운 확률 변수를 정의할 수 있습니다.
이때 $Y$는 여전히 이산형이며, 그 확률 질량 함수(PMF)는 다음과 같이 계산됩니다.

\[P(Y = y) = \sum_{\substack{x_i: \, g(x_i) = y}} P(X = x_i)\]

즉, $g(x_i) = y$가 되는 모든 $x_i$에 대해 $P(X = x_i)$를 더하면 됩니다. 왜냐하면 여러 $x_i$가 같은 $y$로 mapping될 수 있기 때문입니다.
예시를 보시면 쉽게 이해하실 수 있습니다.

Example

이산 확률 변수 $X$가 다음과 같은 값을 가진다고 가정해 봅시다.

\[P(X = -2) = 0.2, \quad P(X = -1) = 0.1, \quad P(X = 0) = 0.4, \quad P(X = 1) = 0.2, \quad P(X = 2) = 0.1\]

이때 새로운 확률 변수 $Y = |X|$를 정의하면, $Y$는 다음 값 $Y \in {0, 1, 2}$를 가질 수 있습니다.
$Y$의 확률 질량 함수는 다음과 같이 정의됩니다.

\[P(Y = y) = \sum_{\substack{x: \, |x| = y}} P(X = x)\]

각 값을 계산해보면,

  • $P(Y = 0) = P(X = 0) = 0.4$
  • $P(Y = 1) = P(X = -1) + P(X = 1) = 0.1 + 0.2 = 0.3$
  • $P(Y = 2) = P(X = -2) + P(X = 2) = 0.2 + 0.1 = 0.3$

따라서 $Y$의 확률 질량 함수는 다음과 같습니다.

\[P(Y = 0) = 0.4, \quad P(Y = 1) = 0.3, \quad P(Y = 2) = 0.3\]

이처럼 여러 $x$ 값이 같은 $y$로 매핑될 수 있기 때문에, 모든 가능한 $x$들에 대해 확률을 더해주는 방식으로 PMF를 계산해야 합니다.

Univariate Transformation: Continuous case

이번에는 continuous인 경우를 보겠습니다. 연속 확률 변수 $X$가 확률 밀도 함수 $f_X(x)$를 갖고, 단조 증가(monotonically increasing) 또는 단조 감소(monotonically decreasing)하는 함수 $Y = g(X)$로 변환되었다고 가정합니다. 단조 증가 or 단조 감소라는 조건은 매우 중요합니다!
이때 $Y$의 확률 밀도 함수 $f_Y(y)$는 다음과 같은 일반식을 따릅니다.

\[f_Y(y) = f_X(g^{-1}(y)) \cdot \left| \frac{d}{dy}g^{-1}(y) \right|\]


또는 동일하게 미분을 이용해서 표현할 수 있습니다.

\[f_Y(y) = f_X(x) \cdot \left| \frac{dx}{dy} \right| \quad \text{where } x = g^{-1}(y)\]

만약 $f_X(x)$가 monotone한 함수가 아니라면 구간을 나누어 각 구간이 monotone하도록 쪼개서 각각 구한 후 합쳐야 합니다! 절대 한꺼번에 계산을 하면 안됩니다. 예시를 아래에 제공해드리겠습니다. 예시를 보시고, 직접 연습 문제를 통해 이 경우를 꼭 연습해보시길 바랍니다.

Example

연속 확률 변수 $X$에 대해 $Y = |X|$로 정의된 새로운 확률 변수의 확률 밀도 함수(PDF)를 구해보겠습니다.

예를 들어 $X$가 표준 정규 분포를 따른다고 가정하겠습니다.

\[X \sim \mathcal{N}(0, 1), \quad f_X(x) = \frac{1}{\sqrt{2\pi}} e^{-x^2/2}\]


이때 $Y = |X|$는 음수 값을 갖지 않으므로, $Y \ge 0$입니다.
같은 $y$ 값에 대해 두 개의 $x$ 값, 즉 $x = y$와 $x = -y$가 대응됩니다.

따라서 $Y$의 밀도 함수는 다음과 같이 계산됩니다:

\[f_Y(y) = f_X(y) + f_X(-y), \quad \text{for } y \ge 0\]


표준 정규분포는 짝함수(even function)이므로 $f_X(y) = f_X(-y)$가 성립하고, 결국

\[f_Y(y) = 2 f_X(y) = \frac{2}{\sqrt{2\pi}} e^{-y^2/2}, \quad y \ge 0\]


$Y = |X|$는 절댓값을 취하면서 음의 부분이 양으로 매핑되기 때문에, 같은 $y$ 값을 만드는 두 개의 $x$의 밀도를 더해주어야 하며, 이 경우엔 even function의 성질 때문에 단순히 2배가 됩니다.
또한 $Y < 0$인 구간에서는 확률 밀도가 0이므로 최종 $f_Y(y)$는 다음과 같이 표현할 수 있습니다.

\[f_Y(y) = \begin{cases} \displaystyle \frac{2}{\sqrt{2\pi}} e^{-y^2/2} & y \ge 0 \\ 0 & y < 0 \end{cases}\]


Conclusion

이번 시간에는 univariate transformation에 대해 알아보았습니다. 확률 변수가 discrete인 경우와 continuous인 경우에 transformation을 하는 방법이 조금 다르니, 구분하여 기억하시길 바랍니다. 또한 아래에 제공된 연습 문제를 꼭 풀어보시길 바랍니다.
이번 시간에 다룬 것이 단변수 변환법입니다. 그렇다면 변수가 여러 개인 경우도 존재하겠죠? 다음 시간에 다뤄보겠습니다. 이번 강의는 여기서 마치겠습니다.

Practice

Q1. 확률 변수 $X$는 다음과 같은 확률 질량 함수(PMF)를 가진다.

$x$$-2$$-1$$0$$1$$2$
$P(X = x)$$0.1$$0.3$$0.4$$0.1$$0.1$

확률 변수 $Y = X^2$로 정의할 때, $f_Y(y)$를 구하시오.

Q2. 확률 변수 $X \sim \mathcal{N}(0, 1)$일 때, $Y = X^2$로 정의하자. 이때 확률 밀도 함수 $f_Y(y)$를 구하시오.
Q3. 확률 변수 $X$의 누적분포함수(CDF) $F_X(x)$는 연속이고 단조 증가(monotonically increasing)한다고 하자. 확률 변수 $Y = F_X(x)$로 정의할 때, $Y \sim \mathrm{Unif}(0, 1)$임을 보이시오.

Answer

추후 업로드 예정

This post is licensed under CC BY 4.0 by the author.