[Probabilistics] 확률 이론(3강) - Random Variable & Cumulative Distribution Function
Random Variable의 정의와 cdf의 개념을 이해할 수 있습니다.
- 수식이 제대로 보이지 않는다면, 새로고침(F5)을 해주시기 바랍니다.
지난 시간까지는 확률에 필요한 기초 개념과, 공리에 대해 알아보았습니다. 이번 시간부터 본격적인 내용을 다루게 되는데요, 이번 글에서는 앞으로의 모든 확률론 강의 글에 등장할 Random Variable에 대해 다룰 것입니다. variable이란 명칭이 포함되어 있으니, 어떤 변수처럼 느껴질 수 있지만 random variable을 코딩에서의 변수정도로 생각하시면 혼란을 겪으실 수 있습니다. Random Variable의 정의를 정확히 이해한 후, 앞으로의 진도를 이어가시기 바랍니다.
Random Variable
Definition
Random Variable은 주로 기호 $X$, $Y$, $Z$ 등의 대문자를 이용해서 표기합니다. Random Variable의 정의는 다음과 같습니다.
즉, random variable X는 $X:\Omega\to \mathbb{R}$인 함수입니다. (변수가 아닙니다!)
이것만으로는 감을 잡기가 어려우실 것 같으니 예를 들어보겠습니다.
Example 1
동전을 2개 던지는 상황을 가정해보겠습니다. 동전의 앞면을 Head라고 부르고, 뒷면을 Tail이라고 부르기 때문에 줄여서 $H$와 $T$로 표현하겠습니다.
동전을 2개 던진다면 다음 4가지의 경우의 수가 존재합니다. $\Omega=\{HH,HT,TH,TT\}$
$X$를 두 개의 동전을 던졌을 때 앞면이 나오는 동전의 개수라고 하겠습니다. 그러면 $X=1$을 만족하는 outcome들의 집합은 $\{HT,TH\}$가 됩니다.
Example 2
또 다른 예시를 들어보겠습니다. 보자기에 검정 바둑알($B$) 5개와 흰 바둑알($W$) 5개가 들어있다고 합시다. 눈을 감고 총 2개의 돌을 보자기에서 차례로 꺼내는 상황입니다.
이 때, $X$를 꺼낸 흰 바둑알의 개수라고 합시다. 그러면 가능한 $X$는 0, 1, 2일 것입니다. $X=0$일 때의 event set은 $\{BBB\}$입니다. $X=1$일 때의 event set은 $\{WBB,BWB,BBW\}$입니다.
이제 Random Variable에 대한 이해가 되셨을 것이라 생각합니다.
결국 random variable은 “sample space의 outcome을 real number로 mapping한 것”이라 생각하면 이해하기 쉽습니다.
그렇다면 random variable을 확률은 어떻게 정의되는지 알아보겠습니다.
이 식을 해석해보겠습니다. sample space에서 $X=x$가 되는 모든 결과들 $\omega$의 전체 확률의 합을 의미합니다.
쉬운 예시를 하나 들어서 설명해보겠습니다.
주사위 하나를 던질 때의 상황을 가정해보겠습니다. 그리고 확률 변수 $X(\omega)= $ $w$ $mod$ $2$라고 두겠습니다.
$X(1)=1$, $X(2)=0$, $X(3)=1$, $X(4)=0$, $X(5)=1$, $X(6)=0$가 됩니다.
그렇다면 $\mathbb{P}(X=0)$의 값은 얼마일까요? $X(\omega)= \omega$ $mod$ $2$를 만족하는 가능한 $\omega$의 집합은 $\{2,4,6\}$입니다. 따라서 $\mathbb{P}(X=0)=\frac{1}{2}$입니다.
Cumulative Distribution Function (cdf)
이번에는 누적 분포 함수(cdf)에 대해 알아보겠습니다. Cumulative Distribution Function을 줄여서 cdf라고 주로 부릅니다.
cdf의 정의는 다음과 같습니다.
cdf는 x가 증가함에 따라, 앞서 있었던 확률 값들을 누적한 값을 가지는 함수입니다. 이번에도 예를 들어 설명해보겠습니다.
이번에는 동전을 3개 던지는 상황을 가정하겠습니다. 그리고 확률 변수 $X$를 앞면을 관측한 횟수로 두겠습니다.
동전을 던졌을 때, 앞면이 나올 확률과 뒷면이 나올 확률은 각각 $\frac{1}{2}$입니다. (이건 다들 아시죠?)
3번 동전을 던졌을 때, 단 한 번도 앞면이 나오지 않았을 때, 즉 $\mathbb{P}(X=0)$의 확률은 $\frac{1}{8}$입니다.
그렇다면 1번 앞면이 나온 경우, 즉 $\mathbb{P}(X=1)$의 값은 얼마일까요? $\{HTT,THT,TTH\}$ 이렇게 세 가지의 경우의 수가 있으므로, $\mathbb{P}(X=1)=\frac{3}{8}$입니다. 그렇다면 $F_X(1)$의 값은 얼마일까요?
cdf의 정의 $F_X(x)=\mathbb{P}(X\le x)$에서 $x$에 1을 대입해보겠습니다. 그러면 $F_X(1)=\mathbb{P}(X\le 1)=\mathbb{P}(X=0)+\mathbb{P}(X=1)=\frac{1}{8}+\frac{3}{8}=\frac{1}{2}$가 됩니다.
이제 cdf가 어떤 함수인지 이해하셨을 것이라 생각합니다! 마지막으로 cdf가 만족하는 세 가지 조건을 알아보겠습니다.
Properties of cdf
- $\lim_{x \to -\infty } F_X(x)=0 $ and $\lim_{x \to \infty } F_X(x)=1$
- $F_X(x)$ is non-decreasing function of $x$
- $\lim_{x \downarrow x_0 } F_X(x)=F(x_0)$ $\forall x$ ($F_X(x)$ is right-continuous)
cdf는 0부터 시작해서 1까지의 값을 갖습니다. 확률을 누적합한 값을 나타내는 함수이므로 납득이 되실 겁니다.
또한 확률은 Kolmogorov Axiom에 따라 음수 값을 갖기 않기 때문에, cdf또한 non-decreasing 함수입니다.
세 번째 property의 표현이 다소 까다로워 보이지만, 이것도 굉장히 쉬운 의미를 갖습니다.
표기법에 대해 먼저 설명드리곘습니다. 고등학교 교육 과정과 달라 다소 낯선 표기일 수도 있는 $\lim_{x \downarrow x_0 } F_X(x)$ 이 표기는 사실 $\lim_{x \to x_0+ } F_X(x)$는 같은 의미의 식입니다. 표현이 다를 뿐입니다.
세 번째 성질을 쉽게 설명해드리자면, cdf는 항상 오른쪽 연속인 함수입니다. 다음 시간에 다루겠지만, random variable이 discrete하다면, cdf는 불연속 지점을 가지게 됩니다. 하지만 그래도 cdf는 오른쪽 연속입니다.
이 세 가지의 cdf의 성질은 매우 중요하기 때문에 반드시 기억하시길 바랍니다.
동전 3회를 던지는 예시에서 추가적인 설명을 하나 더 해보겠습니다.
cdf는 누적 분포 함수입니다. 그렇다면 $\mathbb{P}(X=1.5)$의 값은 얼마이며, $F_X(2)$의 값을 구할 때 $\mathbb{P}(X=1.5)$ 값도 더해진 것일까요?
$\mathbb{P}(X=1.5)=0$이 맞습니다. 왜냐하면 앞면이 1.5번 나올 수는 없기 때문이죠. 그렇다면 cdf의 값에도 어떠한 양수 값이 더해지면 안되겠죠?
Conclusion
오늘은 Random Variable과 Cumulative Distribution Function(CDF)에 대해 알아보았습니다. 각각의 정의를 꼭 기억하시고, 제가 설명드린 예시에 적용해보며 확률 변수에 익숙해지시길 바랍니다.
’ 또한 아래의 연습 문제를 꼭 풀어보시면서 오늘 배운 내용을 적용해보시길 바랍니다. 이번 글은 여기서 마치겠습니다.
Practice
- 동전을 3번 던지는 상황에서, 확률 변수 X를 앞면이 나오는 횟수로 하자. 이 때, 구간 $(-\infty ,\infty )$에 대하여 $F_X(x)$를 x에 대한 식으로 나타내고 그래프도 그리시오.
- 함수 $F(x) = \frac{1}{1 + e^{-x}}$가 실수 전체에 대해 정의된 누적 분포 함수(CDF)가 될 수 있는지 판단하시오.
