[Probabilistics] 확률 이론(4강) - Discrete & Continuous한 random variable과 확률 분포 함수
Discrete Random Variable과 Continuous Random Variable을 구분할 수 있다. 또한 probability mass function과 probability density function을 이해할 수 있습니다.
- 수식이 제대로 보이지 않는다면, 새로고침(F5)을 해주시기 바랍니다.
지난 시간에는 Random Variable(r.v.)의 정의와 CDF에 대해 알아봤습니다. CDF를 설명하면서 random variable이 discrete할 때 CDF는 불연속인 지점을 가지게 된다는 설명을 드렸습니다. Random Variable은 discrete한 r.v.와 continuous r.v. 이렇게 두 가지의 종류가 있습니다. 각각 어떠한 의미인지를 지금부터 알아보겠습니다. 먼저 continuous random variable에 대해 알아보겠습니다.
Discrete V.S. Continuous
지난 시간(3강)에서 random variable은 $X:\Omega\to \mathbb{R}$인 함수라는 설명을 드렸습니다. 예시로 든 동전 던지기 상황에서 $X$를 앞면이 나온 횟수로 정했었던 것, 기억하시나요? 횟수는 0, 1, 2와 같은 정수값을 가지므로, $X$ 또한 이산적인 값을 갖게 됩니다. 즉, 확률 변수 $X$는 discrete합니다.
그러면 다른 예시를 보겠습니다. 확률 변수 $Y$를 사람의 키로 정해보겠습니다. 사람의 키는 170cm, 171cm처럼 정수값으로만 보는 것은 부자연스럽습니다. 실제로는 170.2cm, 170.25cm 등, 두 값 사이에 무한히 많은 값이 가능합니다. 170.012341234cm 등의 값도 존재하겠죠. 키를 나타내는 확률 변수 $Y$는 연속적이라고 할 수 있습니다. 이런 경우 확률 변수 $Y$는 continuous하다고 할 수 있습니다.
사실 제가 방금 드린 설명은 직관적으로 이해하기 쉬운 설명인데요, 교재에서 사용하는 수학적인 정의도 소개해드리겠습니다.
A random variable $X$ is discrete if $F_X(x)$ is a step function of $x$.
이 정의에 따르면 확률 변수 $X$의 구분은 cdf가 연속 함수인지, 계단 함수인지에 따라 결정됩니다.
$x$가 연속적인 값들을 표현한다면, 그것의 누적 분포 함수 역시 연속적인 분포를 띄게 됩니다. 반대로, $x$가 이산적인 값을 표현한다면 누적 분포 함수가 뚝뚝 끊겨서 표현될 것입니다. 따라서 이 때 cdf가 불연속적인 점을 가질 수 밖에 없게 되는 것입니다.
Probability Mass Function (pmf)
cdf 말고도 확률 변수와 관련된 또 다른 함수가 2가지가 있습니다. r.v.가 discrete인 경우에는 pmf, r.v.가 continuous인 경우에는 pdf라 불리는 함수입니다.
pmf를 번역하면 확률 질량 함수입니다. random variable $X$가 discrete할 때, 모든 $x$에 대하여 pmf는 다음과 같이 정의됩니다.
정의에 따르면 $p(x)$는 $X=x$일 때의 확률 값을 $x$에 대해 나타낸 함수입니다. 물론 당연히 확률이 $x$에 대해 표현하지 않아도 됩니다. (상수 함수)
주사위를 던지는 예시에 따르면, $p(1) = \mathbb{P}(X=1) = \frac{1}{2}$가 되는 것입니다.
r.v.가 continuous한 경우도 살펴보겠습니다.
Probability Density Function (pdf)
이번엔 확률 밀도 함수(pdf)에 대해 알아보겠습니다. 연속 확률 변수 $X$의 확률 분포를 설명하는 함수 $f$를 확률 밀도 함수(PDF)라고 하며, $F(x)$가 cdf일 때, 다음과 같은 관계를 가집니다.
$F(x)$가 $X$의 누적 분포 함수(CDF)일 때, $F(x)$가 미분 가능하다면 $f(x) = F’(x)$입니다.
또한 pdf는 반드시 다음 조건을 만족해야 합니다.
- $f(x)\ge 0 $ for all $x \in \mathbb{R}$
- $\int_{-\infty }^{\infty }f(x)dx=1$
마지막으로, 구간 $[a, b]$에서 $X$가 위치할 확률은 다음과 같이 주어집니다.
여기서 끝점 $a$, $b$를 포함하느냐 여부는 결과에 영향을 주지 않습니다. 왜냐하면 연속 확률 변수의 경우 특정 점에서의 확률이 항상 0이기 때문입니다.
굉장히 중요합니다. pmf일 경우에 $p(x) = \mathbb{P}(X=x)$는 확률 값을 가졌지만, pdf일 경우엔 $\mathbb{P}(X=x)=0$입니다.
pdf에 관한 예시도 하나 들어보겠습니다. X가 continuous random variable일 때, 다음 $f(x)$는 $x$의 pdf가 될 수 있습니다.
- $f(x)$는 모든 $x$에 대하여 $f(x)\ge 0$을 만족합니다.
- $\int_{-\infty }^{\infty }f(x)dx=\int_{0}^{1}f(x)dx=1$을 만족합니다. 구간 [0,1]을 제외한 $f(x)$값은 전부 0이기 때문입니다.
따라서 $f(x)$는 pdf의 성질을 만족합니다.
추가로, $f(x)$의 cdf를 구해보면 다음과 같습니다. $f(x) = F’(x)$를 이용하여 쉽게 구할 수 있습니다.
참고로 확률 분포 함수를 그냥 $f_X(x)$라고 자주 표기하니 참고바랍니다.
Conclusion
오늘은 random variable이 discrete 할 때와, continuous 할 때의 차이점, 그리고 각각의 확률 분포 함수가 pmf, pdf임을 알아보았습니다.
앞으로 pmf, pdf는 계속 사용할 것이기 때문에, 반드시 정의를 정확히 기억하시길 바랍니다.
Practice
Q1. 확률 변수 $X$가 $1$부터 어떤 자연수 $k$까지의 값을 가질 수 있고, 각 값 $x$에 대한 확률이 $\mathbb{P}(X = x) = \frac{x}{28}$로 주어진다고 할 때, 이 확률 질량 함수가 성립하도록 하는 $k$의 값을 구하시오.
Q2-Q5. X의 pdf가 다음과 같을 때 물음에 답하시오.
여기서 $\lambda > 0$은 양의 상수이다.
Q2. 이 함수가 확률 밀도 함수의 성질을 만족하는지 $\lambda$를 이용해 검증하시오.
Q3. $X$의 누적 분포 함수(CDF)를 구하시오.
Q4. $\mathbb{P}(a \leq X \leq b)$를 $a, b \geq 0$인 일반적인 식으로 구하시오.
Q5. $\lambda = 2$, $a = 0.5$, $b = 1$일 때의 확률 값을 계산하시오.
