본문 바로가기

확률과 변수 본문

BF 2024/통계

확률과 변수

jaegomhoji 2022. 2. 13. 04:18

************************************************************************************************************

INDEX

** 확률 ( 기대값, 분산 , 공분산 )

** 확률 분포 

************************************************************************************************************

 

** 확률 ( 기대값, 분산 , 공분산 )

 

* 확률 변수란?

> random variable, 표본공간에서 각 사건에 실수를 대응시키는 함수 

> 확률 변수 값은 하나의 사건에 대해서 하나의 값을 가지며, 실험 결과에 의해서 변한다

> 일반적으로 확률 변수는 대문자로 표현하며, 확률 변수의 특정 값을 소문자로 표현한다 

 

> 확률 변수 : X, Y

> 확률 변수의 특정 값 : x, y 

> 이산 확률 변수 discrete random variable : 셀 수 있는 값들로(이산) 구성되거나 일정 범위로 나타나는 경우 

> 연속 확률 변수 conitnuous random variable : 연속형 또는 무한대와 같이 셀 수 없는 경우 

 

* 기대값 과 확률 변수의 평균  

> ( 관측치와 관측확률의 곱 )의 합 

> E(X) = summation(i=1 ~ n) xi*P(xi) + .... xn*P(xn) 

* 분산의 성질 

> ( 관측치와 관측 평균의 편차 ) 에 대한 평균 

 

* 공분산

> 선형 관계에 따라서 두개 변수의 분포가 어떤가? 계산

> 기존 확통의 분산의 의미를 따라가보자

> 각각의 자료는 -> X 중간에서부터( 평균 -> 기대값 )  얼마나 떨어져 있는가 -> E[X-E(X)] 자료 편차의 기대값 

>  즉 x와 y의 공통된 편차 ( 곱함으로써 )의 평균(d.o.f -> n-1 ) 이다. 

 

> 다만 E(X)는 "X" 는 값의 편차가 심할 수 있고, 이로 인해 공분산으로 편차를 판단할 경우 더욱 문제가 생긴다.

> 실제로는 상관이 있는 두 변수나 사건이지만, 관측치의 단위 문제로 인하여 기대값 자체가 낮아지며, 공분산을 산출하였을때 매우 낮아보이는 일이 일어날 수 있다는 것이다.

> 예를들어(출처블로그 예시), 점수가 낮은 어떤 두 과목은 10점으로 점수가 매우 낮지만, 두 과목은 연계과목이라고 하자. 반면 점수가 높은 어떤 두 과목은 100점을 받았지만 어떤 관계도 없다. 이럴 경우 실제로 공분산은 100점을 받은 두 과목이 매우 높게 산출되어 눈에 띄겠지만, 실질적으로 점수 증감에 대한 공분산이 시사하는 점은 없다. 반면, 점수가 낮은 두 과목은 공분산 자체가 매우 작게 나와, 유의미한 시사점을 간과하고 지나갈 수 있다.

 

> 따라서 관측치의 단위간 편차를 극복하여 두 변수간 유의미한 관계를 포착하기 위해서 상관계수 ( 0< |cor| <1 )를 산출한다.

 

우측 그림 출처 : https://destrudo.tistory.com/15 

 

 

** 확률 분포 

> 확률변수 x가 취할 수 있는 모든 값과 그 값을 나타날 확률을 표현한 함수

> 이산형 확률 분포와 연속형 확률 분포로 분류할 수 있다. 

Comments