확률과 변수 본문
************************************************************************************************************
INDEX
** 확률 ( 기대값, 분산 , 공분산 )
** 확률 분포
************************************************************************************************************
** 확률 ( 기대값, 분산 , 공분산 )
* 확률 변수란?
> random variable, 표본공간에서 각 사건에 실수를 대응시키는 함수
> 확률 변수 값은 하나의 사건에 대해서 하나의 값을 가지며, 실험 결과에 의해서 변한다
> 일반적으로 확률 변수는 대문자로 표현하며, 확률 변수의 특정 값을 소문자로 표현한다
> 확률 변수 : X, Y
> 확률 변수의 특정 값 : x, y
> 이산 확률 변수 discrete random variable : 셀 수 있는 값들로(이산) 구성되거나 일정 범위로 나타나는 경우
> 연속 확률 변수 conitnuous random variable : 연속형 또는 무한대와 같이 셀 수 없는 경우
* 기대값 과 확률 변수의 평균
> ( 관측치와 관측확률의 곱 )의 합
> E(X) = summation(i=1 ~ n) xi*P(xi) + .... xn*P(xn)
* 분산의 성질
> ( 관측치와 관측 평균의 편차 ) 에 대한 평균
* 공분산
> 선형 관계에 따라서 두개 변수의 분포가 어떤가? 계산
> 기존 확통의 분산의 의미를 따라가보자
> 각각의 자료는 -> X 중간에서부터( 평균 -> 기대값 ) 얼마나 떨어져 있는가 -> E[X-E(X)] 자료 편차의 기대값
> 즉 x와 y의 공통된 편차 ( 곱함으로써 )의 평균(d.o.f -> n-1 ) 이다.
> 다만 E(X)는 "X" 는 값의 편차가 심할 수 있고, 이로 인해 공분산으로 편차를 판단할 경우 더욱 문제가 생긴다.
> 실제로는 상관이 있는 두 변수나 사건이지만, 관측치의 단위 문제로 인하여 기대값 자체가 낮아지며, 공분산을 산출하였을때 매우 낮아보이는 일이 일어날 수 있다는 것이다.
> 예를들어(출처블로그 예시), 점수가 낮은 어떤 두 과목은 10점으로 점수가 매우 낮지만, 두 과목은 연계과목이라고 하자. 반면 점수가 높은 어떤 두 과목은 100점을 받았지만 어떤 관계도 없다. 이럴 경우 실제로 공분산은 100점을 받은 두 과목이 매우 높게 산출되어 눈에 띄겠지만, 실질적으로 점수 증감에 대한 공분산이 시사하는 점은 없다. 반면, 점수가 낮은 두 과목은 공분산 자체가 매우 작게 나와, 유의미한 시사점을 간과하고 지나갈 수 있다.
> 따라서 관측치의 단위간 편차를 극복하여 두 변수간 유의미한 관계를 포착하기 위해서 상관계수 ( 0< |cor| <1 )를 산출한다.
** 확률 분포
> 확률변수 x가 취할 수 있는 모든 값과 그 값을 나타날 확률을 표현한 함수
> 이산형 확률 분포와 연속형 확률 분포로 분류할 수 있다.
'BF 2024 > 통계' 카테고리의 다른 글
연속형 확률분포 (0) | 2022.02.14 |
---|---|
이산형 확률 분포 ( 균등, 베르누이, 이항, 포아송, 기하, 음이항 분포 ) (0) | 2022.02.14 |
확률 (0) | 2022.02.13 |
자료의 기초 통계량 (0) | 2022.02.11 |
데이터 이해와 기본적인 시각화 종류 (0) | 2022.02.11 |