확률과 변수

jaegom's study room

확률과 변수 본문

BF 2024/통계

확률과 변수

jaegomhoji 2022. 2. 13. 04:18

************************************************************************************************************

INDEX

** 확률 ( 기대값, 분산 , 공분산 )

** 확률 분포

************************************************************************************************************

** 확률 ( 기대값, 분산 , 공분산 )

* 확률 변수란?

> random variable, 표본공간에서 각 사건에 실수를 대응시키는 함수

> 확률 변수 값은 하나의 사건에 대해서 하나의 값을 가지며, 실험 결과에 의해서 변한다

> 일반적으로 확률 변수는 대문자로 표현하며, 확률 변수의 특정 값을 소문자로 표현한다

> 확률 변수 : X, Y

> 확률 변수의 특정 값 : x, y

> 이산 확률 변수 discrete random variable : 셀 수 있는 값들로(이산) 구성되거나 일정 범위로 나타나는 경우

> 연속 확률 변수 conitnuous random variable : 연속형 또는 무한대와 같이 셀 수 없는 경우

* 기대값 과 확률 변수의 평균

> ( 관측치와 관측확률의 곱 )의 합

> E(X) = summation(i=1 ~ n) xi*P(xi) + .... xn*P(xn)

* 분산의 성질

> ( 관측치와 관측 평균의 편차 ) 에 대한 평균

* 공분산

> 선형 관계에 따라서 두개 변수의 분포가 어떤가? 계산

> 기존 확통의 분산의 의미를 따라가보자

> 각각의 자료는 -> X 중간에서부터( 평균 -> 기대값 ) 얼마나 떨어져 있는가 -> E[X-E(X)] 자료 편차의 기대값

> 즉 x와 y의 공통된 편차 ( 곱함으로써 )의 평균(d.o.f -> n-1 ) 이다.

> 다만 E(X)는 "X" 는 값의 편차가 심할 수 있고, 이로 인해 공분산으로 편차를 판단할 경우 더욱 문제가 생긴다.

> 실제로는 상관이 있는 두 변수나 사건이지만, 관측치의 단위 문제로 인하여 기대값 자체가 낮아지며, 공분산을 산출하였을때 매우 낮아보이는 일이 일어날 수 있다는 것이다.

> 예를들어(출처블로그 예시), 점수가 낮은 어떤 두 과목은 10점으로 점수가 매우 낮지만, 두 과목은 연계과목이라고 하자. 반면 점수가 높은 어떤 두 과목은 100점을 받았지만 어떤 관계도 없다. 이럴 경우 실제로 공분산은 100점을 받은 두 과목이 매우 높게 산출되어 눈에 띄겠지만, 실질적으로 점수 증감에 대한 공분산이 시사하는 점은 없다. 반면, 점수가 낮은 두 과목은 공분산 자체가 매우 작게 나와, 유의미한 시사점을 간과하고 지나갈 수 있다.

> 따라서 관측치의 단위간 편차를 극복하여 두 변수간 유의미한 관계를 포착하기 위해서 상관계수 ( 0< |cor| <1 )를 산출한다.

우측 그림 출처 : https://destrudo.tistory.com/15

** 확률 분포

> 확률변수 x가 취할 수 있는 모든 값과 그 값을 나타날 확률을 표현한 함수

> 이산형 확률 분포와 연속형 확률 분포로 분류할 수 있다.

저작자표시 비영리 변경금지 (새창열림)

'BF 2024 > 통계' 카테고리의 다른 글

연속형 확률분포 (0)	2022.02.14
이산형 확률 분포 ( 균등, 베르누이, 이항, 포아송, 기하, 음이항 분포 ) (0)	2022.02.14
확률 (0)	2022.02.13
자료의 기초 통계량 (0)	2022.02.11
데이터 이해와 기본적인 시각화 종류 (0)	2022.02.11

'BF 2024/통계' 관련글

Comments

jaegom's study room

jaegom's study room

확률과 변수 본문

확률과 변수

'BF 2024 > 통계' 카테고리의 다른 글

티스토리툴바