본문 바로가기

모집단과 표본 분포 본문

BF 2024/통계

모집단과 표본 분포

jaegomhoji 2022. 2. 15. 02:42

************************************************************************************************************

INDEX

< 모집단과 표본 > 

** 모집단과 표본이란? 

** 표본 추출 ( sampling ) 이란

** 표본 추출 기법 ( 사회과학 표집 x ) 

** 통계량과 통계 분포 

** 카이제곱 분포 

** 자유도  

** T-분포

** F-분포 

************************************************************************************************************

 

 

< 모집단과 표본 > 

 

** 모집단과 표본이란? 

* 모집단 ( Population ) 

> 표본을 통해 예측하고자 하는 전체 집단 

 

* 표본 ( Sample ) 

> 전수조사의 불가능으로 인하여 모집단의 일부를 추출한 것

 

** 표본 추출 

* 표본 추출이란?

> 모집단으로 부터 표본을 추출하는 것. 표본으로부터 어떤 특성을 찾아내어 모집단의 특성을 추론하고자 함 (추정)  

 

** 추출 방법 분류 

* 복원 추출 ( Sampling with replacement ) 

> 모집단에서 데이터를 추출할 때 하나를 추출하고 다시 넣고 추출하는 방법으로 동일한 표본이 추출될 수 있음 

 

* 비복원 추출 ( Sampling without replacement ) 

> 모집단에서 데이터를 추출할 때 하나를 추출하고 다시 넣지 않고 추출하는 방법 

 

* 임의 추출 ( Random sampling ) 

> 모집단에서 데이터를 추출할 때 주의할 점은 편향되지 않는 것, 각 개체가 모두 동일한 확률로 추출된다. 타당성 측면의 확보. 

 

* 이외에도 계통 추출 군집 추출 눈덩이 표집 등..

 

** 샘플링 기법에 대해 

* 불균형 데이터 ( Imbalanced Data ) 의 문제 

> 불균형 데이터일 경우 문제가 생긴다 

> 예측 대상이 전체 대비 아주 낮을 때.. ( 신용 평가 모형 개발, 제조 불량 예측 ) 

> 이때 Sampling 기법 , 모델링으로 성능 개선을 하기도 한다 

 

** 관심 대상의 비율이 전체 자료에 비해 현저히 낮을 경우 

* Over sampling ( 관심 대상을 전체 데이터 만큼 늘린다 ) 

> 관심 대상인 표적 데이터를 전체 클래스의 비율만큼 증가하여 오버 샘플링 한다. 

> 외적 타당성 저하로 인하여 과적합( 전체 자료를 일정 절삭했기에, 학습되지 않은 자료는 제대로 맞추지 못함 ) 문제 발생 가능 

 

* Under sampling ( 전체 데이터를 관심 자료만큼 줄인다 ) 

> 전체 데이터의 클래스 수를 관심 대상의 클래스 비율만큼 감소 시킨다

> bias 문제(표적 데이터 셋에 포커싱 된 모델이 학습되고)와 모형 성능 저하(변별력 없는 데이터만 학습됨) 가능 

 

** 통계량 ( Statistic )

> 표본에 기초하여 계산되는 수치 함수 

 

> X인 모집단의 통계량은 X로 표현,

> 해당 모집단에서 추출한 표본의 통계량은 "X바" 로 표현한다 

 

> 따라서 위의 식은 표본 집단의 표본 평균과 분산이다 

 

* 표본 분포 ( Sampling distribution )

> 통계량들이 이루는 분포를 표본 분포라고 함

> 다음은 표본 집단의 정규 분포와 표준 정규 분포에 대한 예시 

 

 

* 표본 평균 X바의 ( sample mean ) , 기대값, 분산 

** 중심극한 정리 ( central limit theorem )  

 

** 카이제곱 분포 ( Chi-square distribution ) 

> 카이제곱 분포란 ( 독립성/적합도 검정, 범주, 분산 분석 등에서 통계량 활용 ) 

> 확률변수 Z1**2, Z2**2 ... Z**n이 표준 정규 분포를 따른다면, Z~chisq(n-1) 은 카이제곱 분포를 따를때 

 

> E[X] = v , Var[X] = 2v 

> 대표적인 positive-skewed 분포, k = 자유도가 증가함에 따라 완만해짐  

https://t1.daumcdn.net/tistoryfile/fs12/35_tistory_2009_10_09_19_11_4acf0c6a8cd72??original

** 자유도 ( degree of freedom ) 

> 표본수 - 제약조건의 수 또는 표본수 - 추정해야 하는 모수 이며 일반적으로는 n-1을 사용한다 

ex) 1~5까지 숫자를 비복원 추출하는 상황, 1부터 4까지 정해지면 나머지 숫자 5는 정해진 것이 나온다. -> n-1 

> 위의 그림처럼 카이제곱 분포는 자유도의 크기에 따라 모양이 달라진다. 자유도가 커질수록 분포가 좌우 대칭형태로 된다. 

> 카이제곱 분포 역시 자유도 증가 v >= 30 일때 표준정규 분포에 근사하여, 확률 역시 정규분포 근사로 구할 수 있다. 

 

** T-분포 ( t-distribution )

> 그 유명한 기네스의 스튜던트 테스트에서 활용하는 분포

 > n >= 30시 표준정규분포에 근사 

> n < 30일 경우 정규분포에 비해 첨도가 낮으며 , 완만하게 퍼져있는 형태이다. 

https://math100.tistory.com/42 , https://kim-hjun.medium.com/students-t-분포-4ccf8a21334f

 

 

* t 분포표 

> t >= 이라서 ~보다 클 확률임 ( 그림 참고 )

> Z스코어 처럼 value(첫자리)와 value(둘째 자리) 가 아니라 , 자유도와 확률 q임 

 

https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&amp;blogId=da91love&amp;logNo=220453992909

 

** F 분포 

> Fisher's 

> 서로 독립인 두 정규모집단의 분산 또는 표준편차들의 비율에 대한 통계적 추론, 분산분석 등에서 활용 

> chi-sq 분포처럼 positive skewed 인 분포 

 

> 분산 또는 표준편차에 대한 활용을 하는 것은 식을 보면 안다. F 분포의 식은 분자와 분모가 각각 모집단의 분산과 표본집단의 분산이니까 

 

 

wiki&nbsp;

** F 분포표 

 

 

 

Comments