모집단과 표본 분포 본문
************************************************************************************************************
INDEX
< 모집단과 표본 >
** 모집단과 표본이란?
** 표본 추출 ( sampling ) 이란
** 표본 추출 기법 ( 사회과학 표집 x )
** 통계량과 통계 분포
** 카이제곱 분포
** 자유도
** T-분포
** F-분포
************************************************************************************************************
< 모집단과 표본 >
** 모집단과 표본이란?
* 모집단 ( Population )
> 표본을 통해 예측하고자 하는 전체 집단
* 표본 ( Sample )
> 전수조사의 불가능으로 인하여 모집단의 일부를 추출한 것
** 표본 추출
* 표본 추출이란?
> 모집단으로 부터 표본을 추출하는 것. 표본으로부터 어떤 특성을 찾아내어 모집단의 특성을 추론하고자 함 (추정)
** 추출 방법 분류
* 복원 추출 ( Sampling with replacement )
> 모집단에서 데이터를 추출할 때 하나를 추출하고 다시 넣고 추출하는 방법으로 동일한 표본이 추출될 수 있음
* 비복원 추출 ( Sampling without replacement )
> 모집단에서 데이터를 추출할 때 하나를 추출하고 다시 넣지 않고 추출하는 방법
* 임의 추출 ( Random sampling )
> 모집단에서 데이터를 추출할 때 주의할 점은 편향되지 않는 것, 각 개체가 모두 동일한 확률로 추출된다. 타당성 측면의 확보.
* 이외에도 계통 추출 군집 추출 눈덩이 표집 등..
** 샘플링 기법에 대해
* 불균형 데이터 ( Imbalanced Data ) 의 문제
> 불균형 데이터일 경우 문제가 생긴다
> 예측 대상이 전체 대비 아주 낮을 때.. ( 신용 평가 모형 개발, 제조 불량 예측 )
> 이때 Sampling 기법 , 모델링으로 성능 개선을 하기도 한다
** 관심 대상의 비율이 전체 자료에 비해 현저히 낮을 경우
* Over sampling ( 관심 대상을 전체 데이터 만큼 늘린다 )
> 관심 대상인 표적 데이터를 전체 클래스의 비율만큼 증가하여 오버 샘플링 한다.
> 외적 타당성 저하로 인하여 과적합( 전체 자료를 일정 절삭했기에, 학습되지 않은 자료는 제대로 맞추지 못함 ) 문제 발생 가능
* Under sampling ( 전체 데이터를 관심 자료만큼 줄인다 )
> 전체 데이터의 클래스 수를 관심 대상의 클래스 비율만큼 감소 시킨다
> bias 문제(표적 데이터 셋에 포커싱 된 모델이 학습되고)와 모형 성능 저하(변별력 없는 데이터만 학습됨) 가능
** 통계량 ( Statistic )
> 표본에 기초하여 계산되는 수치 함수
> X인 모집단의 통계량은 X로 표현,
> 해당 모집단에서 추출한 표본의 통계량은 "X바" 로 표현한다
> 따라서 위의 식은 표본 집단의 표본 평균과 분산이다
* 표본 분포 ( Sampling distribution )
> 통계량들이 이루는 분포를 표본 분포라고 함
> 다음은 표본 집단의 정규 분포와 표준 정규 분포에 대한 예시
* 표본 평균 X바의 ( sample mean ) , 기대값, 분산
** 중심극한 정리 ( central limit theorem )
** 카이제곱 분포 ( Chi-square distribution )
> 카이제곱 분포란 ( 독립성/적합도 검정, 범주, 분산 분석 등에서 통계량 활용 )
> 확률변수 Z1**2, Z2**2 ... Z**n이 표준 정규 분포를 따른다면, Z~chisq(n-1) 은 카이제곱 분포를 따를때
> E[X] = v , Var[X] = 2v
> 대표적인 positive-skewed 분포, k = 자유도가 증가함에 따라 완만해짐
** 자유도 ( degree of freedom )
> 표본수 - 제약조건의 수 또는 표본수 - 추정해야 하는 모수 이며 일반적으로는 n-1을 사용한다
ex) 1~5까지 숫자를 비복원 추출하는 상황, 1부터 4까지 정해지면 나머지 숫자 5는 정해진 것이 나온다. -> n-1
> 위의 그림처럼 카이제곱 분포는 자유도의 크기에 따라 모양이 달라진다. 자유도가 커질수록 분포가 좌우 대칭형태로 된다.
> 카이제곱 분포 역시 자유도 증가 v >= 30 일때 표준정규 분포에 근사하여, 확률 역시 정규분포 근사로 구할 수 있다.
** T-분포 ( t-distribution )
> 그 유명한 기네스의 스튜던트 테스트에서 활용하는 분포
> n >= 30시 표준정규분포에 근사
> n < 30일 경우 정규분포에 비해 첨도가 낮으며 , 완만하게 퍼져있는 형태이다.
* t 분포표
> t >= 이라서 ~보다 클 확률임 ( 그림 참고 )
> Z스코어 처럼 value(첫자리)와 value(둘째 자리) 가 아니라 , 자유도와 확률 q임
** F 분포
> Fisher's
> 서로 독립인 두 정규모집단의 분산 또는 표준편차들의 비율에 대한 통계적 추론, 분산분석 등에서 활용
> chi-sq 분포처럼 positive skewed 인 분포
> 분산 또는 표준편차에 대한 활용을 하는 것은 식을 보면 안다. F 분포의 식은 분자와 분모가 각각 모집단의 분산과 표본집단의 분산이니까
** F 분포표
'BF 2024 > 통계' 카테고리의 다른 글
가설검정 (0) | 2022.02.15 |
---|---|
추정 ( 개념, 점 추정과 구간 추정과 신뢰구간, 허용 오차와 표본 크기 ) (0) | 2022.02.15 |
확률 분포들 간의 관계 (0) | 2022.02.14 |
연속형 확률분포 (0) | 2022.02.14 |
이산형 확률 분포 ( 균등, 베르누이, 이항, 포아송, 기하, 음이항 분포 ) (0) | 2022.02.14 |