자료의 기초 통계량 본문
** 통계량이란?
>통계량(statistics)은 표본으로 산출한 값으로, 기술통계량으로 표현함
> 통계량을 통해 데이터(표본이)가 갖는 특성을 이해할 수 있음
** 중심경향치
> 표본(데이터)를 이해하기 위해서는 표본의 중심에 대해서 관심을 갖기 떄문에 표본의 중심을 설명하는 값을 대표값이라고 하며, 이를 중심경향치라고 한다.
> 대표적으로는 중심 경향치는 평균, 중앙값, 최빈값, 절사 평균 등이 있음
* 평균 ( mean )
* 평균은 모집단으로 부터 관측된 N개의 x가 주어 졌을때 아래와 같이 정의됨
* 평균은 포본으로 추출된 표본 평균(sample mean, _x으로 표기)이라고 하며, 모집단의 평균을 모평균이라고 하며, u(뮤)라고 표기함.
* 수식 첨부
* 중앙값 ( median )
* 평균과 같이 자주 사용하는 값, 표본으로 부터 관측치를 크기순으로 나열 했을 때, 가운데 위치하는 값을 의미함
* 관측치가 홀수 일 경우 중앙에 취하는 값이고 짝수일 경우 가운데 두개의 값을 산술 평균한 값
* 이상치가 포함된 데이터에 대해서 많이 사용
* 수식 첨부 할 것
* 최빈값 ( mode )
* 관측치 중에서 가장 많이 관측되는 값
* 명목형 데이터에서 많이 사용
* 분포에 따른 시각화 그래프 첨부
* 산포도
> 데이터가 얼마나 흩어져 있는지 확인하는 측도
> 범위, 사분위수, 분산, 표준편차, 변동 계수 등이 있다
* 범위
> 데이터의 최대값과 최소값의 차이
* 사분위수 > 전체 데이터를 오름차순으로 정렬하여 4등분을 하였을 때, 첫 번째를 제 1사분위수(Q1) , 두 번째를 제 2사분위수(Q2) 세번째를 제3사분위수(Q3)라고 한다.
> 사분위수의 범위(interquartile range) : Q3 - Q1 > 이상치는 보통 Q1 - 1.5 IQR 이하 , Q3 + 1.5 IQR 범위 이상인 것들로 하고는 한다.
* 백분위수
> 전체 데이터를 오름차순으로 정렬하여 주어진 비율에 의해 등분한 값을 말한다.
> 제 p백분위수는 p%에 위치한 자료 값을 말한다.
> 데이터를 오름차수로 배열하고 자료가 n개가 있을 때, 제 (100*p) 분위수는 아래와 같다. ( 0< p < 1 )
1) np가 정수이면 , np 번째와 np + 1 번째 자료의 평균
2) np가 정수가 아니면, np보다 큰 최소의 정수를 m이라고 할 때 m번째 자료
* 분산 ( variance )
> 데이터의 분포가 얼마나 흩어져 있는지 알 수 있는 측도
> 데이터의 각각의 값들의 편차 제곱합으로 계산
> 수식
> (각각의 자료 - 평균 ) **2
* 표준 편차 ( standard deviation )
> 분산의 제곱근
> 수식
* 모평균과 모분산 모표준편차
> 표본은 n-1 로 나누고 , 모집단은 n으로 나눈다
> 그 이유는? 이 블로그에 교수님께 들었던 설명같은 것이 잘 정리되어 있다.
1. 과소추정된 표본집단의 분산의 과소추정량을 극복하기 위해 n-1 , 분모를 줄여준다. 그만큼 값이 커진다.
2. 일반적인 자유도 설정의 개념에 따라 샘플링을 위해 사용한 파라미터의 수 를 전체 독립적인 parameter의 개수에서 빼주어야 한다. 모집단고 표본집단의 차이도 일종으로 보기 때문에 -1
3. 수학적으로 표본집단 N-1 해도 ~ 모집단의 분산으로 유도된다.
https://m.blog.naver.com/sw4r/221021838997
* 변동계수 ( coefficient of variance : CV )
> 평균이 다른 두개 이상의 그룹의 표준편차를 비교할 때 사용함
( 두 집단의 평균과 분산의 분포량이 달라서 .. 예를들어 1부터 100까지 있는 그룹과 1부터 1000까지 있는 그룹 )
> 표준편차를 평균으로 나누어서 산출, 단위나 조건에 상관 없이 서로 다른 그룹의 산포를 비교하며 , 실제 분석에서 많이 사용
> 수식
** 분포
* 정규 분포 모양
> 좌 우가 대칭인 종 모양임
> 그러나 평균(중심에 따라서 좌 우로 이동)과 분산(분산이 작으면 몰려 있으니 가운데가 뾰족! )에 따라서 모양이 달라진다
** 왜도와 첨도
> 위의 상황을 조금 머리에 그린 후
* 왜도 (skew)
> 자료의 분포가 얼마나 비대칭적인지 표현하는 지표
> 왜도가 0이면 좌우가 대칭 ( 비대칭 없음 )
> 0에서 클 경우 우측 꼬리가 길다. -> positive skew
> 0에서 작을수록 좌측 꼬리가 길다 . -> negative skew
> 이미지 첨부
* 첨도 ( kurtosis )
> 확률분포의 꼬리가 두꺼운 정도를 나타내는 척도
> kurtosis > 3 일 경우 정규분포보다 꼬리가 두꺼운 분포
> kurtosis = 3 일 경우 정규분포의 가까운 산포
> kurtosis < 3 일 경우 정규분포보다 꼬리가 얇은 분포
> 첨도가 클수록 당연히 뾰족하다
> 이미지 첨부
'BF 2024 > 통계' 카테고리의 다른 글
이산형 확률 분포 ( 균등, 베르누이, 이항, 포아송, 기하, 음이항 분포 ) (0) | 2022.02.14 |
---|---|
확률과 변수 (0) | 2022.02.13 |
확률 (0) | 2022.02.13 |
데이터 이해와 기본적인 시각화 종류 (0) | 2022.02.11 |
INTRO (0) | 2022.02.11 |