본문 바로가기

자료의 기초 통계량 본문

BF 2024/통계

자료의 기초 통계량

jaegomhoji 2022. 2. 11. 18:08

** 통계량이란?

>통계량(statistics)은 표본으로 산출한 값으로, 기술통계량으로 표현함 

> 통계량을 통해 데이터(표본이)가 갖는 특성을 이해할 수 있음 

 

** 중심경향치 

> 표본(데이터)를 이해하기 위해서는 표본의 중심에 대해서 관심을 갖기 떄문에 표본의 중심을 설명하는 값을 대표값이라고 하며, 이를 중심경향치라고 한다. 

> 대표적으로는 중심 경향치는 평균, 중앙값, 최빈값, 절사 평균 등이 있음 

 

* 평균 ( mean ) 

* 평균은 모집단으로 부터 관측된 N개의 x가 주어 졌을때 아래와 같이 정의됨 

* 평균은 포본으로 추출된 표본 평균(sample mean, _x으로 표기)이라고 하며, 모집단의 평균을 모평균이라고 하며, u(뮤)라고 표기함.

 * 수식 첨부 

 

* 중앙값 ( median ) 

* 평균과 같이 자주 사용하는 값, 표본으로 부터 관측치를 크기순으로 나열 했을 때, 가운데 위치하는 값을 의미함 

* 관측치가 홀수 일 경우 중앙에 취하는 값이고 짝수일 경우 가운데 두개의 값을 산술 평균한 값 

* 이상치가 포함된 데이터에 대해서 많이 사용 

 * 수식 첨부 할 것 

 

* 최빈값 ( mode ) 

* 관측치 중에서 가장 많이 관측되는 값 

* 명목형 데이터에서 많이 사용 

* 분포에 따른 시각화 그래프 첨부 

 

* 산포도 

> 데이터가 얼마나 흩어져 있는지 확인하는 측도 

> 범위, 사분위수, 분산, 표준편차, 변동 계수 등이 있다

 

* 범위 

> 데이터의 최대값과 최소값의 차이 

 

* 사분위수 > 전체 데이터를 오름차순으로 정렬하여 4등분을 하였을 때, 첫 번째를 제 1사분위수(Q1) , 두 번째를 제 2사분위수(Q2) 세번째를 제3사분위수(Q3)라고 한다.

 

> 사분위수의 범위(interquartile range) : Q3 - Q1 > 이상치는 보통 Q1 - 1.5 IQR 이하 , Q3 + 1.5 IQR 범위 이상인 것들로 하고는 한다.

 

* 백분위수 

> 전체 데이터를 오름차순으로 정렬하여 주어진 비율에 의해 등분한 값을 말한다. 

> 제 p백분위수는 p%에 위치한 자료 값을 말한다. 

 

> 데이터를 오름차수로 배열하고 자료가 n개가 있을 때, 제 (100*p) 분위수는 아래와 같다. ( 0< p < 1 ) 

1) np가 정수이면 , np 번째와 np + 1 번째 자료의 평균 

2) np가 정수가 아니면, np보다 큰 최소의 정수를 m이라고 할 때 m번째 자료 

 

 

* 분산 ( variance ) 

> 데이터의 분포가 얼마나 흩어져 있는지 알 수 있는 측도 

> 데이터의 각각의 값들의 편차 제곱합으로 계산 

> 수식

> (각각의 자료 - 평균 ) **2 

 

* 표준 편차 ( standard deviation ) 

> 분산의 제곱근 

> 수식 

 

* 모평균과 모분산 모표준편차 

 

> 표본은 n-1 로 나누고 , 모집단은 n으로 나눈다 

 

> 그 이유는?  이 블로그에 교수님께 들었던 설명같은 것이 잘 정리되어 있다. 

1. 과소추정된 표본집단의 분산의 과소추정량을 극복하기 위해 n-1 , 분모를 줄여준다. 그만큼 값이 커진다. 

2. 일반적인 자유도 설정의 개념에 따라 샘플링을 위해 사용한 파라미터의 수 를 전체 독립적인 parameter의 개수에서 빼주어야 한다. 모집단고 표본집단의 차이도 일종으로 보기 때문에 -1  

3. 수학적으로 표본집단 N-1 해도 ~ 모집단의 분산으로 유도된다.  

https://m.blog.naver.com/sw4r/221021838997

 

* 변동계수 ( coefficient of variance : CV ) 

> 평균이 다른 두개 이상의 그룹의 표준편차를 비교할 때 사용함

( 두 집단의 평균과 분산의 분포량이 달라서 .. 예를들어 1부터 100까지 있는 그룹과 1부터 1000까지 있는 그룹 )

 

> 표준편차를 평균으로 나누어서 산출, 단위나 조건에 상관 없이 서로 다른 그룹의 산포를 비교하며 , 실제 분석에서 많이 사용 

> 수식 

 

** 분포 

* 정규 분포 모양 

> 좌 우가 대칭인 종 모양임 

> 그러나 평균(중심에 따라서 좌 우로 이동)과 분산(분산이 작으면 몰려 있으니 가운데가 뾰족! )에 따라서 모양이 달라진다 

 

** 왜도와 첨도 

> 위의 상황을 조금 머리에 그린 후 

* 왜도 (skew) 

> 자료의 분포가 얼마나 비대칭적인지 표현하는 지표 

> 왜도가 0이면 좌우가 대칭 ( 비대칭 없음 )

> 0에서 클 경우 우측 꼬리가 길다.    -> positive skew

> 0에서 작을수록 좌측 꼬리가 길다 . -> negative skew 

> 이미지 첨부 

 

* 첨도 ( kurtosis ) 

> 확률분포의 꼬리가 두꺼운 정도를 나타내는 척도 

> kurtosis > 3 일 경우 정규분포보다 꼬리가 두꺼운 분포

> kurtosis = 3 일 경우 정규분포의 가까운 산포 

> kurtosis < 3 일 경우 정규분포보다 꼬리가 얇은 분포 

> 첨도가 클수록 당연히 뾰족하다 

 

> 이미지 첨부  

'BF 2024 > 통계' 카테고리의 다른 글

이산형 확률 분포 ( 균등, 베르누이, 이항, 포아송, 기하, 음이항 분포 )  (0) 2022.02.14
확률과 변수  (0) 2022.02.13
확률  (0) 2022.02.13
데이터 이해와 기본적인 시각화 종류  (0) 2022.02.11
INTRO  (0) 2022.02.11
Comments