본문 바로가기

분산분석 ( ANOVA ) 본문

BF 2024/통계

분산분석 ( ANOVA )

jaegomhoji 2022. 2. 17. 03:52

************************************************************************************************************

INDEX

 

** INTRO 와 실험계획에 대한 짤막한 내용 

** 분산 분석 ( analysis of variance ) 

 

** 분산분석의 가설 설정

** One-way ANOVA , 일원배치 분산분석

** Two-way ANOVA , 이원배치 분산분석 

************************************************************************************************************

 

** 킹치만 왜 평균차이 검정이 아닌 분산 분석을 할까? 

> t-test는 두개의 모집단의 평균 차이를 검정, 그러나 여러번 비교하는데 t-test를 매번 사용할 수는 없다.

-> t-test를 반복 실행할 경우 오차 값들이 중첩되기 때문인데, 신뢰수준이 95% 보다 계속 낮아지게 된다. 

-> 오차 a(알파) 값이 0.05 일 경우,  3번의 비교를 시행하면 1 - (1- 0.05)^3  , 0.143의 오차로 커져버린다. 

 

 

************************************************************************************************************

** 실험계획에 대한 짤막한 내용  

* 실험계획법 ( experimental design )  

> 모집단의 특성에 대하여 추론하기 위해 특별한 목적성을 가지고 데이터를 수집하기 위한 실험 설계 

 

* 반응 변수 

> 관심의 대상이 되는 변수 

 

* 요인 / 인자 ( Factor ) - 요인/인자에 따라서 실험 결과가 다르다 

> 실험 환경 또는 조건을 구분하는 변수로 실험에 영향을 주는 변수

 

* 인자수준

> 인자가 취하는 개별 값 ( 처리 : treatment ) 

 

 

* 실험의 가정 ( 실험 계획법 ) 

반복의 원리 : 실험을 반복해서 실행해야 함

랜덤화의 원리 : 각 실험의 순서를 무작위로 해야 함

블록화의 원리 : 제어해야 할 변수가 있다면 인자에 영향을 받지 않도록 조건을 묶어서 실험해야 한다 

 

* 왜 평균 차이 검증인데 분석~ 분산분석이라고 할까?

> 모집단의 평균들을 비교하기 위해서 특성값의 분산 또는 변동을 분석하는 방법 

> 다른 분석 (실험)을 통해 얻은 편차의 제곱합을 활용하기 때문임

************************************************************************************************************

 

** 분산 분석이란? ( analysis of variance ) 

> 셋 이상의 모집단의 평균 차이를 검정

 

 

** 분산분석의 종류 

* 일원배치 분산분석 : 한 가지 요인을 기준으로 집단간의 차이를 조사하는것  ex) 만족도 -> 가게 a,b,c 

* 이원배치 분산분석 : 두 가지 요인을 기준으로 집단간의 차이를 조사하는것 ex) 만족도, 상권 -> 가게 a,b,c

* 다원배치 분산분석 : 세 가지 이상의 요인을 기준으로 집단간의 차이를 조사하는것  ex) 만족도, 상권, 담배판매 유무 -> 가게 a,b,c

 

* 분산분석의 기본 가정 

1) 각 모집단은 정규분포를 따른다 

2) 각 모집단은 동일한 분산을 갖는다 

3) 각 표본은 독립적으로 추출되었다 

 

** 분산분석의 가설 설정

* 가설 

> H0 : u1 = u2 = u3 (각 집단의 평균은 동일하다 ) vs H1 : u1 != u2 or u2 != u3 or u1!=u3 ( 적어도 하나 이상의 평균이 같지 않다)

 

** 일원배치 분산분석 

> 한 개의 반응 변수와 한 개의 독립 인자

> 반응 변수 ( 독립 변수 ) : 연속형 변수만 가능 -> 만족도 

> 독립 인자 ( 독립 변수의 범주 ): 이산형 또는 범주형 변수만 가능하다 -> a 가게 , b가게, c가게 

 

** 분석 결과 해석 

> 검정 통계량 : F = MStr / MSE , 귀무가설 하에서 F의 관측값 f0 

> 기각역 ( 유의수준 a ) : f0 >= Fa(k-1,n-k)이면 H0를 기각 

> 유의확률(p값) : F~F( k-1, n-k)일 때, p 값 = P{F >= f0}이고, p값이 유의수준 a보다 작으면 H0를 기각 

 

출처 : 제로베이스 강의 

* 사후 검정

> 평균이 다르다는 사실 ( 가설 - 결과에 따라서 귀무가설을 기각했다고 하자 )은 알겠지만

> 그래서 어떤 처리 조건에서 평균 차이가 있는지 알고자 하려면 어떻게 하는가?

> 사후 검정이란 Post-Hoc test: 분산 분석의 세부 결과를 알고 싶을 때 시행한다.

Bonferroni, scheffe, duncan, dunnett 등의 방법으로 사후 검정 가능 

 

############### 사후 검정 포스트로 다시 다루겠음 ##############################

 

** Two-way ANOVA , 이원배치 분산분석 

> 한 개의 반응 변수와 두 개의 독립 인자로 분석하는 방법

ex) 가게 브랜드 별로 상권을 변경하면서 만족도가 다른지 (브랜드,상권)

* 독립 인자는 일원배치 분산분석과 마찬가지로 이산형 또는 범주형 변수만 가능 

출처 : 제로베이스 강의 

* 교호작용 , 상호작용 효과 ( interaction effect ) : 한 독립변수의 main effect가 다른 독립변수의 level에 따라서 원래의 선형관계를 비선형관계로 바꾸는 경우

출처 : 제로베이스 강의 

 

* 이원배치 분산분석의 가설 설정 ( 3가지를 세워야 한다 ). 

> 첫 번째 main effect 가설 : H0 : U11 = U12 = ... = U1k (모든 평균이 같다) vs H1 : 적어도 하나 이상의 평균이 같지 않다 k=그룹수

 

> 첫 번째 main effect 가설 : H0 : U21 = U22 = ... = U2k (모든 평균이 같다) vs H1 : 적어도 하나 이상의 평균이 같지 않다

> 첫 번째 main effect 가설 : H0 교호 작용이 없다 vs H1 교호 작용이 있다 

 

** 예제 mpg(연비)의 평균이 am(변속기 종류), cyl(실린더 종류)

가설 : 변속기 종류에 따라서 연비의 평균이 동일하다 vs 차이가 있다 

          실린더 종류에 따라서 연비의 평균이 동일하다 vs 차이가 있다 

           변속기 종류와 실린더 종류는 교호작용이 없다 vs 교호 작용이 일어났다

 

 

 

* 결과 

> p값에 따라서 둘 다 차이가 있다 

> 교호작용은 0.269로 없다 

 

 

'BF 2024 > 통계' 카테고리의 다른 글

시계열 분석  (0) 2022.02.17
다중 회귀분석  (0) 2022.02.16
단순 회귀분석  (0) 2022.02.15
기본적인 통계분석의 갈래 , when what how  (0) 2022.02.15
범주형 자료 분석  (0) 2022.02.15
Comments