분산분석 ( ANOVA ) 본문
************************************************************************************************************
INDEX
** INTRO 와 실험계획에 대한 짤막한 내용
** 분산 분석 ( analysis of variance )
** 분산분석의 가설 설정
** One-way ANOVA , 일원배치 분산분석
** Two-way ANOVA , 이원배치 분산분석
************************************************************************************************************
** 킹치만 왜 평균차이 검정이 아닌 분산 분석을 할까?
> t-test는 두개의 모집단의 평균 차이를 검정, 그러나 여러번 비교하는데 t-test를 매번 사용할 수는 없다.
-> t-test를 반복 실행할 경우 오차 값들이 중첩되기 때문인데, 신뢰수준이 95% 보다 계속 낮아지게 된다.
-> 오차 a(알파) 값이 0.05 일 경우, 3번의 비교를 시행하면 1 - (1- 0.05)^3 , 0.143의 오차로 커져버린다.
************************************************************************************************************
** 실험계획에 대한 짤막한 내용
* 실험계획법 ( experimental design )
> 모집단의 특성에 대하여 추론하기 위해 특별한 목적성을 가지고 데이터를 수집하기 위한 실험 설계
* 반응 변수
> 관심의 대상이 되는 변수
* 요인 / 인자 ( Factor ) - 요인/인자에 따라서 실험 결과가 다르다
> 실험 환경 또는 조건을 구분하는 변수로 실험에 영향을 주는 변수
* 인자수준
> 인자가 취하는 개별 값 ( 처리 : treatment )
* 실험의 가정 ( 실험 계획법 )
반복의 원리 : 실험을 반복해서 실행해야 함
랜덤화의 원리 : 각 실험의 순서를 무작위로 해야 함
블록화의 원리 : 제어해야 할 변수가 있다면 인자에 영향을 받지 않도록 조건을 묶어서 실험해야 한다
* 왜 평균 차이 검증인데 분석~ 분산분석이라고 할까?
> 모집단의 평균들을 비교하기 위해서 특성값의 분산 또는 변동을 분석하는 방법
> 다른 분석 (실험)을 통해 얻은 편차의 제곱합을 활용하기 때문임
************************************************************************************************************
** 분산 분석이란? ( analysis of variance )
> 셋 이상의 모집단의 평균 차이를 검정
** 분산분석의 종류
* 일원배치 분산분석 : 한 가지 요인을 기준으로 집단간의 차이를 조사하는것 ex) 만족도 -> 가게 a,b,c
* 이원배치 분산분석 : 두 가지 요인을 기준으로 집단간의 차이를 조사하는것 ex) 만족도, 상권 -> 가게 a,b,c
* 다원배치 분산분석 : 세 가지 이상의 요인을 기준으로 집단간의 차이를 조사하는것 ex) 만족도, 상권, 담배판매 유무 -> 가게 a,b,c
* 분산분석의 기본 가정
1) 각 모집단은 정규분포를 따른다
2) 각 모집단은 동일한 분산을 갖는다
3) 각 표본은 독립적으로 추출되었다
** 분산분석의 가설 설정
* 가설
> H0 : u1 = u2 = u3 (각 집단의 평균은 동일하다 ) vs H1 : u1 != u2 or u2 != u3 or u1!=u3 ( 적어도 하나 이상의 평균이 같지 않다)
** 일원배치 분산분석
> 한 개의 반응 변수와 한 개의 독립 인자
> 반응 변수 ( 독립 변수 ) : 연속형 변수만 가능 -> 만족도
> 독립 인자 ( 독립 변수의 범주 ): 이산형 또는 범주형 변수만 가능하다 -> a 가게 , b가게, c가게
** 분석 결과 해석
> 검정 통계량 : F = MStr / MSE , 귀무가설 하에서 F의 관측값 f0
> 기각역 ( 유의수준 a ) : f0 >= Fa(k-1,n-k)이면 H0를 기각
> 유의확률(p값) : F~F( k-1, n-k)일 때, p 값 = P{F >= f0}이고, p값이 유의수준 a보다 작으면 H0를 기각
* 사후 검정
> 평균이 다르다는 사실 ( 가설 - 결과에 따라서 귀무가설을 기각했다고 하자 )은 알겠지만
> 그래서 어떤 처리 조건에서 평균 차이가 있는지 알고자 하려면 어떻게 하는가?
> 사후 검정이란 Post-Hoc test: 분산 분석의 세부 결과를 알고 싶을 때 시행한다.
> Bonferroni, scheffe, duncan, dunnett 등의 방법으로 사후 검정 가능
############### 사후 검정 포스트로 다시 다루겠음 ##############################
** Two-way ANOVA , 이원배치 분산분석
> 한 개의 반응 변수와 두 개의 독립 인자로 분석하는 방법
ex) 가게 브랜드 별로 상권을 변경하면서 만족도가 다른지 (브랜드,상권)
* 독립 인자는 일원배치 분산분석과 마찬가지로 이산형 또는 범주형 변수만 가능
* 교호작용 , 상호작용 효과 ( interaction effect ) : 한 독립변수의 main effect가 다른 독립변수의 level에 따라서 원래의 선형관계를 비선형관계로 바꾸는 경우
* 이원배치 분산분석의 가설 설정 ( 3가지를 세워야 한다 ).
> 첫 번째 main effect 가설 : H0 : U11 = U12 = ... = U1k (모든 평균이 같다) vs H1 : 적어도 하나 이상의 평균이 같지 않다 k=그룹수
> 첫 번째 main effect 가설 : H0 : U21 = U22 = ... = U2k (모든 평균이 같다) vs H1 : 적어도 하나 이상의 평균이 같지 않다
> 첫 번째 main effect 가설 : H0 교호 작용이 없다 vs H1 교호 작용이 있다
** 예제 mpg(연비)의 평균이 am(변속기 종류), cyl(실린더 종류)
가설 : 변속기 종류에 따라서 연비의 평균이 동일하다 vs 차이가 있다
실린더 종류에 따라서 연비의 평균이 동일하다 vs 차이가 있다
변속기 종류와 실린더 종류는 교호작용이 없다 vs 교호 작용이 일어났다
* 결과
> p값에 따라서 둘 다 차이가 있다
> 교호작용은 0.269로 없다