본문 바로가기

상관관계 본문

BF 2024/통계

상관관계

jaegomhoji 2022. 2. 15. 18:11

** 상관관계 ( correlation coefficient ) 

> 두 변수간의 함수 관계가 선형적인 관계가 있는지 파악할 수 있는 측도, 상관계수 

1) 상관계수 -1 =< p <= 1

2) 상관계수가 1에 가까울 수록 강한 양의 상관관계이다

3) 상관계수가 -1에 가까울 수록 강한 음의 상관관계이다

4) 상관계수가 0에 가까울수록 두 변수 간의 상관관계가 약하다는 것 

5) 상관계수가 0이라는 것은 두 변수간의 상관관계가 나타나지 않는다는 것이다

 

** 해석에 있어서 주의할 점! 

> 상관계수는 두 변수간 상관관계에 대한 수치일 뿐이다. 실제 그 둘의 상관관계도 그렇다고 확신할 수는 없다. 

 

** 공분산의 경우 (데이터를 - 기대값) / n-1으로 나누어 주어, 단위에 따라 편차가 심했을 수 있지만 

상관관계의 경우 공분산을 다시 두 변수의 표준편차로 나누어 주어 편차를 normalization 하는 효과가 있다 

 

** 표본 상관관계 ( sample correlation coefficient ) , 변수 타입에 맞게 상관계수를 산출해야 한다 

* 모수적 상관관계 ( 피어슨 ) .. 모피어스 

* 비모수적 상관관계 ( 스피어만 , 켄달의 타우) ...비모스피어만로 외웠었다 

 

** 모수적 상관관계 - 연속형과 연속형 척도의 변수로 정규분포로 구할 수 있는 선형관계이다. -> 변수가 정규분포(정규성)충족해야한다!!

* 피어슨 상관계수 ( 등간척도나 비율척도의 자료형, 공분산을 각각의 표준편차로 나눈다 ) 와 검정통계량 

 

* 상관계수 구하기 

> 평균과 표준편차를 구하고 R_xy 시그마로 r값을 구한다.

> 이후 검정통계량 수식의 R과 N(자유도, 샘플 수 - 변수param의 수 )에 대입하여 t분포로 값을 구한다

* 가설 수립 : H0 : p = 0 vs H1: p != 0 

> 귀무가설: 두 변수간의 상관관계가 없다 , 연구가설 : 두 변수간의 상관관계가 존재한다 

 

* 다양한 상황에서의 상관계수에 따른 산점도

출처 : https://nittaku.tistory.com/456

> "상관계수는 두 변수간 선형적 관계를 수치로 표현한 것으로서 " 선형관계에 가까울 수록 1이다. 산포되어있으면 수치가 낮다

 > 맨 밑의 다양한 도표처럼 상관계수는 0(상관관계가 없다)이고 변수간 독립관계가 아닌 경우도 있다

 

* 비모수적 상관관계 ( 스피어만 , 켄달의 타우) 

* 스피어만 상관계수 

> 단순 증감에 대한 상관관계 정도를 파악할 수 있다.

> 비정규적인 관계인 만큼, 순위정보에 대한 통계적 의존성에 대해서만 정보를 준다. 순서정보(서열척도)를 분석하는데 사용. 

> 다만 선형적 관계를 파악하지는 못한다.

> 연속형 자료에 이상치가 두드러질 경우 순위정보만을 이용할 때 사용할 수 있다, 또 자료가 너무 적을때도 활용 가능하다. 

 

* 두 변수 Xi Yi를 정렬하여 순위대로 Ri , Si 라고 하고 ,  순위 정보와 순위 평균, 표준편차 등 순위 자료 만을 피어슨 상관계수에 대입. 

* 순위 정보는 연속형 데이터보다 자료를 덜 포함하고 있기 때문에, 선형 관계가 약해도 둘다 증가하거나 감소하면 |rs는 = 1|에 가까워질 수 있다. 

 

 

* 켄달의 타우 

> 역시 비모수적 상관계수 산출 기법 

> 특정 자료의 두 변수간 순서쌍을 기준으로 순위 상관계수를 매기는 기법 

>  ( concordant pair - disconcordant pair ) / 1/2 { n*(n-1) }

> concordant pair + disconcordant pair = 1/2{ n*(n-1) } 개 ,

> 즉 cp - dcp / cp + dcp 로 표현할 수 있다

 

 

> xi < xj, yi < yj 또는 xi > xj, yi > yj가 성립하면 부합, xi < xj, yi > yj 또는 xi > xj, yi < yj면 비부합이라고 정의한다. 즉, x가 커질 때 y도 커지면 부합concordant, x가 커질 때 y가 작아지면 비부합discordant이라고 본다.

 

ex) 

              no1. no2. no3. no4. no5 

height.   1.      3.     2.     5.   4

weight.  1.      2.      4.     3.  5

 

모든 순서쌍, 그러니 무방향성 노드가 5개 있다고 생각하자. 1/2( n* n-1) 개의 순서쌍이 있다.

 

(n1 and n2 ) , (n1 and n3 ), ( n1 and n4 ), (n1 and n5 ) , ( n2 and n3 ), (n2 and n4 ) .......(n4 and n5 ) 를 각각 모두 비교한다.

 

> 구조상 데이터가 많이 부합할 수록 1에 가까운 수치가 나올 것이다. 

> 반면 비부합 순서쌍이 전부일 경우 -1에 가까운 수치가 나올 것이다. 

 

Comments