본문 바로가기

단순 회귀분석 본문

BF 2024/통계

단순 회귀분석

jaegomhoji 2022. 2. 15. 22:36

************************************************************************************************************

INDEX

** 회귀 분석 ( regression analysis ) 이란? 그리고 전체 관련 분석 방법의 갈래 

** 단순 회귀 분석

 

** 회귀 작동 방식 , 공식 유도 (전개 )

** 최소제곱법 method of least squares 과 OLS 

 

** 조건 (오차항의 정규성, 등분산성, 독립성(시계열 데이터는 durbin watson) , norm qqplot 시각화 )

** 가설설정 (귀무 가설 :  H0:B1 = 0 회귀식의 베타값은 유의하지 않다 , H0:B1 != 0 , 회귀식의 베타 값이 유의하다 )

** 결과 해석 ( SST, SSE, SSR, MSE, MSR, 분산분석 표 ) 

** 유의성 확인 

** 결정계수와 수정결정계수  

************************************************************************************************************

정말 많이 쓰이는 부분이니 개념과 활용 방법을 200% 숙지하여라 

 

 

 

독립변수 , independent variable : 종속 변수에 영향을 주는 변수로 설명변수라고 표현하기도 한다.

종속변수 , dependent variable : 다른 변수의 영향을 받는 변수로 반응변수라고도 하며, 예측하고자 하는 변수임. 

 

** 회귀분석이란?

 

 

‘어떤 자료에 대해서 그 값에 영향을 주는 조건을 고려하여 구한 평균’

 

 

> 변수들 간의 함수적 관계를 선형으로 추론하는 통계적 분석 방법으로 독립변수를 통해 종속 변수를 예측하는 방법

> 단순,다중회귀에서 독립변수와 종속 변수는 연속형이여야 한다. 

> 비선형인 함수적 관계일 경우 비선형 회귀를 사용 ( 마케팅 비용에 따른 매출액을 예측하고자 할때 )

 

 

** 회귀모델의 종류 

> Nc 단비 블로그 포스팅에서 전부 정리되어 있어서 가져옴 

> 각각에 대한 예제 습득 및 회귀분석 실습 시행할 것 

출처 : https://danbi-ncsoft.github.io/study/2018/05/04/study-regression_model_summary.html
출처 : https://danbi-ncsoft.github.io/study/2018/05/04/study-regression_model_summary.html

 

 

 

** 수업에서 다룬 기본적인 회귀모델  

> 하나의 독립변수로 종속변수를 예측하는 회귀모형 -> 단순회귀 ( 선형 / 비선형 )

수식, 그림 

> n개의 독립변수로 종속 변수를 예측하는 회귀모형 -> 다중회귀 ( 선형 / 비선형 ) 

수식, 그림 

> 종속 변수가 명목형이면서 binomial -> 로지스틱 이항 회귀분석

 

** 회귀분석의 베이스

 

** 단순회귀분석 

> 회귀선으로부터 각 관측치의 오차가 최소가 되는 선을 찾는 것이 핵심이다

> 오차를 최소로 하여 B0, B1을 추정하는 방법을 최소제곱법(method of least squares)라고 한다

 

 

 

> 회귀 모형의 오차((잔차분석)에 대해서 필요 조건들이 있다. ( 기본 가정 ) 

1) 정규성 : 오차항은 평균이 0인 정규 분포를 따른다 

2) 등분산성 : 오차항의 분산은 모든 관측값 Xi에 상관없이 일정하다

3) 독립성 : 모든 오차항은 서로 독립이다 

출처 : zb 회귀분석 강의 

 

** 최소제곱법  

> 회귀 모형의 모수 B0, B1을 추정하는 방법중 하나를 최소 제곱법이라고 한다, 회귀 모형의 모수를 회귀 계수라고 한다

> 최소제곱법을 통해 구한 추정량을 최소제곱추정량(LSE)라고 하며,

   최소제곱법을 통해 회귀모형의 모수를 추정하는 것을 OLS ( Ordinary Least Square )라고 한다. 

 

** 최소제곱법과 오차항 전개 

** 정해져야 할 회귀곡선의 y절편과 기울기 -> B0 과 B1에 대한 합성함수의 편미분 전개  

** 일반적인 Form 과 달라 보이지만, 일반적인 형태를 전개한 것과 같다. 상수를 잘 구분해서 전개해본다 

** 표기할때 Sxx Syy Sxy 형태로 표기하면 편하다\

 

** 결국 회귀곡선에서 오차항의 제곱값이 최소가 되는 기울기는, 오차항 제곱합의 변화율이 0인 지점, 즉 상수 B1에 대한 편미분값=0 이며, 

이는 Sxy / Sxx 로 표기할 수 있다. 

 

** 회귀식의 유의성 여부 판단하기 

> 추정된 회귀식에 대한 유의성 여부는 분산분석을 통해서 판단할 수 있다. 

 

 

** 분산분석표 

> 제곱합을 회귀항과 잔차항 각각의 자유도로 나눈 값을 평균제곱 ( mean sqaure)라고 한다 

** 회귀분석의 가설 설정과 결과 해석

* 가설 설정 

> 가설 수립  H0:B1 = 0 vs H1:B1 != 0 

> 검정 통계량 // t 분포를 따라간다 

> 기각역: |t| >= t분포의 신뢰구간a/2 * ( n-2) 이면 H0 기각할 수 있음 

 

* 결과 해석 

1) F 통계량의 유의성 확인 ( 분석방법에 따라서 대부분 1)or 2)가 결과표로 제시되고, 이에 대한 유의성 확인 ) 

2) 상수항 B 베타 값들이 t분포상 유의한지 p값을 확인 (<0.05 이면 H0를 기각한다. B1는 유의미하다 ) (H0을 기각하지 않으면 B1 = 0 이다 )

> B0( y절편)은 왜 표에 없느냐.. y절편은 출발선으로 이전의 값은 잘라지고 시작되는 값이기 때문이다. ( 그림의 y bar = f(x)인 지점 ) 

3) 결정계수 ( R squared ) 값 확인함으로써 설명력 확인

 

* 결정계수 ( coefficient of determination : R**2 )

추정된 회귀식이 얼마나 전체 데이터에 대해서 적합한지(설명력이 있는지)를 수치로 제공하는 값

>  0 < R**2 < 1 으로 1에 가까울수록 추정된 모형이 설명력이 높다 

>  0혹은 0에 가까울 경우 추정된 모형이 설명력이 전혀 없다는 것을 알 수 있다

 

하지만 설명력이 늘어나거나, 1에 가까운 경우 데이터에 대한 회귀식의 과도적합 등의 문제가 있어서 완전히 신뢰할 수는 없다

또,  R**2 값은 다중회귀에서는 유의하지 않은 변수가 추가되어도 항상 증가된다.

이에 따라 수정 결정 계수 adjust R**2 가 등장함.

 

** 수정 결정 계수 adjust R**2

> 특정 계수를 곱해 줌으로써 R**2값이 항상 증가하지 않도록 함 , 다중회귀 등에서 확인 

> 일반적으로는 보통 모형간 성능 비교를 할때 확인하면 됨 

 

 

 

'BF 2024 > 통계' 카테고리의 다른 글

분산분석 ( ANOVA )  (0) 2022.02.17
다중 회귀분석  (0) 2022.02.16
기본적인 통계분석의 갈래 , when what how  (0) 2022.02.15
범주형 자료 분석  (0) 2022.02.15
상관관계  (0) 2022.02.15
Comments