단순 회귀분석 본문
************************************************************************************************************
INDEX
** 회귀 분석 ( regression analysis ) 이란? 그리고 전체 관련 분석 방법의 갈래
** 단순 회귀 분석
** 회귀 작동 방식 , 공식 유도 (전개 )
** 최소제곱법 method of least squares 과 OLS
** 조건 (오차항의 정규성, 등분산성, 독립성(시계열 데이터는 durbin watson) , norm qqplot 시각화 )
** 가설설정 (귀무 가설 : H0:B1 = 0 회귀식의 베타값은 유의하지 않다 , H0:B1 != 0 , 회귀식의 베타 값이 유의하다 )
** 결과 해석 ( SST, SSE, SSR, MSE, MSR, 분산분석 표 )
** 유의성 확인
** 결정계수와 수정결정계수
************************************************************************************************************
정말 많이 쓰이는 부분이니 개념과 활용 방법을 200% 숙지하여라
독립변수 , independent variable : 종속 변수에 영향을 주는 변수로 설명변수라고 표현하기도 한다.
종속변수 , dependent variable : 다른 변수의 영향을 받는 변수로 반응변수라고도 하며, 예측하고자 하는 변수임.
** 회귀분석이란?
‘어떤 자료에 대해서 그 값에 영향을 주는 조건을 고려하여 구한 평균’
> 변수들 간의 함수적 관계를 선형으로 추론하는 통계적 분석 방법으로 독립변수를 통해 종속 변수를 예측하는 방법
> 단순,다중회귀에서 독립변수와 종속 변수는 연속형이여야 한다.
> 비선형인 함수적 관계일 경우 비선형 회귀를 사용 ( 마케팅 비용에 따른 매출액을 예측하고자 할때 )
** 회귀모델의 종류
> Nc 단비 블로그 포스팅에서 전부 정리되어 있어서 가져옴
> 각각에 대한 예제 습득 및 회귀분석 실습 시행할 것
** 수업에서 다룬 기본적인 회귀모델
> 하나의 독립변수로 종속변수를 예측하는 회귀모형 -> 단순회귀 ( 선형 / 비선형 )
수식, 그림
> n개의 독립변수로 종속 변수를 예측하는 회귀모형 -> 다중회귀 ( 선형 / 비선형 )
수식, 그림
> 종속 변수가 명목형이면서 binomial -> 로지스틱 이항 회귀분석
** 회귀분석의 베이스
** 단순회귀분석
> 회귀선으로부터 각 관측치의 오차가 최소가 되는 선을 찾는 것이 핵심이다
> 오차를 최소로 하여 B0, B1을 추정하는 방법을 최소제곱법(method of least squares)라고 한다
> 회귀 모형의 오차((잔차분석)에 대해서 필요 조건들이 있다. ( 기본 가정 )
1) 정규성 : 오차항은 평균이 0인 정규 분포를 따른다
2) 등분산성 : 오차항의 분산은 모든 관측값 Xi에 상관없이 일정하다
3) 독립성 : 모든 오차항은 서로 독립이다
** 최소제곱법
> 회귀 모형의 모수 B0, B1을 추정하는 방법중 하나를 최소 제곱법이라고 한다, 회귀 모형의 모수를 회귀 계수라고 한다
> 최소제곱법을 통해 구한 추정량을 최소제곱추정량(LSE)라고 하며,
최소제곱법을 통해 회귀모형의 모수를 추정하는 것을 OLS ( Ordinary Least Square )라고 한다.
** 최소제곱법과 오차항 전개
** 정해져야 할 회귀곡선의 y절편과 기울기 -> B0 과 B1에 대한 합성함수의 편미분 전개
** 일반적인 Form 과 달라 보이지만, 일반적인 형태를 전개한 것과 같다. 상수를 잘 구분해서 전개해본다
** 표기할때 Sxx Syy Sxy 형태로 표기하면 편하다\
** 결국 회귀곡선에서 오차항의 제곱값이 최소가 되는 기울기는, 오차항 제곱합의 변화율이 0인 지점, 즉 상수 B1에 대한 편미분값=0 이며,
이는 Sxy / Sxx 로 표기할 수 있다.
** 회귀식의 유의성 여부 판단하기
> 추정된 회귀식에 대한 유의성 여부는 분산분석을 통해서 판단할 수 있다.
** 분산분석표
> 제곱합을 회귀항과 잔차항 각각의 자유도로 나눈 값을 평균제곱 ( mean sqaure)라고 한다
** 회귀분석의 가설 설정과 결과 해석
* 가설 설정
> 가설 수립 H0:B1 = 0 vs H1:B1 != 0
> 검정 통계량 // t 분포를 따라간다
> 기각역: |t| >= t분포의 신뢰구간a/2 * ( n-2) 이면 H0 기각할 수 있음
* 결과 해석
1) F 통계량의 유의성 확인 ( 분석방법에 따라서 대부분 1)or 2)가 결과표로 제시되고, 이에 대한 유의성 확인 )
2) 상수항 B 베타 값들이 t분포상 유의한지 p값을 확인 (<0.05 이면 H0를 기각한다. B1는 유의미하다 ) (H0을 기각하지 않으면 B1 = 0 이다 )
> B0( y절편)은 왜 표에 없느냐.. y절편은 출발선으로 이전의 값은 잘라지고 시작되는 값이기 때문이다. ( 그림의 y bar = f(x)인 지점 )
3) 결정계수 ( R squared ) 값 확인함으로써 설명력 확인
* 결정계수 ( coefficient of determination : R**2 )
추정된 회귀식이 얼마나 전체 데이터에 대해서 적합한지(설명력이 있는지)를 수치로 제공하는 값
> 0 < R**2 < 1 으로 1에 가까울수록 추정된 모형이 설명력이 높다
> 0혹은 0에 가까울 경우 추정된 모형이 설명력이 전혀 없다는 것을 알 수 있다
하지만 설명력이 늘어나거나, 1에 가까운 경우 데이터에 대한 회귀식의 과도적합 등의 문제가 있어서 완전히 신뢰할 수는 없다
또, R**2 값은 다중회귀에서는 유의하지 않은 변수가 추가되어도 항상 증가된다.
이에 따라 수정 결정 계수 adjust R**2 가 등장함.
** 수정 결정 계수 adjust R**2
> 특정 계수를 곱해 줌으로써 R**2값이 항상 증가하지 않도록 함 , 다중회귀 등에서 확인
> 일반적으로는 보통 모형간 성능 비교를 할때 확인하면 됨
'BF 2024 > 통계' 카테고리의 다른 글
분산분석 ( ANOVA ) (0) | 2022.02.17 |
---|---|
다중 회귀분석 (0) | 2022.02.16 |
기본적인 통계분석의 갈래 , when what how (0) | 2022.02.15 |
범주형 자료 분석 (0) | 2022.02.15 |
상관관계 (0) | 2022.02.15 |