목록전체 글 (212)
** 머신러닝(Machine Learning) - 기계학습 > 인공 지능의 한 분야로, 컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 분야 > 컴퓨터가 학습 모형을 기반으로 주어진 데이터를 통해 스스로 학습하는 것 ** 머신러닝은 Task 시행중 원하는 Performance를 달성하기위해 경험을 통해 성능을 개선시킴 1) 분석하고자 하는 목표 T(task)를 정의 -> 체스를 플레이하는 사건 2) Experience를 정의하기 위한 데이터를 수집 -> 체스 게임들의 경험 ( 경기 ) 3) Performance를 향상시키기 위한 Measure를 정의함 -> 다음 경기에서 프로그램이 이길 확률 ** 머신러닝의 갈래 - 지도 학습 ( supervised learning ) : label이 있는 데..
** 분석 프로세스는 어떻게 되어야 할까 ** 서비스로 부터 도출한 과제 정의 ** 데이터 수집 > 정의한 과제에 따라서 어떤 데이터가 필요한가? - 데이터 유형 정의 - 소스 데이터 수집 ( 있을 경우 sql 추출, 없다면 직접 수집 ) - 데이터 처리 및 가공 ( 분석할 수 있는 포맷으로 만들어 주어야 한다 , 더미처리 등 ) - 분석 데이터 가공 ( ) 데이터 수집 분석 설계 ( 원하는 결과가 나올때 까지 loop ) ** 데이터 분석 설계 - 분석 계획 수립 - 데이터 탐색 ( EDA ) : 데이터 수집 , 처리 및 가공에서도 데이터 특성을 알아내 처리 방법을 위해서 꼭 확인 (중앙값, 범위, 트렌드 등 ) - 데이터 특성(feature) 발굴 ( ex: 마케팅에 영향을 많이 받는 종속변수가 있다..
************************************************************************************************************ INDEX ** 시계열 분석이란? ** 시계열 데이터의 분류 ** 시계열 요소 ** 시계열의 종류와 분석 방법 ** 단순 시계열 ** 지수 평활법 ************************************************************************************************************ ** 시계열 분석이란? > time series analysis : 시계열(시간의 흐름에 따라 기록된 ) 자료를 분석하고 여러 변수들의 인과관계를 분석하는 방법 ** 시계열 데..
************************************************************************************************************ INDEX ** INTRO 와 실험계획에 대한 짤막한 내용 ** 분산 분석 ( analysis of variance ) ** 분산분석의 가설 설정 ** One-way ANOVA , 일원배치 분산분석 ** Two-way ANOVA , 이원배치 분산분석 ************************************************************************************************************ ** 킹치만 왜 평균차이 검정이 아닌 분산 분석을 할까? > t-test..
************************************************************************************************************ INDEX ** 단순 회귀 분석 이외에도 자주 쓰이는 회귀분석들 ** 다중 회귀분석 (multiple regression analysis ) ** 더미변수 ( dummy variables ) ** 변수 선택법 ( 전진, 후퇴, 단계적 선택 ) ** 다중공선성 문제와 VIF 분산팽창요인 ** 해결법 ************************************************************************************************************ ** 단순 회귀 분석 이..
************************************************************************************************************ INDEX ** 회귀 분석 ( regression analysis ) 이란? 그리고 전체 관련 분석 방법의 갈래 ** 단순 회귀 분석 ** 회귀 작동 방식 , 공식 유도 (전개 ) ** 최소제곱법 method of least squares 과 OLS ** 조건 (오차항의 정규성, 등분산성, 독립성(시계열 데이터는 durbin watson) , norm qqplot 시각화 ) ** 가설설정 (귀무 가설 : H0:B1 = 0 회귀식의 베타값은 유의하지 않다 , H0:B1 != 0 , 회귀식의 베타 값이 유의하다 ) ..
************************************************************************************************************ INDEX ** 적합도 검정 ** 독립성 검정 ** 동일성 검정 ************************************************************************************************************ 범주형 자료에 대한 통계적 추론 방법 > 언제 어디에서 쓰는지 숙지하여라 > 교차 분석, 카이제곱 분석 등으로 불리기도 한다 * 범주형 자료 ( categorical data ) > 명목 변수라고도 하며 > 관측된 결과를 어떤 속성에 따라 몇 개의 범주로 분..
** 상관관계 ( correlation coefficient ) > 두 변수간의 함수 관계가 선형적인 관계가 있는지 파악할 수 있는 측도, 상관계수 1) 상관계수 -1 =< p 상관계수는 두 변수간 상관관계에 대한 수치일 뿐이다. 실제 그 둘의 상관관계도 그렇다고 확신할 수는 없다. ** 공분산의 경우 (데이터를 - 기대값) / n-1으로 나누어 주어, 단위에 따라 편차가 심했을 수 있지만 상관관계의 경우 공분산을 다시 두 변수의 표준편차로 나누어 주어 편차를 normalization 하는 효과가 있다 ** 표본 상관관계 ( sample correlation coefficient ) , 변수 타입에 맞게 상관계수를 산출해야 한다 * 모수적 상관관계 ( 피어슨 ) .. 모피어스 * 비모수적 상관관계 ( 스..
************************************************************************************************************ INDEX ** 가설이란? 가설과 가설의 종류 ** 제 1종 오류와 2종 오류 ** 가설검정 순서 ************************************************************************************************************ 목표 : 통계학에서의 가설 검정 방법을 이해하고 모형으로 적용할 수 있는 기반 지식 습득하기 ** 가설이란? 가설과 가설의 종류 * 가설 검정 = 가설 hypothesis + 검정 testing * 가설 : 주어진 사실 또는..
************************************************************************************************************ INDEX ** 관련 용어와 개념 ** 점 추정 ** 구간 추정 , 신뢰구간 ** 표본의 크기 결정 ************************************************************************************************************ * 추정 , estimation : 모집단의 모수를 모를 경우 표본으로 추출된 통계량을 모집단의 근사값으로 사용하는 것 * 추정량 , estimator : 표본 평균으로 모평균을 추정할 때 표본 평..
************************************************************************************************************ INDEX ** 모집단과 표본이란? ** 표본 추출 ( sampling ) 이란 ** 표본 추출 기법 ( 사회과학 표집 x ) ** 통계량과 통계 분포 ** 카이제곱 분포 ** 자유도 ** T-분포 ** F-분포 ************************************************************************************************************ ** 모집단과 표본이란? * 모집단 ( Population ) > ..