목록BF 2024/분석 프로세스 (3)
* 머신러닝 프로젝트에서 변하지 않는 딥러닝 플로우 ~ data -> preprocess -> Model -> Evaluation -데이터 검증 - modeling - 학습과정 추적 -전처리 - 학습로직 - 후처리 -데이터 증강 - 모델 검증 * 전반적인 과정 훑어보기
** 머신러닝(Machine Learning) - 기계학습 > 인공 지능의 한 분야로, 컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 분야 > 컴퓨터가 학습 모형을 기반으로 주어진 데이터를 통해 스스로 학습하는 것 ** 머신러닝은 Task 시행중 원하는 Performance를 달성하기위해 경험을 통해 성능을 개선시킴 1) 분석하고자 하는 목표 T(task)를 정의 -> 체스를 플레이하는 사건 2) Experience를 정의하기 위한 데이터를 수집 -> 체스 게임들의 경험 ( 경기 ) 3) Performance를 향상시키기 위한 Measure를 정의함 -> 다음 경기에서 프로그램이 이길 확률 ** 머신러닝의 갈래 - 지도 학습 ( supervised learning ) : label이 있는 데..
** 분석 프로세스는 어떻게 되어야 할까 ** 서비스로 부터 도출한 과제 정의 ** 데이터 수집 > 정의한 과제에 따라서 어떤 데이터가 필요한가? - 데이터 유형 정의 - 소스 데이터 수집 ( 있을 경우 sql 추출, 없다면 직접 수집 ) - 데이터 처리 및 가공 ( 분석할 수 있는 포맷으로 만들어 주어야 한다 , 더미처리 등 ) - 분석 데이터 가공 ( ) 데이터 수집 분석 설계 ( 원하는 결과가 나올때 까지 loop ) ** 데이터 분석 설계 - 분석 계획 수립 - 데이터 탐색 ( EDA ) : 데이터 수집 , 처리 및 가공에서도 데이터 특성을 알아내 처리 방법을 위해서 꼭 확인 (중앙값, 범위, 트렌드 등 ) - 데이터 특성(feature) 발굴 ( ex: 마케팅에 영향을 많이 받는 종속변수가 있다..