본문 바로가기

빅데이터 분석 수명 주기 본문

BF 2024/빅데이터 세계

빅데이터 분석 수명 주기

jaegomhoji 2022. 3. 24. 19:35

** 최대 총 9단계로 이루어져 있음  ( 5단계 , 7단계 등 상이 )  from Big data Fundamentals 

1) Business Case Evaluation : 비즈니스 사례 평가 

> 프로젝트의 목표와 비지니스 요구사항 정의 

> 핵심성과지표(KPI) 나 SMART(Specific, Measurable, Attainable, Relevant, Timely) 하게 목표 설정 

> 케이스 평가를 통해 전반적으로 필요한 것들을 이해하고 예산 결정에 참고한다 

 

2) Data identification : 데이터 확인 

> 확보한 데이터가 신뢰성이 보장되는가? ( G.I.G.O ) 

> 프로젝트와 관련된 데이터는 가능한 많이 확보하는 것이 좋다 -> 패턴 / 상관관계 발견할 확률이 상승

 

3) Data Acquisition and FIltering : 데이터 습득과 여과 

> 습득한 데이터들은 노이즈가 있을 수 있어, 여과가 필요하다. 

> 사본도 유지하도록 한다

> 메타데이터 ( 데이터 셋의 크기, 구조, 출처, 생성시간, 수집시간, 언어 등의 정보 ) 역시 분류나 쿼리 성능을 향상시킬 수 있다

 

4) Data Extraction : 데이터 추출 

> 솔루션에 필요한 형식에 맞게 추출하는 과정 ( xml , json )  

 

5) Data Validation and Cleansing : 데이터 검증 및 정제 

> 잘못된 데이터가 있을 수 있으니, 업무 전문가들이 정한 규칙으로 유효성 여부를 판단한다. ( valid, invalid ) 

 

6) Data Aggregation and Representation : 데이터 통합 및 표현 

> 분산되어 있는 데이터 셋을 통합하거나, 분리한다

> 정규화 혹은 Semantics, 데이터의 의미에 따라 본 단계를 수행한다

-> 예를들어 다른 단어지만 같은 의미의 칼럼이 각각 있을 경우 합침 -> Hueristic 한 과정으로, 인력으로 해결하는 작업이다.  

> 매우 복잡할 수 있는 과정  

 

7) Data Analysis : 데이터 분석 ( 반복 과정을 통해 정확도를 높인다 ) 

> 코드나 알고리즘의 실행으로 실제 결과를 이끌어내는 단계 

> 여러 통계분석이나 데이터 마이닝 , 머신 러닝 기법을 사용하여 패턴 발견 / 수리 모델 생성 

 

7-1) 확증적 데이터 분석 - Confirmatory Data Analysis

- 연역적 방법으로, 가설을 제안하고 데이터 분석의 결과로 입증

 

7-2) 탐색적 데이터 분석 - Exploratory Data Analysis 

- 귀납적 방법으로, 패턴이나 상관관계 어떤 현상들을 일반적인 관점에서 발견하기 위함 

 

8) Data visualization : 데이터 시각화 

> 분석을 잘하는 것과 ( 본인의 이해도 ) 와 모두에게 이해시키는 것 ( 커뮤, PT ) 는 별개 

> 시각물은 비즈니스 사용자들이 해석하기 쉬운 포맷임 

> 사용자들로 하여금 더더욱 다양한 분석을 요구하도록 유도할 수 있다. ( 피드백 받기 ). 

 

9) Utilization of Analysis Results : 분석 결과 활용 

> 분석 결과를 제공한 뒤 생성된 모델을 어디에, 어떻게 활용할 것인가? 

> 비즈니스 프로세스 개선, 새로운 시스템/소프트웨어 개발 , 결과의 즉각 적용으로 운영 최적화, 실적 향상 

Comments