빅데이터 분석 수명 주기 본문
** 최대 총 9단계로 이루어져 있음 ( 5단계 , 7단계 등 상이 ) from Big data Fundamentals
1) Business Case Evaluation : 비즈니스 사례 평가
> 프로젝트의 목표와 비지니스 요구사항 정의
> 핵심성과지표(KPI) 나 SMART(Specific, Measurable, Attainable, Relevant, Timely) 하게 목표 설정
> 케이스 평가를 통해 전반적으로 필요한 것들을 이해하고 예산 결정에 참고한다
2) Data identification : 데이터 확인
> 확보한 데이터가 신뢰성이 보장되는가? ( G.I.G.O )
> 프로젝트와 관련된 데이터는 가능한 많이 확보하는 것이 좋다 -> 패턴 / 상관관계 발견할 확률이 상승
3) Data Acquisition and FIltering : 데이터 습득과 여과
> 습득한 데이터들은 노이즈가 있을 수 있어, 여과가 필요하다.
> 사본도 유지하도록 한다
> 메타데이터 ( 데이터 셋의 크기, 구조, 출처, 생성시간, 수집시간, 언어 등의 정보 ) 역시 분류나 쿼리 성능을 향상시킬 수 있다
4) Data Extraction : 데이터 추출
> 솔루션에 필요한 형식에 맞게 추출하는 과정 ( xml , json )
5) Data Validation and Cleansing : 데이터 검증 및 정제
> 잘못된 데이터가 있을 수 있으니, 업무 전문가들이 정한 규칙으로 유효성 여부를 판단한다. ( valid, invalid )
6) Data Aggregation and Representation : 데이터 통합 및 표현
> 분산되어 있는 데이터 셋을 통합하거나, 분리한다
> 정규화 혹은 Semantics, 데이터의 의미에 따라 본 단계를 수행한다
-> 예를들어 다른 단어지만 같은 의미의 칼럼이 각각 있을 경우 합침 -> Hueristic 한 과정으로, 인력으로 해결하는 작업이다.
> 매우 복잡할 수 있는 과정
7) Data Analysis : 데이터 분석 ( 반복 과정을 통해 정확도를 높인다 )
> 코드나 알고리즘의 실행으로 실제 결과를 이끌어내는 단계
> 여러 통계분석이나 데이터 마이닝 , 머신 러닝 기법을 사용하여 패턴 발견 / 수리 모델 생성
7-1) 확증적 데이터 분석 - Confirmatory Data Analysis
- 연역적 방법으로, 가설을 제안하고 데이터 분석의 결과로 입증
7-2) 탐색적 데이터 분석 - Exploratory Data Analysis
- 귀납적 방법으로, 패턴이나 상관관계 어떤 현상들을 일반적인 관점에서 발견하기 위함
8) Data visualization : 데이터 시각화
> 분석을 잘하는 것과 ( 본인의 이해도 ) 와 모두에게 이해시키는 것 ( 커뮤, PT ) 는 별개
> 시각물은 비즈니스 사용자들이 해석하기 쉬운 포맷임
> 사용자들로 하여금 더더욱 다양한 분석을 요구하도록 유도할 수 있다. ( 피드백 받기 ).
9) Utilization of Analysis Results : 분석 결과 활용
> 분석 결과를 제공한 뒤 생성된 모델을 어디에, 어떻게 활용할 것인가?
> 비즈니스 프로세스 개선, 새로운 시스템/소프트웨어 개발 , 결과의 즉각 적용으로 운영 최적화, 실적 향상
'BF 2024 > 빅데이터 세계' 카테고리의 다른 글
빅데이터 분석 프로젝트의 주요 역할들 (0) | 2022.03.24 |
---|---|
빅데이터 시장과 분석가의 지향 자세 (0) | 2022.03.15 |
빅데이터의 현황 (0) | 2022.03.10 |