본문 바로가기

데이터 이해와 기본적인 시각화 종류 본문

BF 2024/통계

데이터 이해와 기본적인 시각화 종류

jaegomhoji 2022. 2. 11. 17:16

** 데이터와 그래프

* 변수 ( variable )

수학 : 수학에서의 변수란, 정해지지 않은 임의의 값을 표현하기 위해 사용된 기호. 변하는 숫자라는 개념이다. 

통계학 : 조사 목적에 따라 관측된 자료값을 변수라고 한다. 해당 변수에 관측된 값들이 자료(data)이다. 

 

* 변수의 종류 

질적 변수 : 관측된 데이터가 성별, 주소지 등 몇 개의 범주로 구분하여 표현될 수 있는 자료. 입력시 숫자로 원-핫 인코딩이 가능하다 숫자 자체의 의미는 없음, 그저 구별하기 위함 


양적 변수 : 관측된 데이터가 숫자의 형태로, 숫자의 크기가 의미를 가지고 있음 

 

* 척도

(질)명목 척도 : 남자, 여자 등 category, 범주로 구별할 수 있는 변수. 

(질)서열 척도 : 순서의 의미만 있는 자료

(양)등간 척도 : 숫자가 동일한 간격으로만 떨어져 있는 변수 

(양)비율 척도 : 연속형 변수라고도 하며, 자료들이 쭉 ~ 이어져 있는 형태로 표현된다. 

 

** EDA( Explanatory Data Analysis )

분석 초기에 특히 가장 많이 사용한다. 데이터를 탐색하는 분석 방법으로, 도표, 그래프, 요약, 통계 등을 사용하여 데이터를 체계적으로 분석하는 하나의 방법이다.

 

목적 : 

1. 분석 프로젝트 초기에 가설을 수립하기 위해서 

2. 분석 프로젝트 초기에 적절한 모델 및 기법의 선정

3. 변수 간 트렌드, 패턴, 관계 등을 찾고 통계적 추론을 기반으로 가정을 평가 

4. 분석 데이터에 적절한지 여부를 평가, 추가 수집, 이상치 발견 등에 응용 ( 추가수집 여부 판단 등 ). 

 

** 데이터 시각화 ( 데이터 + 디자인 + 스토리 + 공유성 )

데이터를 스토리텔링한다~ 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달되는 과정. 

목적 : 도표(graph)라는 수단을 통해 정보를 명확하고 효과적으로 전달하는 것이다. 

 

종류와 방법 

시간 시각화 : 시간의 흐름에 따라           -> 막대 그래프, 누적 막대 그래프, 컴비네이션 차트, 점그래프  

분포 시각화 : 어떤 분포를 가지고 있나? -> 파이 차트, 도넛 아트, 트리맵, 누적 연속 그래프

관계 시각화 : 변수간의 관계가 어떤가    ->스캐터 플롯, 버블차트, 히스토그램 

비교 시각화 : 변수간의 비교를 원활히    -> 히트맵, 스타 차트, 평행 좌표계, 다차원 척도법 

공간 시각화 : 지도에 차트를 맵핑하는    ->  지도 맵핑 

- 각각의 예시는 나중에 구현하여 시각화 카테고리에 따로 게재 

 

** Data VIsualization 관련 B.I툴 기업 선호도 ( business intelligence )

microsoft excel > tableau > clip.view / spotfire > ( 오픈 소스는 ) zepplin / r /  python

'BF 2024 > 통계' 카테고리의 다른 글

이산형 확률 분포 ( 균등, 베르누이, 이항, 포아송, 기하, 음이항 분포 )  (0) 2022.02.14
확률과 변수  (0) 2022.02.13
확률  (0) 2022.02.13
자료의 기초 통계량  (0) 2022.02.11
INTRO  (0) 2022.02.11
Comments