시각화 인사이트 프로세스
시각화 인사이트 프로세스 의미
사전적 의미로 정보, 인과관계, 본질 , 이해
DIKW피라미드 데이터 : 개별적 기초 자료(원자료) EX 강수량 정보 : 데이터 간의 관계(상관,인과 관계) EX 지역별 연간 강수량 지식 : 다양한 정보가 상위 관계를 맺고 조직화 EX A마을의 수해대책 지혜 : 개인화된 지식,경험 등과 관계를 맺을 때 구조화되어 나타남 EX A마을 주민 개개인의 생활 노하우
시각화와 인사이트
관찰 : 대상들 사이의 상호작용을 바탕으로 의미있는 관계를 찾아냄 성찰 : 자신의 내면 세계를 살펴봄, 자신의 사고와 행동에 의문을 제기하고 해결 통찰 : 관찰과 성찰을 기반으로 요인들 간의 관계를 통해 살펴봄 위의 삼찰을 바탕으로 대상들 사이의 숨겨진 관계를 찾아내는 과정을 통해 인사이트 얻음
통찰 과정과 시각화
-
통찰과 시각화
- 통찰은 살펴보고 이해하는 과정
- 인사이트는 활용 과정에서 검증이나 보완할 수 있다.
- 통찰 과정의 시각화 : 눈에 확 띄게 만듬, 추상적 개념을 보이게 함
- 시각화 인사이트 프로세스 : 시각화를 통해 통찰을 추출하는 과정
-
1단계 탐색 - 관계 발견
- 어떤 관계가 있는지 최초로 살펴보는 단계
- 지혜를 통해 도출, 데이터에서 정보를 도출, 정보에서 지식을 도출
- 시각화로 객관적인 패턴을 발견하고 개괄적 패턴 찾기
- 검증 : 결과가 얼마나 효율적으로 도출되었는가
-
2단계 분석 - 관계 규명
- 관계들의 형태를 명확하게 규명하고 형태가 지니는 의미를 찾아냄
- 구체적 관계를 찾거나 관계를 보다 잘 설명하는 다른 요인을 찾는 작업 필요
- 방향성, 명제, 모델링, 지표 개요가 명확해야 함
- 정성적 기법, 정량적 기법 사용
- 시각화로 관계의 구체적인 모델링 및 적용, 조정
- 검증 : 분석의 결과의 효율성
-
3단계 - 활용 - 통찰 검증 및 보완
- 실제로 활용함으로써 얼마나 의미가 있고 가치를 인정받을 수 있는지 검증
- 부적절한 부분은 다시 탐색과 분석을 함
- 내부 : 직접 활용 외부 : 타인에게 설명
- 시각화로 타인에게 효과적으로 설명, 메시지 전달
- 검증 : 수용자가 제대로 이해했는지, 예상한 반응을 보이는지
탐색
사용 가능한 데이터 확인
-
데이터 명세화 : 차원과 측정값
- 모든 데이터는 기본적으로 하나 이상의 측정값과 차원을 가짐 EX> 국가별 남성 평균 수명 -> 차원 : 국가,성별/측정값 : 평균수명
- 연속적인 데이터로 구성된 차원은 구간 형태로 제시되기도 함
- 동일한 데이터 항목이라도 차원이 될 수도 있고 측정값이 될 수도 있다.
-
데이터 구성 원리1 : 이벤트 기록으로서 접근
- 원본 데이터는 특정 이벤트가 발생했을 때 발생한다.
- 로그 데이터와 로그 데이터를 한 번 정제한 데이터는 구분할 수 있어야 함
- 데이터가 어떤 원리로 생성,구성되었는지를 항상 염두에 두어야 함
- 관계는 시각화 도구로 찾아낼 수 있다.
-
데이터 구성 원리2 : 객체지향 관점에서의 접근
- 데이터의 구성과 생성 배경에 대해 고민함
- 데이터의 대략적 범위가 주어지면 데이터의 구조 자체를 설계,생성 하여 이를 토대로 통찰을 뽑아낼 수 있어야함
- 기본적으로 대상을 객체화 하고 모든 객체들은 행위와 고유속성값을 가짐
- 구조와 행위를 통해 구조 전체를 파악하는 것이 객체지향 관점
- 구조 전체를 파악해 그 구조가 제대로 이벤트 로그 데이터로 기록되고 있는지를 검증해 보완할 수 있다.
- 다양한 통찰을 위해선 데이터의 구성을 밝히고 추가 자료, 인사이트 프로세스의 목표 및 방향성을 조정하는 것이 필요
연결 고리의 확인
2개 이상 데이터를 활용할 수 있을 때는 연결고리를 살펴 관계의 범위와 방향을 정하고 확장할 수 있다. 이 때 연결 고리는 시각화 도구가 아는 데이터의 태성을 정리한 명세서에서 확인
- 공통 요소 찾기
- 서로 다른 데이터 명세서에서 공통 항목을 찾음
- 항목명이 아닌 항목의 정의와 데이터형을 보고 찾아야 함. 항목명이 달라도 같은 데이터형으로 되어 있고 기록된 규칙이 같다면 공통 요소이다.
- 공통 요소로 변환하기
- 데이터형이 다른데 공통 요소로 만들 수 있음
- 계층이나 기준으로 묶인 데이터의 대부분은 형태를 변환해 연결 고리를 찾음
- 자세한 자료를 덜 자세하게 묶인 자료 변환은 가능하지만 반대는 불가능
- 만드는 과정도 인사이트 프로세스
- 현실세계의 거의 모든 데이터는 구성 원리에 의해 시간과 공간 관점의 연결고리를 기본적으로 가짐
시간 데이터 변환
- 초 단위 데이터는 손쉽게 시간 단위, 날짜 단위, 분기 및 연 단위 등으로 전환 가능
- 날짜 시간 데이터가 문자열로 지정된 경우도 있음 -> 시간 형으로 변환
- DATE, YEAR, MONTH 등의 함수 이용
공간 데이터 변환
- 주소/주소를 세부적으로 구분한 행정구역(시,도), 가장 구체적인 좌표값
- 데이터에 따라 경위도 좌표계가 아닌 다른 기준의 좌표계로 구성된 경우도 있다.
- 텍스트 나누기, 문자열 함수 등 사용
함수명 | 함수 사용 형태 | 함수 기능 설명 |
---|---|---|
SPLIT | split(문자열, 구분자) | 문자열을 구분 문자 기준으로 분리해서 제공 |
FIND | find(찾는 문자, 문자열) | 찾는 문자가 왼쪽에서부터 몇 번째에 위차하는지 숫자값 |
LEFT | left(문자열,개수) | 왼쪽부터 정해진 개수만큼 제공 |
MID | mid(문자열,시작 위치,개수) | 시작 위치부터 정해진 개수만큼 제공 |
- 지오코딩 : 좌표계를 주소 및 행정구역으로 변환하거나 반대 과정
- 코로플레스 지도 : 미국이나 유럽을 분석하기에 유용한 시각화 도구
- X-Ray Map : 비즈 GIS가 무료로 제공하는 웹 GIS 도구, 한국 지역 유용
일정한 규칙을 가진 분류형 데이터로 변환
- 어떤 데이터는 하위 수준에서 기록되어 있고 다른 데이터는 상위 수준으라면 상위 수준이라는 공통 요소로 반환해 연결고리를 만들 수 있음
- replace : 전체를 일괄적으로 바꿈
- lookup, vlookup : 전체를 일괄적으로 바꾸지 않고 원하는 영역만 바꿈
- 탐색 범위의 설정
- 보유한 데이터를 조합을 고민, 명세화 해야함
- 여러 개의 데이터 명세를 보유한 경우 연결 고리를 확인해 탐색할 수 있는 차원과 측정값의 조합을 정리해야 함
- 각 조합 하나하나가 통찰을 추출하는 관점이 됨, 전체 조합 종류가 탐색의 범위
탐색 범위 설정 시 고려 사항
- 여러 개의 데이터를 보유한 경우 개별 데이터 안에서 먼저 탐색
- 측정값에 하나의 차원만 연결해 탐색
- 같은 데이터 안에서 차원과 측정값을 맞바꾸면 다른 통찰을 찾아낼 가능성 있음
- 목표와 관련있을 법한 조합을 만듬
- 상식적으로 의미나 연계성 없는 조합은 배제
관계의 탐색
1. 이상값 처리
- 측정 오류로 오차가 들어간 경우 제거 대상이 됨.
- 하지만 의미있는 이유일 수도 있어서 우선적으로 시각화 도구로 전체 구조를 파악하고 패턴을 찾아봄
- 기록 관리 과정에서 문제 -> 보완, 대체, 제거
- 의미있는 이유 -> 구체적으로 파고들어야할 대상
2. 차원과 측정값 유형에 따른 관계 파악 시각화
- 시각화 도구 선정
- 차원과 측정값이 어떤 유형인지 봄
- 1차원 선형, 2차원 평면, 3차원 공간에서 표현 시각화 도구 선정 시 고려 사항
- 차원은 반드시 축으로만 표현되는 것은 아님
- 2차원 평면에서는 x,y축 이외에 도형의 면적도 연속값으로 된 차원을 처리할 수 있는 도구로 사용
- 3차원은 입체의 부피나 단멱의 면적을 연속값으로 처리
- 색상 : 차원을 구분, RGB값으로 나눠 차원을 그라데이션 변화로 표현 가능
- 시각 데이터 관계 탐색
- 변화하는 패턴을 분리하는 것이 핵심
- 모션 차트 : 구글 스프레드 시트에서 제공, 움직임을 통해 보여주는 동적인 시각화 도구
- 공간 데이터 관계 탐색
- 실제 지도를 활용하는 것이 가장 직관적이고 효과적
- Arc GIS : 유료화된 전문 지리정보 분석 도구
- X-Ray Map : 무료 도구, 실제 지역 데이터 관계 볼 수 있음
- 파워 맵 : 엑셀 2013 도구, 모션 차트까지 결합해 제공
- 비정형 데이터 관계 탐색
- 우선 텍스트 문장들 안에 어떤 의미를 지니는 단어들이 어떤 빈도로 분포하는지를 살펴야한다.
- 워들 : 텍스트 데이터에서 형태소 단위를 추출해 빈도에 따라 색상, 크기를 결정하고 시각적으로 겹치지 않게 적절히 배치
3. 잘라보고 달리보기
- slice : 패턴을 탐색 후 일정 기준으로 일부분만 보는 것
- dice : 차원들을 기준으로 잘라내 서로 다른 관점의 단면들을 살펴보는 것
- 피벗, 피벗 테이블
- 파워뷰 : 엑셀 2013기능 시각화 탐색을 적용하는 것에 비해 훨씬 강화되고 확장된 기능
- OLAP : 기업에서 쓰는 BI도구, 실시간 기업 다차원 데이터에 접근에 slice, dice하며 분석, 리포팅 하는 도구
4. 내려다보기 올려다보기
- drill down : 하위계층으로 기준을 세분화
- reverse drill down : 상위 계층의 관점으로 보는 것
- 상위하위 계층의 패턴을 살피고 그 차이점을 토대로 다시 하위 계층을 살펴보는 구조
- 트리맵 : 면적을 이용해 차원을 표현한 도구, 하이퍼볼릭 트리
5. 척도의 조정
- 정량적 데이터를 뿌려 놓을 때도 척도를 어떻게 설정하느냐에 따른 다름
- 측정값 범위가 너무 달라 패턴이 제대로 나타나지 않는 경우가 종종 있다.
- 실제 값을 변형해 같은 공간에 표시해도 각각의 패턴이 명확하게 보이게끔 조정해야 함
- 스파크라인 차트 : 계열별로 다른 범위의 측정값들을 동일한 공간 범위 내에서 패턴변화를 비교해 볼 수 있도록 자동으로 조정해 주는 시각화 도구
분석
분석 대상의 구체화
- 1차 탐색
- 어떤 패턴이 좀 더 중요하고 더 제대로 뜯어봐야 하는지 우선순위를 결정해야 함
- 찾아낸 단서들을 기반으로 우선순위를 조정해 볼 수도 있다.
- 궁극적 목적 : 충분히 살펴보지 못한 것들을 보고, 차원과 측정값들의 조합을 적절하게 바꿔가면서 관찰했는지 한 번 더 점검
- 분석 목표에 따른 분석 기법
분석 목표 | 설명 | 통계적 분석 기법 |
---|---|---|
평균에 대한 검정, 추정 | 평균에 대한 모델링 | T검정 |
비율에 대한 검정, 추정 | 비율에 대한 모델링 | 직접확률계산, F분포 |
비율에 대한 검정, 추정 | 2개 이상 차원이 있고 하나의 측정값 -> 분류 조합에 따라 측정값에 유효한 차이가 있는지 검정 | 카이 제곱 검정, fisher의 직접 확률 검정, 멕네마 검정, 잔차 분석 |
상관관계 강도 도출 | 독립적으로 움직이는 변수들 사이 관계의 강도를 상관계수로 나타냄 | 상관분석 |
선형/비선형 인과관계의 형태, 강도 추출 | 독립적으로 움직이는 변수들 사이 관계의 강도를 상관계수로 나타냄 | 회귀분석,로지스틱, 판별분석 |
요인들 사이의 관계와 핵심 요인 선별 | 변화 요인이 되는 값들이 3개라 할때 어떤 것이 측정값에 가장 영향을 미치는지, 다른 차원의 영향력과 어느 정도 겹치는지 분석 | 요인분석,주성분 분석 |
대상들을 여러 기준으로 분류, 다차원 공간 배치 | 차원들의 값 기준으로 측정값들 사이 거리를 계산해 그룹을 짓고 다차원 공간에 측정값 배치 | 군집분석, 다차원척도법(MDS) |
패턴이 비슷한 측정값과 그젛지 않은 측정값 분류 | 답변들의 패턴에 따라 비슷한 답변을 한 응답자와 그렇지 않은 응답자 분류 | 대응분석 |
흐름에 따라 변하는 데이터 분석 모델 도출 | 추세요인, 계절요인, 순환요인, 불규칙요인으로 분해해 모델을 만들어 미래 예측 | 시계열분석 |
- 차원이 많거나 불연속 데이터가 많은 경우 통계적 분석법 활용
- 통계적 분석 기법의 결과물 : 구체적 계수, 설명계수, 그래프, 걸러진 변수
- 시각적 도구와 통계적 도구는 상보적 관계
분석과 시각화 도구
- 회귀분석에서 적합한 함수식을 찾는데 보조도구로서 사용됨
- 회귀분석을 통해 인과관계를 살펴볼 수도 있고 전체 형태의 추세를 통해 미래 또는 축 상의 다음 측정값에 대한 예측을 할 수도 있다.
- 만약 시각화 해보지 않으면 도출된 예측값만으로만 보면 현실적인 가정 및 조건을 놓칠 수 있다.
- 통계적 분석 기법과 시각적 분석 기법은 밀접한 관계임
지표 설정과 분석
- 지표의 기본 개념
- KPI : 기업에서 업무성과 평가 목표설정 등의 활동에 활용, 세부적인 활동 결과물 추진 정도나 수준을 측정하고 평가
- 도출되는 결과값을 지표로 활용할 수 있다.
- 의미가 있고 직관적으로 이해되는 수치들을 지표로 만드는 것이 가치가 있음
- 지표의 기본 구조
- 지표는 인사이트를 커뮤니케이션에 활용, 분석할 때도 유용
- 관계를 지표로 축약해 표현하면 다른 관계를 살펴보는 기준으로 삼기 편해짐
- 지표 활용시 주의점
- 단위를 잘 살펴야 함
- 시각화 도구에 적용할 때 적적하게 단위가 표현될 수 있는지 체크해야 함.
- 척도와 관련된 문제는 없는지 봐야함
- 지표로 분석할 때 다른 변수들이 이 지표와 어떤 관계에 있는지 봐야한다. 지표가 통계적 모델을 만들 때 포함된다면, 모델 설명력이 과대평가될 수 있다.
- 요인 분석 : 지표가 지표를 만든 다른 요인들과 상당 부분 설명력이 겹치는지 확인