ADP 공부하기 9

시각화 인사이트 프로세스

시각화 인사이트 프로세스 의미

전적 의미로 정보, 인과관계, 본질 , 이해

DIKW피라미드 데이터 : 개별적 기초 자료(원자료) EX 강수량 정보 : 데이터 간의 관계(상관,인과 관계) EX 지역별 연간 강수량 지식 : 다양한 정보가 상위 관계를 맺고 조직화 EX A마을의 수해대책 지혜 : 개인화된 지식,경험 등과 관계를 맺을 때 구조화되어 나타남 EX A마을 주민 개개인의 생활 노하우

시각화와 인사이트

관찰 : 대상들 사이의 상호작용을 바탕으로 의미있는 관계를 찾아냄 성찰 : 자신의 내면 세계를 살펴봄, 자신의 사고와 행동에 의문을 제기하고 해결 통찰 : 관찰과 성찰을 기반으로 요인들 간의 관계를 통해 살펴봄 위의 삼찰을 바탕으로 대상들 사이의 숨겨진 관계를 찾아내는 과정을 통해 인사이트 얻음

통찰 과정과 시각화

  1. 통찰과 시각화

    • 통찰은 살펴보고 이해하는 과정
    • 인사이트는 활용 과정에서 검증이나 보완할 수 있다.
    • 통찰 과정의 시각화 : 눈에 확 띄게 만듬, 추상적 개념을 보이게 함
    • 시각화 인사이트 프로세스 : 시각화를 통해 통찰을 추출하는 과정
  2. 1단계 탐색 - 관계 발견

    • 어떤 관계가 있는지 최초로 살펴보는 단계
    • 지혜를 통해 도출, 데이터에서 정보를 도출, 정보에서 지식을 도출
    • 시각화로 객관적인 패턴을 발견하고 개괄적 패턴 찾기
    • 검증 : 결과가 얼마나 효율적으로 도출되었는가
  3. 2단계 분석 - 관계 규명

    • 관계들의 형태를 명확하게 규명하고 형태가 지니는 의미를 찾아냄
    • 구체적 관계를 찾거나 관계를 보다 잘 설명하는 다른 요인을 찾는 작업 필요
    • 방향성, 명제, 모델링, 지표 개요가 명확해야 함
    • 정성적 기법, 정량적 기법 사용
    • 시각화로 관계의 구체적인 모델링 및 적용, 조정
    • 검증 : 분석의 결과의 효율성
  4. 3단계 - 활용 - 통찰 검증 및 보완

    • 실제로 활용함으로써 얼마나 의미가 있고 가치를 인정받을 수 있는지 검증
    • 부적절한 부분은 다시 탐색과 분석을 함
    • 내부 : 직접 활용 외부 : 타인에게 설명
    • 시각화로 타인에게 효과적으로 설명, 메시지 전달
    • 검증 : 수용자가 제대로 이해했는지, 예상한 반응을 보이는지

탐색

사용 가능한 데이터 확인

  1. 데이터 명세화 : 차원과 측정값

    • 모든 데이터는 기본적으로 하나 이상의 측정값과 차원을 가짐 EX> 국가별 남성 평균 수명 -> 차원 : 국가,성별/측정값 : 평균수명
    • 연속적인 데이터로 구성된 차원은 구간 형태로 제시되기도 함
    • 동일한 데이터 항목이라도 차원이 될 수도 있고 측정값이 될 수도 있다.
  2. 데이터 구성 원리1 : 이벤트 기록으로서 접근

    • 원본 데이터는 특정 이벤트가 발생했을 때 발생한다.
    • 로그 데이터와 로그 데이터를 한 번 정제한 데이터는 구분할 수 있어야 함
    • 데이터가 어떤 원리로 생성,구성되었는지를 항상 염두에 두어야 함
    • 관계는 시각화 도구로 찾아낼 수 있다.
  3. 데이터 구성 원리2 : 객체지향 관점에서의 접근

    • 데이터의 구성과 생성 배경에 대해 고민함
    • 데이터의 대략적 범위가 주어지면 데이터의 구조 자체를 설계,생성 하여 이를 토대로 통찰을 뽑아낼 수 있어야함
    • 기본적으로 대상을 객체화 하고 모든 객체들은 행위와 고유속성값을 가짐
    • 구조와 행위를 통해 구조 전체를 파악하는 것이 객체지향 관점
    • 구조 전체를 파악해 그 구조가 제대로 이벤트 로그 데이터로 기록되고 있는지를 검증해 보완할 수 있다.
    • 다양한 통찰을 위해선 데이터의 구성을 밝히고 추가 자료, 인사이트 프로세스의 목표 및 방향성을 조정하는 것이 필요

연결 고리의 확인

2개 이상 데이터를 활용할 수 있을 때는 연결고리를 살펴 관계의 범위와 방향을 정하고 확장할 수 있다. 이 때 연결 고리는 시각화 도구가 아는 데이터의 태성을 정리한 명세서에서 확인

  1. 공통 요소 찾기
  • 서로 다른 데이터 명세서에서 공통 항목을 찾음
  • 항목명이 아닌 항목의 정의와 데이터형을 보고 찾아야 함. 항목명이 달라도 같은 데이터형으로 되어 있고 기록된 규칙이 같다면 공통 요소이다.
  1. 공통 요소로 변환하기
  • 데이터형이 다른데 공통 요소로 만들 수 있음
  • 계층이나 기준으로 묶인 데이터의 대부분은 형태를 변환해 연결 고리를 찾음
  • 자세한 자료를 덜 자세하게 묶인 자료 변환은 가능하지만 반대는 불가능
  • 만드는 과정도 인사이트 프로세스
  • 현실세계의 거의 모든 데이터는 구성 원리에 의해 시간과 공간 관점의 연결고리를 기본적으로 가짐

시간 데이터 변환

  • 초 단위 데이터는 손쉽게 시간 단위, 날짜 단위, 분기 및 연 단위 등으로 전환 가능
  • 날짜 시간 데이터가 문자열로 지정된 경우도 있음 -> 시간 형으로 변환
  • DATE, YEAR, MONTH 등의 함수 이용

공간 데이터 변환

  • 주소/주소를 세부적으로 구분한 행정구역(시,도), 가장 구체적인 좌표값
  • 데이터에 따라 경위도 좌표계가 아닌 다른 기준의 좌표계로 구성된 경우도 있다.
  • 텍스트 나누기, 문자열 함수 등 사용
함수명 함수 사용 형태 함수 기능 설명
SPLIT split(문자열, 구분자) 문자열을 구분 문자 기준으로 분리해서 제공
FIND find(찾는 문자, 문자열) 찾는 문자가 왼쪽에서부터 몇 번째에 위차하는지 숫자값
LEFT left(문자열,개수) 왼쪽부터 정해진 개수만큼 제공
MID mid(문자열,시작 위치,개수) 시작 위치부터 정해진 개수만큼 제공
  • 지오코딩 : 좌표계를 주소 및 행정구역으로 변환하거나 반대 과정
  • 코로플레스 지도 : 미국이나 유럽을 분석하기에 유용한 시각화 도구
  • X-Ray Map : 비즈 GIS가 무료로 제공하는 웹 GIS 도구, 한국 지역 유용

일정한 규칙을 가진 분류형 데이터로 변환

  • 어떤 데이터는 하위 수준에서 기록되어 있고 다른 데이터는 상위 수준으라면 상위 수준이라는 공통 요소로 반환해 연결고리를 만들 수 있음
  • replace : 전체를 일괄적으로 바꿈
  • lookup, vlookup : 전체를 일괄적으로 바꾸지 않고 원하는 영역만 바꿈

  1. 탐색 범위의 설정
  • 보유한 데이터를 조합을 고민, 명세화 해야함
  • 여러 개의 데이터 명세를 보유한 경우 연결 고리를 확인해 탐색할 수 있는 차원과 측정값의 조합을 정리해야 함
  • 각 조합 하나하나가 통찰을 추출하는 관점이 됨, 전체 조합 종류가 탐색의 범위

탐색 범위 설정 시 고려 사항

  • 여러 개의 데이터를 보유한 경우 개별 데이터 안에서 먼저 탐색
  • 측정값에 하나의 차원만 연결해 탐색
  • 같은 데이터 안에서 차원과 측정값을 맞바꾸면 다른 통찰을 찾아낼 가능성 있음
  • 목표와 관련있을 법한 조합을 만듬
  • 상식적으로 의미나 연계성 없는 조합은 배제

관계의 탐색

1. 이상값 처리

  • 측정 오류로 오차가 들어간 경우 제거 대상이 됨.
  • 하지만 의미있는 이유일 수도 있어서 우선적으로 시각화 도구로 전체 구조를 파악하고 패턴을 찾아봄
  • 기록 관리 과정에서 문제 -> 보완, 대체, 제거
  • 의미있는 이유 -> 구체적으로 파고들어야할 대상

2. 차원과 측정값 유형에 따른 관계 파악 시각화

  1. 시각화 도구 선정
    • 차원과 측정값이 어떤 유형인지 봄
    • 1차원 선형, 2차원 평면, 3차원 공간에서 표현 시각화 도구 선정 시 고려 사항
  • 차원은 반드시 축으로만 표현되는 것은 아님
  • 2차원 평면에서는 x,y축 이외에 도형의 면적도 연속값으로 된 차원을 처리할 수 있는 도구로 사용
  • 3차원은 입체의 부피나 단멱의 면적을 연속값으로 처리
  • 색상 : 차원을 구분, RGB값으로 나눠 차원을 그라데이션 변화로 표현 가능
  1. 시각 데이터 관계 탐색
  • 변화하는 패턴을 분리하는 것이 핵심
  • 모션 차트 : 구글 스프레드 시트에서 제공, 움직임을 통해 보여주는 동적인 시각화 도구
  1. 공간 데이터 관계 탐색
  • 실제 지도를 활용하는 것이 가장 직관적이고 효과적
  • Arc GIS : 유료화된 전문 지리정보 분석 도구
  • X-Ray Map : 무료 도구, 실제 지역 데이터 관계 볼 수 있음
  • 파워 맵 : 엑셀 2013 도구, 모션 차트까지 결합해 제공
  1. 비정형 데이터 관계 탐색
  • 우선 텍스트 문장들 안에 어떤 의미를 지니는 단어들이 어떤 빈도로 분포하는지를 살펴야한다.
  • 워들 : 텍스트 데이터에서 형태소 단위를 추출해 빈도에 따라 색상, 크기를 결정하고 시각적으로 겹치지 않게 적절히 배치

3. 잘라보고 달리보기

  • slice : 패턴을 탐색 후 일정 기준으로 일부분만 보는 것
  • dice : 차원들을 기준으로 잘라내 서로 다른 관점의 단면들을 살펴보는 것
  • 피벗, 피벗 테이블
  • 파워뷰 : 엑셀 2013기능 시각화 탐색을 적용하는 것에 비해 훨씬 강화되고 확장된 기능
  • OLAP : 기업에서 쓰는 BI도구, 실시간 기업 다차원 데이터에 접근에 slice, dice하며 분석, 리포팅 하는 도구

4. 내려다보기 올려다보기

  • drill down : 하위계층으로 기준을 세분화
  • reverse drill down : 상위 계층의 관점으로 보는 것
  • 상위하위 계층의 패턴을 살피고 그 차이점을 토대로 다시 하위 계층을 살펴보는 구조
  • 트리맵 : 면적을 이용해 차원을 표현한 도구, 하이퍼볼릭 트리

5. 척도의 조정

  • 정량적 데이터를 뿌려 놓을 때도 척도를 어떻게 설정하느냐에 따른 다름
  • 측정값 범위가 너무 달라 패턴이 제대로 나타나지 않는 경우가 종종 있다.
  • 실제 값을 변형해 같은 공간에 표시해도 각각의 패턴이 명확하게 보이게끔 조정해야 함
  • 스파크라인 차트 : 계열별로 다른 범위의 측정값들을 동일한 공간 범위 내에서 패턴변화를 비교해 볼 수 있도록 자동으로 조정해 주는 시각화 도구

분석

분석 대상의 구체화

  1. 1차 탐색
  • 어떤 패턴이 좀 더 중요하고 더 제대로 뜯어봐야 하는지 우선순위를 결정해야 함
  • 찾아낸 단서들을 기반으로 우선순위를 조정해 볼 수도 있다.
  • 궁극적 목적 : 충분히 살펴보지 못한 것들을 보고, 차원과 측정값들의 조합을 적절하게 바꿔가면서 관찰했는지 한 번 더 점검
  1. 분석 목표에 따른 분석 기법
분석 목표 설명 통계적 분석 기법
평균에 대한 검정, 추정 평균에 대한 모델링 T검정
비율에 대한 검정, 추정 비율에 대한 모델링 직접확률계산, F분포
비율에 대한 검정, 추정 2개 이상 차원이 있고 하나의 측정값 -> 분류 조합에 따라 측정값에 유효한 차이가 있는지 검정 카이 제곱 검정, fisher의 직접 확률 검정, 멕네마 검정, 잔차 분석
상관관계 강도 도출 독립적으로 움직이는 변수들 사이 관계의 강도를 상관계수로 나타냄 상관분석
선형/비선형 인과관계의 형태, 강도 추출 독립적으로 움직이는 변수들 사이 관계의 강도를 상관계수로 나타냄 회귀분석,로지스틱, 판별분석
요인들 사이의 관계와 핵심 요인 선별 변화 요인이 되는 값들이 3개라 할때 어떤 것이 측정값에 가장 영향을 미치는지, 다른 차원의 영향력과 어느 정도 겹치는지 분석 요인분석,주성분 분석
대상들을 여러 기준으로 분류, 다차원 공간 배치 차원들의 값 기준으로 측정값들 사이 거리를 계산해 그룹을 짓고 다차원 공간에 측정값 배치 군집분석, 다차원척도법(MDS)
패턴이 비슷한 측정값과 그젛지 않은 측정값 분류 답변들의 패턴에 따라 비슷한 답변을 한 응답자와 그렇지 않은 응답자 분류 대응분석
흐름에 따라 변하는 데이터 분석 모델 도출 추세요인, 계절요인, 순환요인, 불규칙요인으로 분해해 모델을 만들어 미래 예측 시계열분석

  • 차원이 많거나 불연속 데이터가 많은 경우 통계적 분석법 활용
  • 통계적 분석 기법의 결과물 : 구체적 계수, 설명계수, 그래프, 걸러진 변수
  • 시각적 도구와 통계적 도구는 상보적 관계

분석과 시각화 도구

  • 회귀분석에서 적합한 함수식을 찾는데 보조도구로서 사용됨
  • 회귀분석을 통해 인과관계를 살펴볼 수도 있고 전체 형태의 추세를 통해 미래 또는 축 상의 다음 측정값에 대한 예측을 할 수도 있다.
  • 만약 시각화 해보지 않으면 도출된 예측값만으로만 보면 현실적인 가정 및 조건을 놓칠 수 있다.
  • 통계적 분석 기법과 시각적 분석 기법은 밀접한 관계임

지표 설정과 분석

  1. 지표의 기본 개념
  • KPI : 기업에서 업무성과 평가 목표설정 등의 활동에 활용, 세부적인 활동 결과물 추진 정도나 수준을 측정하고 평가
  • 도출되는 결과값을 지표로 활용할 수 있다.
  • 의미가 있고 직관적으로 이해되는 수치들을 지표로 만드는 것이 가치가 있음
  1. 지표의 기본 구조
  • 지표는 인사이트를 커뮤니케이션에 활용, 분석할 때도 유용
  • 관계를 지표로 축약해 표현하면 다른 관계를 살펴보는 기준으로 삼기 편해짐
  1. 지표 활용시 주의점
  • 단위를 잘 살펴야 함
  • 시각화 도구에 적용할 때 적적하게 단위가 표현될 수 있는지 체크해야 함.
  • 척도와 관련된 문제는 없는지 봐야함
  • 지표로 분석할 때 다른 변수들이 이 지표와 어떤 관계에 있는지 봐야한다. 지표가 통계적 모델을 만들 때 포함된다면, 모델 설명력이 과대평가될 수 있다.
  • 요인 분석 : 지표가 지표를 만든 다른 요인들과 상당 부분 설명력이 겹치는지 확인
updatedupdated2021-01-202021-01-20
Load Comments?