ADSP 복습 1

데이터의 이해

데이터와 정보

데이터 유형

  • 성적 : 언어, 문자

  • 정량적 : 수치, 도형, 기호

  • 암묵지 : 학습과 체험을 통해 개인에게 습득되지만 겉으로 드러나지 않는 상태의 지식

  • 형식지 : 암묵지가 문서 등으로 표출되어 공유할 수 있는 지식

공통화 -> 표출화 -> 연결화 -> 내면화 공통화 : 경험 공유를 통한 새로운 암묵지 창조 표출화 : 암묵지에서 구체적 개념 도출 연결화 : 형식지의 완성도를 높여 지식체계로 전환 내면화 : 형식지를 학습해 구체화된 개인 지식

  • 위와 같은 과정을 거치며 지식의 발전을 기반으로 한 경영을 지식경영이라 함

데이터와 정보 관계

데이터 : 가공하기 전 순수한 수치나 기호 정보 : 상관관계 간 이해를 통해 패턴 인식, 의미부여(ex a마트 연필 가격이 더 싸다) 지식 : 정보 패턴을 이해하여 이를 토대로 예측한 결과물(ex 더 저렴한 a마트에서 연필을 삼) 지혜 : 근본 원리에 대한 깊은 이해를 바탕으로 도출되는 것(ex 다른 상품들도 쌀 것이라 판단)

데이터베이스 정의와 특성

데이터베이스 특징

  • 통합된 데이터(중복x), 저장된 데이터, 공용 데이터, 변화되는 데이터

데이터베이스 특성

  • 기계가독성, 검색가능성, 원격조작성
  • 정보 이용, 관리
  • 정보기술 발전, 경제 산업적 측면

데이터 베이스 활용

기업 내부 데이터베이스

1980년대

  • OLTP : 온라인 거래처리, 트랜잭션을 컴퓨터에서 처리하여 결과를 사용자에게 돌려줌
  • OLAP : 온라인 분석처리, 통계적 요약 정보를 제공하는 기술

2000년대

  • CRM : 고객으로부터 수익창출, 장기적 고객관계
  • SCM : 제조 등 유통공급망에 참여하는 모든 업체들이 협력을 바탕으로 정보기술 활용, 재고 최적화

분야별 기업 내부 데이터베이스

  1. 제조부문
    • DW : 데이터 웨어하우스, 정보검색 목적
    • ERP : 제조업 등 비즈니스 분야
    • BI : 기업의 DW에 접근해 경영활동에 활용
    • CRM
  2. 금융부문
    • EAI : CRM, ERP, SCM등이 상호 연동 가능하게 함
    • EDW : 기존 DW확장
    • 블록체인 : 데이터 분산처리 기술
    • ERP, e-CRM
  3. 유통부문
    • KMS : 지식관리시스템
    • RFID : 무선 주파수 이용
    • CRM, SCM

DW 4대 특성 데이터 주제지향성, 데이터 통합, 데이터 시계열성, 데이터 비휘발성

사회 기반 구조 데이터베이스

  • EDI : 전자문서를 만들어 교환
  • CALS : 광속 상거래 물류 : VAN, 의료 : EDI, 교통 : ITS, 교육 : NEIS, 지리 : GPS,NGIS

BI, BA

구분 BI(Business Intelligence) BA(Business Analytics
목적 과거의 성과를 측정,비즈니스 계획 데이터와 통계 기반 성과 이해, 통찰력 중심 분석
응용 데이터 기반 의사결정 사전에 예측, 최적화, BI보다 진보

데이터 가치와 미래

빅데이터 정의

크기, 다양성, 속도 1tb = 1024gb 1pb = 1024tb 1eb = 1024pb 1zb = 1024eb

빅데이터 기능

  • 석탄,철 : 차세대 산업혁명, 혁명적 변화
  • 원유 : 정보를 제공해 생산성 향상
  • 렌즈 : 데이터가 산업 전반에 영향
  • 플랫폼 : 공동 활용의 목적으로 구축된 유무형 구조물

본질적 변화

사전 -> 사후 표본 -> 전수 질 -> 양 인과 -> 상관

빅데이터 활용 테크닉

  1. 연관규칙학습
  2. 유형분석(분류)
  3. 유전 알고리즘 : 최적화의 메커니즘을 찾음
  4. 기계학습 : 학습 후 예측
  5. 회귀분석 : 영향
  6. 감정 분석
  7. 소셜 네트워크 분석(sna)

위기 요인, 통제 방안

  • 사생활 침해 : 동의제 -> 책임제
  • 책임 원칙 훼손 : 책임 원칙 강화
  • 데이터 오용 : 데이터 알고리즘 접근권 허용, 인증 방안

빅데이터 활용 3요소

데이터, 기술, 인력

데이터 사이언스와 전략 인사이트

일차적 분석 애플리케이션 사례

  • 금융 : 신용점수, 사기탐지, 고객 수익성 분석
  • 소매업 : 재고 보충, 수요예측
  • 제조 : 맞춤형 상품, 신상품 개발
  • 에너지 : 트레이딩 공급, 수요예측
  • 온라인 : 웹 매트릭스, 고객 추천, 사이트 설계

데이터사이언스 구성 요소

  1. IT
  2. Analytics
  3. 비즈니스 분석

데이터 사이언티스트 요구 역량

  • hard skill
    • 이론적 지식
    • 분석 기술 숙련
  • soft skill
    • 통찰력 있는 분석 : 창의적 사고, 호기심, 비판
    • 설득력 있는 분석: 스토리텔링, 시각화
    • 협력 : 커뮤티케이션

데이터 사이언스 : 과학과 인문의 교차로

사회경제적 환경 변화

  1. 단순 세계화 -> 복잡한 세계화
  2. 제품 생산 -> 서비스
  3. 생산 -> 시장 창조

인간을 바라보는 세 가지 관점

  1. 타고난 성향의 관점
  2. 행동적 관점
  3. 상황적 관점

가치 패러다임의 변화

  1. 디지털화
  2. 연결(사물인터넷)
  3. 에이전시 : 복잡한 연결을 얼마나 효과적으로 관리해주는가



데이터 분석 기획

분석 기획 방향성 도출

데이터 사이언스 역량

컴퓨터 사이언스, 비즈니스 분석능력, 수학통계학 지식

분석 주제 유형

  • Optimization : 분석 대상, 방법을 이해
  • Solution- 분석 대상만 암
  • Insight : 분석 방법만 암
  • Discovery : 분석 대상, 방법 모름

분석 기획 방안

당면한 주제(과제 단위) 주제 지속적 분석 문화 내재화(마스터 플랜 단위)
Speed&Test 1차 목표 Accuracy&Deploy
Quick-Win 과제의 유형 Long term View
Problem Sovling 접근 방식 Problem Definition

Quick-Win : 즉각적 실행을 통한 성과 도출

분석 기획 시 고려사항

  1. 가용한 데이터
  2. 적절한 유스케이스 탐색
  3. 장애 요소에 대한 사전 계획 수립 필요

분석 방법론

KDD 분석방법론

  1. 대상의 도메인에 대한 이해와 프로젝트 목표 설정
  2. 데이터셋 선택
  3. 데이터 전처리
  4. 데이터 변환
  5. 데이터 마이닝
  6. 데이터 마이닝 결과 평가

CRISP-DM 분석 방법론

  1. 업무 이해 : 목적 파악, 목표 설정, 계획 수립
  2. 데이터 이해 : 수집, 기술 분석, 탐색, 품질 확인
  3. 데이터 준비 : 선택, 정제, 통합, 포맷팅
  4. 모델링 : 알고리즘 선택, 파라미터 최적화
  5. 평가
  6. 전개 : 유지보수 계획, 보고서 작성

선택, 전처리 단계 -> 데이터 이해 단계

빅데이터 분석 방법론

  1. 분석 기획
  2. 데이터 준비
  3. 데이터 분석
  4. 시스템 구현
  5. 평가 및 전개

프로토 타입 : 제품의 원형, 검증을 거쳐야 시제품이 됨

분석 기획 단계

  1. 비즈니스 이해 및 범위 설정
    • 진행 방향 설정 후 프로젝트 범위 정의서인 SOW 작성
  2. 프로젝트 정의 및 수립
    • 프로젝트 정의 : KPI(핵심성과지표), 목표 수준 구체화
    • 프로젝트 수행 계획 : WBS 작성(일정별 계획)
  3. 프로젝트 위험 계획 수립
    • 위험 대응계획 수립 : 회피, 전이, 완화, 수용

데이터 준비

  1. 필요 데이터 정의
    • 데이터 정의 : 메타데이터 정의서, ERD
  2. 데이터 스토어 설계
    • 정형 : RDBMS 사용, 데이터 매핑
    • 비정형 : NoSQL, 하둡 사용
  3. 데이터 수집 및 정합성 점검
    • ETL, API, 크롤링으로 수집 API : 제공하는 기능을 제어할 수 있게 만든 인터페이스 ETL : 데이터 추출,변환, 적재의 약자, BI구현을 위한 구성요소

데이터 분석

  1. 분석용 데이터 준비
  2. 텍스트 분석
  3. EDA
  4. MODELING : 분할, 모델링, 적용 방안
  5. 평가 및 검증

시스템 구현

- 설계, 구현, 시스템 테스트 및 운영

평가 및 전개

- 발전 계획 수립 및 평가 보고

분석 과제 발굴

하향식 접근 방법, 상향식 접근 방법 최적화 -> 솔루션 발견 -> 통찰

하향식 접근 방법

  1. 문제 탐색 단계
  • 비즈니스 모델 기반 탐색

    • 업무, 제품, 고객, 규제와 감사, 지원 인프라
  • 분석 기회 발굴의 범위 확장

    • 거시적 관심의 요인
      • 사회, 기술, 경제, 환경, 정치
    • 경쟁자 확대 관점
      • 경쟁사 영역, 대체재 영역, 신규 진입자 영역
    • 시장의 니즈 탐색
      • 고객 영역, 채널 영역, 영향자들 영역
    • 역량의 재해석 관점
      • 내부 역량, 네트워크 역량
  • 외부 참조 모델 기반 탐색

    • Quick&Easy방식
  • 분석 유즈 케이스

    • 상세한 설명 및 해당 문제를 해결했을 때 발생하는 효과를 명시
  1. 문제 정의
  2. 해결 방안 탐색
  3. 타당성 검토

상향식 접근 방식

  • 비지도학습 과정

분석 프로젝트 관리 방안

분석 과제 5가지 특성 관리 영역

  • data size
  • data complexity
  • speed
  • analystic complexity
  • accuracy & precision

agile : 과거의 방식(워터폴 모델)과 달리 일정한 주기를 가지고 끊임없이 프로토타입을 만들어내 필요할 때마다 요구사항을 더하고 수정


분석 마스터 플랜

마스터플랜 수립 프레임워크

우선 순위 고려 요소

  • 전략적 중요도
  • 비즈니스 성과/ROI
  • 실행 용이성

적용 범위/방식 고려 요소

  • 업무 내재화 적용 수준
  • 분석 데이터 적용 수준
  • 기술 적용 수준

ISP : 정보전략계획, 정보를 포착해 전사적 관점의 정보 구조를 도출해 전략 및 실행 계획을 수립하는 전사적 종합정보 추진 계획

ROI 관점

  • VALUE : 비즈니스 효과, 나머지 투자비용 요소

과제 우선순위

  • 시급성 : 3-4-2
  • 난이도 : 3-1-2

나선형 모델 : 여러번의 개발 과정을 거쳐 점진적으로 프로젝트를 완성시키는 모델

분석 거버넌스 체계 수립

분석 거버넌스 체계 구성요소

  • Process(과제 기획, 운영), System(IT 프로그램), Data(데이터 거버넌스), Human resource(분석 교육), Organization(조직)

빅브라더 : 정보의 독점으로 사회를 통제하는 권력, 체계

분석 성숙도 모델(CMMI)

  • 도입 : 환경과 시스템 구축
  • 활용 : 결과를 실제 업무에 적용
  • 확산 : 분석을 관리하고 공유
  • 최적화 : 혁신 및 성과 향상에 기여

샌드박스 : 외부 접근을 차단해 제한된 영역 내에서 프로그램을 동작시킴(IT 최적화 단계) COE : 조직 내 새로운 역량을 만들어 확산하기 위한 전문가들 조합(조직 확산 단계)

  • 높은 성숙도, 높은 준비도 -> 확산형

데이터 거버넌스 체계 요소

  • 데이터 표준화 : 표준용어 설명, 명명 규칙, 메타데이터 구축
  • 관리 체계 : 메타 데이터, 데이터 사전 관리 원칙
  • 저장서 관리 : 전사 차원 저장소 구성
  • 표준화 활동 : 구축 후 주기적으로 점검

데이터 조직 및 인력 방안 수립

  • 집중구조 : 별도의 분석 전담 조직에서 담당, 이중화/이원화 가능성 높음
  • 기능 구조 : 별도 조직이 없고 해당 업무 부서에서 진행, 전사적 핵심 분석이 어려움
  • 분산 구조 : 분석 조직 인력들을 현업부서로 배치, 신속한 ACTION가능, 역할 분담 명확히 해야함
updatedupdated2021-01-202021-01-20
Load Comments?