데이터의 이해
데이터와 정보
데이터 유형
-
정성적 : 언어, 문자
-
정량적 : 수치, 도형, 기호
-
암묵지 : 학습과 체험을 통해 개인에게 습득되지만 겉으로 드러나지 않는 상태의 지식
-
형식지 : 암묵지가 문서 등으로 표출되어 공유할 수 있는 지식
공통화 -> 표출화 -> 연결화 -> 내면화 공통화 : 경험 공유를 통한 새로운 암묵지 창조 표출화 : 암묵지에서 구체적 개념 도출 연결화 : 형식지의 완성도를 높여 지식체계로 전환 내면화 : 형식지를 학습해 구체화된 개인 지식
- 위와 같은 과정을 거치며 지식의 발전을 기반으로 한 경영을 지식경영이라 함
데이터와 정보 관계
데이터 : 가공하기 전 순수한 수치나 기호 정보 : 상관관계 간 이해를 통해 패턴 인식, 의미부여(ex a마트 연필 가격이 더 싸다) 지식 : 정보 패턴을 이해하여 이를 토대로 예측한 결과물(ex 더 저렴한 a마트에서 연필을 삼) 지혜 : 근본 원리에 대한 깊은 이해를 바탕으로 도출되는 것(ex 다른 상품들도 쌀 것이라 판단)
데이터베이스 정의와 특성
데이터베이스 특징
- 통합된 데이터(중복x), 저장된 데이터, 공용 데이터, 변화되는 데이터
데이터베이스 특성
- 기계가독성, 검색가능성, 원격조작성
- 정보 이용, 관리
- 정보기술 발전, 경제 산업적 측면
데이터 베이스 활용
기업 내부 데이터베이스
1980년대
- OLTP : 온라인 거래처리, 트랜잭션을 컴퓨터에서 처리하여 결과를 사용자에게 돌려줌
- OLAP : 온라인 분석처리, 통계적 요약 정보를 제공하는 기술
2000년대
- CRM : 고객으로부터 수익창출, 장기적 고객관계
- SCM : 제조 등 유통공급망에 참여하는 모든 업체들이 협력을 바탕으로 정보기술 활용, 재고 최적화
분야별 기업 내부 데이터베이스
- 제조부문
- DW : 데이터 웨어하우스, 정보검색 목적
- ERP : 제조업 등 비즈니스 분야
- BI : 기업의 DW에 접근해 경영활동에 활용
- CRM
- 금융부문
- EAI : CRM, ERP, SCM등이 상호 연동 가능하게 함
- EDW : 기존 DW확장
- 블록체인 : 데이터 분산처리 기술
- ERP, e-CRM
- 유통부문
- KMS : 지식관리시스템
- RFID : 무선 주파수 이용
- CRM, SCM
DW 4대 특성 데이터 주제지향성, 데이터 통합, 데이터 시계열성, 데이터 비휘발성
사회 기반 구조 데이터베이스
- EDI : 전자문서를 만들어 교환
- CALS : 광속 상거래 물류 : VAN, 의료 : EDI, 교통 : ITS, 교육 : NEIS, 지리 : GPS,NGIS
BI, BA
구분 | BI(Business Intelligence) | BA(Business Analytics |
---|---|---|
목적 | 과거의 성과를 측정,비즈니스 계획 | 데이터와 통계 기반 성과 이해, 통찰력 중심 분석 |
응용 | 데이터 기반 의사결정 | 사전에 예측, 최적화, BI보다 진보 |
데이터 가치와 미래
빅데이터 정의
크기, 다양성, 속도 1tb = 1024gb 1pb = 1024tb 1eb = 1024pb 1zb = 1024eb
빅데이터 기능
- 석탄,철 : 차세대 산업혁명, 혁명적 변화
- 원유 : 정보를 제공해 생산성 향상
- 렌즈 : 데이터가 산업 전반에 영향
- 플랫폼 : 공동 활용의 목적으로 구축된 유무형 구조물
본질적 변화
사전 -> 사후 표본 -> 전수 질 -> 양 인과 -> 상관
빅데이터 활용 테크닉
- 연관규칙학습
- 유형분석(분류)
- 유전 알고리즘 : 최적화의 메커니즘을 찾음
- 기계학습 : 학습 후 예측
- 회귀분석 : 영향
- 감정 분석
- 소셜 네트워크 분석(sna)
위기 요인, 통제 방안
- 사생활 침해 : 동의제 -> 책임제
- 책임 원칙 훼손 : 책임 원칙 강화
- 데이터 오용 : 데이터 알고리즘 접근권 허용, 인증 방안
빅데이터 활용 3요소
데이터, 기술, 인력
데이터 사이언스와 전략 인사이트
일차적 분석 애플리케이션 사례
- 금융 : 신용점수, 사기탐지, 고객 수익성 분석
- 소매업 : 재고 보충, 수요예측
- 제조 : 맞춤형 상품, 신상품 개발
- 에너지 : 트레이딩 공급, 수요예측
- 온라인 : 웹 매트릭스, 고객 추천, 사이트 설계
데이터사이언스 구성 요소
- IT
- Analytics
- 비즈니스 분석
데이터 사이언티스트 요구 역량
- hard skill
- 이론적 지식
- 분석 기술 숙련
- soft skill
- 통찰력 있는 분석 : 창의적 사고, 호기심, 비판
- 설득력 있는 분석: 스토리텔링, 시각화
- 협력 : 커뮤티케이션
데이터 사이언스 : 과학과 인문의 교차로
사회경제적 환경 변화
- 단순 세계화 -> 복잡한 세계화
- 제품 생산 -> 서비스
- 생산 -> 시장 창조
인간을 바라보는 세 가지 관점
- 타고난 성향의 관점
- 행동적 관점
- 상황적 관점
가치 패러다임의 변화
- 디지털화
- 연결(사물인터넷)
- 에이전시 : 복잡한 연결을 얼마나 효과적으로 관리해주는가
데이터 분석 기획
분석 기획 방향성 도출
데이터 사이언스 역량
컴퓨터 사이언스, 비즈니스 분석능력, 수학통계학 지식
분석 주제 유형
- Optimization : 분석 대상, 방법을 이해
- Solution- 분석 대상만 암
- Insight : 분석 방법만 암
- Discovery : 분석 대상, 방법 모름
분석 기획 방안
당면한 주제(과제 단위) | 주제 | 지속적 분석 문화 내재화(마스터 플랜 단위) |
---|---|---|
Speed&Test | 1차 목표 | Accuracy&Deploy |
Quick-Win | 과제의 유형 | Long term View |
Problem Sovling | 접근 방식 | Problem Definition |
Quick-Win : 즉각적 실행을 통한 성과 도출
분석 기획 시 고려사항
- 가용한 데이터
- 적절한 유스케이스 탐색
- 장애 요소에 대한 사전 계획 수립 필요
분석 방법론
KDD 분석방법론
- 대상의 도메인에 대한 이해와 프로젝트 목표 설정
- 데이터셋 선택
- 데이터 전처리
- 데이터 변환
- 데이터 마이닝
- 데이터 마이닝 결과 평가
CRISP-DM 분석 방법론
- 업무 이해 : 목적 파악, 목표 설정, 계획 수립
- 데이터 이해 : 수집, 기술 분석, 탐색, 품질 확인
- 데이터 준비 : 선택, 정제, 통합, 포맷팅
- 모델링 : 알고리즘 선택, 파라미터 최적화
- 평가
- 전개 : 유지보수 계획, 보고서 작성
선택, 전처리 단계 -> 데이터 이해 단계
빅데이터 분석 방법론
- 분석 기획
- 데이터 준비
- 데이터 분석
- 시스템 구현
- 평가 및 전개
프로토 타입 : 제품의 원형, 검증을 거쳐야 시제품이 됨
분석 기획 단계
- 비즈니스 이해 및 범위 설정
- 진행 방향 설정 후 프로젝트 범위 정의서인 SOW 작성
- 프로젝트 정의 및 수립
- 프로젝트 정의 : KPI(핵심성과지표), 목표 수준 구체화
- 프로젝트 수행 계획 : WBS 작성(일정별 계획)
- 프로젝트 위험 계획 수립
- 위험 대응계획 수립 : 회피, 전이, 완화, 수용
데이터 준비
- 필요 데이터 정의
- 데이터 정의 : 메타데이터 정의서, ERD
- 데이터 스토어 설계
- 정형 : RDBMS 사용, 데이터 매핑
- 비정형 : NoSQL, 하둡 사용
- 데이터 수집 및 정합성 점검
- ETL, API, 크롤링으로 수집 API : 제공하는 기능을 제어할 수 있게 만든 인터페이스 ETL : 데이터 추출,변환, 적재의 약자, BI구현을 위한 구성요소
데이터 분석
- 분석용 데이터 준비
- 텍스트 분석
- EDA
- MODELING : 분할, 모델링, 적용 방안
- 평가 및 검증
시스템 구현
- 설계, 구현, 시스템 테스트 및 운영
평가 및 전개
- 발전 계획 수립 및 평가 보고
분석 과제 발굴
하향식 접근 방법, 상향식 접근 방법 최적화 -> 솔루션 발견 -> 통찰
하향식 접근 방법
- 문제 탐색 단계
-
비즈니스 모델 기반 탐색
- 업무, 제품, 고객, 규제와 감사, 지원 인프라
-
분석 기회 발굴의 범위 확장
- 거시적 관심의 요인
- 사회, 기술, 경제, 환경, 정치
- 경쟁자 확대 관점
- 경쟁사 영역, 대체재 영역, 신규 진입자 영역
- 시장의 니즈 탐색
- 고객 영역, 채널 영역, 영향자들 영역
- 역량의 재해석 관점
- 내부 역량, 네트워크 역량
- 거시적 관심의 요인
-
외부 참조 모델 기반 탐색
- Quick&Easy방식
-
분석 유즈 케이스
- 상세한 설명 및 해당 문제를 해결했을 때 발생하는 효과를 명시
- 문제 정의
- 해결 방안 탐색
- 타당성 검토
상향식 접근 방식
- 비지도학습 과정
분석 프로젝트 관리 방안
분석 과제 5가지 특성 관리 영역
- data size
- data complexity
- speed
- analystic complexity
- accuracy & precision
agile : 과거의 방식(워터폴 모델)과 달리 일정한 주기를 가지고 끊임없이 프로토타입을 만들어내 필요할 때마다 요구사항을 더하고 수정
분석 마스터 플랜
마스터플랜 수립 프레임워크
우선 순위 고려 요소
- 전략적 중요도
- 비즈니스 성과/ROI
- 실행 용이성
적용 범위/방식 고려 요소
- 업무 내재화 적용 수준
- 분석 데이터 적용 수준
- 기술 적용 수준
ISP : 정보전략계획, 정보를 포착해 전사적 관점의 정보 구조를 도출해 전략 및 실행 계획을 수립하는 전사적 종합정보 추진 계획
ROI 관점
- VALUE : 비즈니스 효과, 나머지 투자비용 요소
과제 우선순위
- 시급성 : 3-4-2
- 난이도 : 3-1-2
나선형 모델 : 여러번의 개발 과정을 거쳐 점진적으로 프로젝트를 완성시키는 모델
분석 거버넌스 체계 수립
분석 거버넌스 체계 구성요소
- Process(과제 기획, 운영), System(IT 프로그램), Data(데이터 거버넌스), Human resource(분석 교육), Organization(조직)
빅브라더 : 정보의 독점으로 사회를 통제하는 권력, 체계
분석 성숙도 모델(CMMI)
- 도입 : 환경과 시스템 구축
- 활용 : 결과를 실제 업무에 적용
- 확산 : 분석을 관리하고 공유
- 최적화 : 혁신 및 성과 향상에 기여
샌드박스 : 외부 접근을 차단해 제한된 영역 내에서 프로그램을 동작시킴(IT 최적화 단계) COE : 조직 내 새로운 역량을 만들어 확산하기 위한 전문가들 조합(조직 확산 단계)
- 높은 성숙도, 높은 준비도 -> 확산형
데이터 거버넌스 체계 요소
- 데이터 표준화 : 표준용어 설명, 명명 규칙, 메타데이터 구축
- 관리 체계 : 메타 데이터, 데이터 사전 관리 원칙
- 저장서 관리 : 전사 차원 저장소 구성
- 표준화 활동 : 구축 후 주기적으로 점검
데이터 조직 및 인력 방안 수립
- 집중구조 : 별도의 분석 전담 조직에서 담당, 이중화/이원화 가능성 높음
- 기능 구조 : 별도 조직이 없고 해당 업무 부서에서 진행, 전사적 핵심 분석이 어려움
- 분산 구조 : 분석 조직 인력들을 현업부서로 배치, 신속한 ACTION가능, 역할 분담 명확히 해야함