ADP 공부하기 10

활용 내부에서 적용 활용되는 과정에서 새로운 통찰을 찾을 수도 있고 기존 통찰에서 부족한 점을 보완할 수 있다. 새로운 문제 해결 방식 도입과 구체적인 탐색과 발전의 과정 새로운 변인을 추가하거나 관련된 상수값을 보정, 서비스 개선 요소의 모델을 발견해 실행에 옮길 수도 있음 통찰은 보통 형태가 없어 시각화하는 것이 중요하다.

ADP 공부하기 9

시각화 인사이트 프로세스 시각화 인사이트 프로세스 의미 사전적 의미로 정보, 인과관계, 본질 , 이해 DIKW피라미드 데이터 : 개별적 기초 자료(원자료) EX 강수량 정보 : 데이터 간의 관계(상관,인과 관계) EX 지역별 연간 강수량 지식 : 다양한 정보가 상위 관계를 맺고 조직화 EX A마을의 수해대책 지혜 : 개인화된 지식,경험 등과 관계를 맺을 때 구조화되어 나타남 EX A마을 주민 개개인의 생활 노하우

ADP 공부하기 8

분산 컴퓨팅 기술 MapReduce 개념 구글에서 분산 병렬 컴퓨팅을 이용하여 2004년 논문에서 공개됨 분할정복 방식으로 대용량 데이터를 병렬로 처리할 수 있는 모델 분할정복 : 성질이 같은 여러 부분으로 나눠 해결한 뒤 원래 문제의 해를 구함 c++,JAVA 적용, 아파치 하둡의 Hadoop MapReduce가 동일한 기능 클라이언트의 작업 단위는 맵리듀스 잡 map, reuce task로 나뉨 map task 하나가 1개의 블록을 대상으로 연산, 사용자가 지정한 개수에 해당하는 reduce task들이 받아 정렬 및 필터링 작업을 거침 구글 맵리듀스 복잡성을 추상화시켜 핵심 기능 구현에만 집중하게 함 map에는 key와 value 쌍들을 입력으로 받음 map함수를 거치면서 다수의 새로운 key, value로 변환 reduce로 전동됨.

ADP 공부하기 7

데이터 처리 기술 분산 파일 시스템 개요 저장 기술은 분산 파일시스템, 클러스터, DB, NOSQL로 구분됨 사용자 중심의 인터넷 서비스와 유비쿼터스 컴퓨팅 환경은 대규모 클러스터 시스템 플랫폼의 필요성을 부각시킴. 최근에는 파일의 메타데이터를 관리하는 전용 서버를 가지고 있는 ‘비대칭형 클러스터 파일 시스템’이 활발히 개발 구글 파일 시스템 (GFS) 개념

ADP 공부하기 6

데이터 처리 프로세스 데이터 통합 및 연계 기법 데이터 연계 및 통합 유형(동기화 기준) 연계 통합시 일괄(BATCH) 작업, 비동기식 근접 실시간(NRT), 또는 동기 실시간 방식 혼용 실시간 통합 : 관심 대상 영역 상태에 대한 빠른 파악 및 대응 가능

ADP 공부하기 5

데이터 처리 프로세스 ETL 데이터의 이동 및 변환 절차와 관련된 용어 데이터 스토어, 웨어하우스, 마트 등에 데이터를 적재 데이터 통합, 이동, 마스터 데이터 관리(MDM)에 활용, 이동과 변환이 목적 대용량 데이터 처리(MPP) 다수 시스템 간 대용량 데이터 교환 Batch, ETL, Real Time등으로 구분 ETL 기능 Extraction : 데이터 소스로부터 데이터 획득 Transformation : 데이터 클렌징, 변한, 형식 변환, 표준화, 통합 등의 비즈니스 룰 Loading : 변형이 완료된 데이터를 특정 시스템에 적재

ADP 공부하기 4

비정형 데이터마이닝 텍스트 마이닝 입력된 텍스트를 구조화해 그 데이터에서 패턴을 도출 후, 결과를 평가 및 해석 다양한 포맷의 문서로부터 텍스트를 추출 자연어로 구성된 비정형 텍스트 데이터 속에서 정보나 관계를 발견 텍스트마이닝 기능 : 문서 요약, 분류, 군집, 특성 추출 Corpus 데이터의 정제 통합 선택 변환의 과정을 거친 구조화된 단계 ‘tm’패키지에서 문서를 관리하는 기본 구조, 문서들의 집합 tm패키지 함수 VCorpus() : 문서를 Corpus class로 만들어줌.