KNN

KNN `가장 가까운 K개 점을 선택헤 분류 및 예측 iris datasets으로 KNN 적용 모델 예측 및 confusion matrix 보기 1 2 3 4 from sklearn import neighbors, datasets import numpy as np import matplotlib.pyplot as plt from matplotlib.colors import ListedColormap 1 2 3 4 iris = datasets.

DBSCAN

DBSCAN ` 밀도 기반 군집 초기값에 민감하고 이상치 민감한 K-means 문제 해결 방법 eps-neighbors : epsilon 거리 이내의 데이터들을 한 군집으로 구성 minPts : minPts보다 같거나 많은 데이터로 구성, minPts보다 적은 수의 데이터가 eps를 형성하면 noise로 취급 -> -1 hyper parameter 정하기 minPts

K-means

K-means Clustering ` 각 군집에 할당된 포인트들의 평균 좌표를 이용해 중심점을 반복적으로 업데이트 각 데이터에 대해 가까운 데이터 찾고 새로 할당된 군집 기반으로 새로운 중심 계산 클러스터 할당이 바뀌지 않을 때까지 반복 거리는 Manhattan이나 Euclidean K 설정 문제 최적화되 k를 찾기 어려움 -> Silhouette method 사용 - 객체와 그 객체가 속한 군집의 데이터들과의 비 유사성을 계산

Clustering 소개, Hierarchical clustering

군집 분석 ` 각 데이터의 유사성을 측정하여 높은 대상 집단을 분류하고 군집 간에 상이성을 규명 K-means : 사용자가 지정한 k개의 군집으로 나누기 Hierarchical : 나무 모양의 계층 구조를 형성해 나감. DBSCAN : 밀도 기반 군집, K개 설정 필요없음. Hierarchical Clustering 가까운 집단부터 계층적으로 묶어나감 dendogram을 통해 시각화 가능 군집의 개수를 정하지 않아도 되나 데이터가 많을 경우 시각화나 많은 계층으로 나누기가 힘들어 데이터가 적으면 보기 좋음.

연관 분석

연관 분석 ` 거래 또는 사건들 간의 규칙을 발견하여 IF-THEN 구조로 결과의 연관성을 파악 연관 규칙 측도 지지도(support) : 전체 거래 중 A와 B를 동시에 포함하는 비율 $P(A \cap B) $ 신뢰도(confidence) : A 거래중 A와 B를 동시에 포함하는 비율 $P(B | A)$ 향상도(lift) : A가 구매되지 않았을 때 B의 구매확률에 비해 A가 구매되었을 때 B의 구매확률의 증가비 $P(B | A) / P(B)$ Apriori 최소 지지도 이상의 빈발항목집합을 찾은 후 연관규칙 계산

가설 검정

1. 통계적 가설 검정 `모집단의 특성에 대한 가설에 대한 통계적 유의성 검정 - 통계적 유의성 -> 확률적으로 봐서 단순한 우연이 아님 과정 귀무 가설 대립 가설 설정 검정 통계량 설정 기각역 설정 검정통계량 계산 의사 결정 가설 검정 오류 제 1종 오류 : 참인데 거짓이라 함