KNN `가장 가까운 K개 점을 선택헤 분류 및 예측
iris datasets으로 KNN 적용 모델 예측 및 confusion matrix 보기 1 2 3 4 from sklearn import neighbors, datasets import numpy as np import matplotlib.pyplot as plt from matplotlib.colors import ListedColormap 1 2 3 4 iris = datasets.
DBSCAN ` 밀도 기반 군집
초기값에 민감하고 이상치 민감한 K-means 문제 해결 방법 eps-neighbors : epsilon 거리 이내의 데이터들을 한 군집으로 구성 minPts : minPts보다 같거나 많은 데이터로 구성, minPts보다 적은 수의 데이터가 eps를 형성하면 noise로 취급 -> -1 hyper parameter 정하기 minPts
K-means Clustering ` 각 군집에 할당된 포인트들의 평균 좌표를 이용해 중심점을 반복적으로 업데이트
각 데이터에 대해 가까운 데이터 찾고 새로 할당된 군집 기반으로 새로운 중심 계산 클러스터 할당이 바뀌지 않을 때까지 반복 거리는 Manhattan이나 Euclidean K 설정 문제 최적화되 k를 찾기 어려움 -> Silhouette method 사용 - 객체와 그 객체가 속한 군집의 데이터들과의 비 유사성을 계산
군집 분석 ` 각 데이터의 유사성을 측정하여 높은 대상 집단을 분류하고 군집 간에 상이성을 규명
K-means : 사용자가 지정한 k개의 군집으로 나누기 Hierarchical : 나무 모양의 계층 구조를 형성해 나감. DBSCAN : 밀도 기반 군집, K개 설정 필요없음. Hierarchical Clustering 가까운 집단부터 계층적으로 묶어나감 dendogram을 통해 시각화 가능 군집의 개수를 정하지 않아도 되나 데이터가 많을 경우 시각화나 많은 계층으로 나누기가 힘들어 데이터가 적으면 보기 좋음.
1 2 3 4 5 6 7 8 9 10 11 12 import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns from scipy import stats import statsmodels.api as sm from sklearn.model_selection import train_test_split from sklearn.
연관 분석 ` 거래 또는 사건들 간의 규칙을 발견하여 IF-THEN 구조로 결과의 연관성을 파악
연관 규칙 측도 지지도(support) : 전체 거래 중 A와 B를 동시에 포함하는 비율 $P(A \cap B) $ 신뢰도(confidence) : A 거래중 A와 B를 동시에 포함하는 비율 $P(B | A)$ 향상도(lift) : A가 구매되지 않았을 때 B의 구매확률에 비해 A가 구매되었을 때 B의 구매확률의 증가비 $P(B | A) / P(B)$ Apriori 최소 지지도 이상의 빈발항목집합을 찾은 후 연관규칙 계산
1. 통계적 가설 검정 `모집단의 특성에 대한 가설에 대한 통계적 유의성 검정 - 통계적 유의성 -> 확률적으로 봐서 단순한 우연이 아님
과정
귀무 가설 대립 가설 설정 검정 통계량 설정 기각역 설정 검정통계량 계산 의사 결정 가설 검정 오류
제 1종 오류 : 참인데 거짓이라 함