정형 데이터마이닝 1. 데이터 마이닝 개요 변수 선택 filter method
각각의 변수들에 대해 통계적 점수 부여, 점수로 순위를 매김 chi squared, information gain, correlatioin 등 wrapper method
변수 간 상호 작용 감지, 변수의 일부만 모델링에 사용 후 결과 평가 -> 반복 recursive feature elimination algorithm embedded method
2. 회귀분석 정규화 선형회귀 선형회귀 계수에 대한 제약조건 추가, 과적합을 막음 계수의 크기를 제한하는 방법으로 제약조건 추가
Ridge Regression
가중치의 제곱합을 최소화 모든 원소가 0에 가까워짐, L2 규제 Lasso Regression
가중치 절대값의 합을 최소화 라쏘에서는 릿지와 다르게 가중치가 0이 되게 함, L1 규제 Elastic Net
내가 공부한 것을 요약하는 위주이기 때문에 아는 내용은 가볍게 넘어감.
데이터 분석 1. 통계분석 연속형 확률분포 t분포 평균의 동일성 검정, 데이터가 연속형일때, 자유도 30미만 카이제곱 분포 두 집단의 동질성 검정,자유도 (r-1)(c-1) F분포 등분산성 검정, 자유도가 두 개고 커질수록 정규분포에 가까움 r을 활용한 one t-검정 t검정은 모두 모집단이 정규성을 만족한다고 가정