2. 회귀분석
정규화 선형회귀
선형회귀 계수에 대한 제약조건 추가, 과적합을 막음 계수의 크기를 제한하는 방법으로 제약조건 추가
-
Ridge Regression
- 가중치의 제곱합을 최소화
- 모든 원소가 0에 가까워짐, L2 규제
-
Lasso Regression
- 가중치 절대값의 합을 최소화
- 라쏘에서는 릿지와 다르게 가중치가 0이 되게 함, L1 규제
-
Elastic Net
- 릿지와 라쏘를 절충
- 두 개의 모수
GLM
종속변수를 적절한 함수로 변화시켜 독립변수를 선형 결합으로 모형화
- 랜덤성분(반응변수), 체계적 성분(선형식), 연결함수(랜덤과 체계적 연결)
랜덤성분 | 연결함수 | 체계적 성분 | model |
---|---|---|---|
Normal | identity(항등) | 연속형 | regression |
Normal | identity(항등) | 범주형 | ANOVA |
Normal | identity(항등) | Mixed | regression with Indicator Anova |
Binomial | Logit | Mixed | Logistic regression |
Poisson | Log | Mixed | log-linear |
Multinomial | Generalized Logit | Mixed | Multinomial response |
회귀분석의 영향력 진단
적합된 회귀모형의 안전성을 평가, 많은 변동이 있다면 안정성이 약함
- 회귀직선의 기울기에 영향을 크게 주는 점을 영향점이라고 함
cook’s distance full model에서 i번째 관측치를 포함해 계산한 적합치와 i번째 관측치를 포함하지 않고 계산한 적합치 사이 거리 DFBETAS 이 값이 커지면 i번째 관측치가 영향치 혹은 이상치일 가능성이 높다. DFFITS i번째 관측치 제외 시 종속변수 예측치의 변화정도를 측정 Leverage H 관측치가 다른 관측치 집단으로부터 떨어진 정도
- 2 * (p+1)/n 보다 크면 영향치이거나 이상치라고 봄 $$H = X(X^`X)^{-1}X$$
더빈 왓슨
- 오차항이 독립성을 만족하는지를 검정
- 2에 가까울수록 오차항의 자기상관이 없음을 의미
- 0에 가까울수록 양의 상관관계가 있고 4에 가까을수록 음의 상관관계 -» 상관관계가 있어 회귀식이 부적합함을 의미
변수 선택의 기준으로 사용되는 통계량
수정된 결정계수 : 결정계수의 단점 보완 Mallow’s Cp
- 최소자승법을 사용해 회귀모형의 적합성 평가
- 일반적으로 cp값이 작고 p+상수(변수개수+상수)에 가까운 모형을 선택
CP값 | 해석 |
---|---|
P(변수의 개수)와 비슷한 경우 | bias가 작고 우수한 모델 |
P(변수의 개수)보다 큰 경우 | bias가 크고 추가적인 변수가 필요한 모델 |
P(변수의 개수)보다 작은 경우 | variance의 증가폭보다 bias의 감소폭이 더 크고 필요 없는 변수가 존재하는 모델 |
변수변환
정규성, 선형성, 등분산성을 만족하지 못하는 경우 변수를 변환함으로써 교정
- 로그, 지수 변환
- 더미변수 생성
- box-cox 변환
- 정규성을 만족하도록 반응 변수를 다음과 같이 변환
$$
g_\lambda(y) =
\begin{cases}
y^\lambda, & \lambda \ne 0 \
logy, & \lambda = 0 \end{cases} $$ - $\lambda$는 우도함수를 최대화 시키는 조건으로 계산
- 정규성을 만족하도록 반응 변수를 다음과 같이 변환
$$
g_\lambda(y) =
\begin{cases}
y^\lambda, & \lambda \ne 0 \