ADP 공부하기 2

2. 회귀분석

정규화 선형회귀

형회귀 계수에 대한 제약조건 추가, 과적합을 막음 계수의 크기를 제한하는 방법으로 제약조건 추가

  • Ridge Regression

    • 가중치의 제곱합을 최소화
    • 모든 원소가 0에 가까워짐, L2 규제
  • Lasso Regression

    • 가중치 절대값의 합을 최소화
    • 라쏘에서는 릿지와 다르게 가중치가 0이 되게 함, L1 규제
  • Elastic Net

    • 릿지와 라쏘를 절충
    • 두 개의 모수

GLM

종속변수를 적절한 함수로 변화시켜 독립변수를 선형 결합으로 모형화

  • 랜덤성분(반응변수), 체계적 성분(선형식), 연결함수(랜덤과 체계적 연결)
랜덤성분 연결함수 체계적 성분 model
Normal identity(항등) 연속형 regression
Normal identity(항등) 범주형 ANOVA
Normal identity(항등) Mixed regression with Indicator Anova
Binomial Logit Mixed Logistic regression
Poisson Log Mixed log-linear
Multinomial Generalized Logit Mixed Multinomial response

회귀분석의 영향력 진단

적합된 회귀모형의 안전성을 평가, 많은 변동이 있다면 안정성이 약함

  • 회귀직선의 기울기에 영향을 크게 주는 점을 영향점이라고 함

cook’s distance full model에서 i번째 관측치를 포함해 계산한 적합치와 i번째 관측치를 포함하지 않고 계산한 적합치 사이 거리 DFBETAS 이 값이 커지면 i번째 관측치가 영향치 혹은 이상치일 가능성이 높다. DFFITS i번째 관측치 제외 시 종속변수 예측치의 변화정도를 측정 Leverage H 관측치가 다른 관측치 집단으로부터 떨어진 정도

  • 2 * (p+1)/n 보다 크면 영향치이거나 이상치라고 봄 $$H = X(X^`X)^{-1}X$$

더빈 왓슨

  • 오차항이 독립성을 만족하는지를 검정
  • 2에 가까울수록 오차항의 자기상관이 없음을 의미
  • 0에 가까울수록 양의 상관관계가 있고 4에 가까을수록 음의 상관관계 -» 상관관계가 있어 회귀식이 부적합함을 의미

변수 선택의 기준으로 사용되는 통계량

수정된 결정계수 : 결정계수의 단점 보완 Mallow’s Cp

  • 최소자승법을 사용해 회귀모형의 적합성 평가
  • 일반적으로 cp값이 작고 p+상수(변수개수+상수)에 가까운 모형을 선택
CP값 해석
P(변수의 개수)와 비슷한 경우 bias가 작고 우수한 모델
P(변수의 개수)보다 큰 경우 bias가 크고 추가적인 변수가 필요한 모델
P(변수의 개수)보다 작은 경우 variance의 증가폭보다 bias의 감소폭이 더 크고 필요 없는 변수가 존재하는 모델

변수변환

정규성, 선형성, 등분산성을 만족하지 못하는 경우 변수를 변환함으로써 교정

  • 로그, 지수 변환
  • 더미변수 생성
  • box-cox 변환
    • 정규성을 만족하도록 반응 변수를 다음과 같이 변환 $$ g_\lambda(y) = \begin{cases} y^\lambda, & \lambda \ne 0 \
      logy, & \lambda = 0 \end{cases} $$
    • $\lambda$는 우도함수를 최대화 시키는 조건으로 계산
updatedupdated2021-01-202021-01-20
Load Comments?