ADP 공부하기 1

가 공부한 것을 요약하는 위주이기 때문에 아는 내용은 가볍게 넘어감.

데이터 분석

1. 통계분석

연속형 확률분포

  • t분포 평균의 동일성 검정, 데이터가 연속형일때, 자유도 30미만
  • 카이제곱 분포 두 집단의 동질성 검정,자유도 (r-1)(c-1)
  • F분포 등분산성 검정, 자유도가 두 개고 커질수록 정규분포에 가까움

r을 활용한 one t-검정

t검정은 모두 모집단이 정규성을 만족한다고 가정

1
2
shapiro.test(data)
t.test(data, alternaive="two.sided",mu=200)

p-value가 0.05보다 높으면 정규분포를 따르는 것임 -> t-test 수행 가능

paired sample t-test(대응표본)

한 모집단에 대해 두 가지 처리를 했을 때 두 가지의 평균의 차이를 검정 개체별로 짝지어진 관측값 사의 차이로 검정

1
t.test(data$before, data$after , alternaive="less",paired="True")

m 변수가 따로 있지만 차이가 0인지 검정하기 때문에 따로 필요없음

paired sample t-test(독립표본)

두 개의 독립된 모집단 검정, 모분산이 동일해야(등분산 검정 선행)

1
2
var.test(formula , data , alternaive="two.sided")
t.test(data$before, data$after , alternaive="less",var.equal="True")

분산분석

one-way anova

  • 하나의 범주형 변수의 영향을 알아보기 위함

  • 표본의 수가 같지 않아도 되고 모집단의 수는 제한이 없다.

  • 정규성, 등분산성 가정

  • 사후 검정 분산분석의 결과 기각되어 평균의 차이가 있음이 통계적으로 증명되었을 경우, 어떤 집단들에 대해 평균의 차이가 존재하는지 알아보기 위함 Duncan의 Multiple Range Test(MRT), Fisher의 최소유의차(LSD), Tukey의 HSD, Scheffe의 방법이 있다.

r에서의 일원배치 분산분석

  • 그룹을 구분하는 기준이 되는 변수는 반드시 factor형이어야 함.
1
2
3
result = aov(formula, data)
summary(result)
TukeyHSD(result,conf.level=0.95)

diff a-b로 연결되어 있을 때 양수면 a가 유의하게 큰 값을 가짐

two-way anova

  • 두 개의 범주형 변수의 영향을 알아봄
  • 교호작용에 대한 검증이 진행되어야 함
  • 모형 $$y_{ijk} = \mu + \alpha_i + \beta_j + (\alpha\beta)_{ij} + \epsilon_{ijk}$$
요인 제곱합 자유도 평균제곱합 F
요인a $$SS_a$$ $$I-1$$ $$MS_a = \frac{SSA}{I-1}$$ $$F_a = \frac{MSA}{MSE}$$
요인b $$SS_b$$ $$J-1$$ $$MS_b = \frac{SSB}{J-1}$$ $$F_b = \frac{MSB}{MSE}$$
상호 작용 $$SS_{a \times b}$$ $$(I-1)(J-1)$$ $$MS_{ab} = \frac{SSAB}{(I-1)(J-1)}$$ $$F_{ab} = \frac{MSAB}{MSE}$$
오차 $$SSE$$ $$IJ(n-1)$$ $$MSE = \frac{SSA}{IJ(n-1)}$$
전체 $$SST$$ $$IJn-1$$

귀무가설(H0)

  • 변수에 따른 종속 변수의 값에는 차이가 없다.
  • A, B변수의 상호작용 효과가 없다. 대립가설(H1)
  • 변수에 따른 종속 변수의 값에는 차이가 있다.(a가 모두 0이라 할 수 없다)
  • a와 b변수의 상호작용 효과가 있다.

교호작용 두 가지 이상의 특정 변수 조합에서 일어나는 효과 (상관관계가 존재할 경우 교호작용이 있다는 의미)

  • 교호작용이 있다면 검정이 무의미하다

실험계획법

  • 개념 시스템이나 프로세스의 결과에 영향을 미치는 인자를 도출, 측정 데이터를 실험적으로 설계 최소 실험 횟수로 최대의 정보를 얻는 것
  • 목적 분산분석 및 검정과 추정 : 유의미한 영향, 요인의 영향 파악 최적 반응 조건의 결정 : 어떤 인자를 사용해야 가장 원하는 결과값을 얻을지 파악 오차항 추정의 문제 : 이해하기 어렵던 오차와 그 변동에 관한 정도

실험계획법의 원리

  • 랜덤화의 원리, 반복의 원리, 블록화의 원리, 직교화, 교락
  • 교락 : 2개 이상의 효과를 구별할 수 없도록 계획적으로 조합
  • 블록 : 실험 단위가 균일할 수 있도록 단위를 모은 것
  • 반복 : 인자들의 동일한 수준 조합에서 다회의 실험을 진행

실험계획법의 종류

  • 요인배치법
    • 모든 인자간의 수준 조합에서 실험이 이루어지는 완전랜덤화방법
    • 교호효과를 포함한 모든 요인효과를 추정할 수 있다.
    • $K^n$형 요인실험 : 인자 수가 n이고, 수준 수가 k인 실험계획법
  • 분할법
    • 몇 단계로 분할하여 각 단계별로 완전 랜덤하게 실험 순서를 결정
    • 랜덤화 어려운 것을 1차 단위, 쉬운 것을 후 단위로 배치
  • 교락법
    • 검출할 필요가 없는 교호작용을 다른 요인과 교락하도록 배치하는 방법
    • 실험 전체를 몇 개의 블록으로 나누어 배치, 실험 횟수를 줄일 수 있다.
    • 교호작용을 교락시키기 때문에 주효과가 높게 추정
  • 난괴법
    • 실험 단위를 몇 개의 반복으로 나누어 배치
    • a가 모수인자. b가 변량인자일 때, a의 수준수가 1, b의 수준수가 m인 반복이 없는 이원배치 분산분석방법이다.

교차분석

범주형 자료인 두 변수 간의 관계

  • 적합도 검정
1
chisq.test(data,p=c(0.2,0.8))
  • 독립성 검정
  • 동질성 검정 독립성 검정과 같은 방법으로 진행, 가설만 다름

중심 극한 정리

n이 커질수록(30이상) 표본평균의 분포가 정규분포에 가까워짐

updatedupdated2021-03-012021-03-01
Load Comments?