본문 바로가기
쫌쫌따리 통계+데이터+AI

T-TEST|ANOVA|상관분석

by stherhj 2022. 3. 11.



먼저 각 변수간의 등분산성을 확인한다.
H0: 집단간의 분산이 동일하다.
H1: 집단간의 분산이 동일하지 않다.
p-value가 유의수준 0.05 보다 크면 귀무가설을 기각하지 못하여 등분산성 만족

var.test(Sales~Urban, data=car, alternative="two.sided")


종속변수(Y)가 연속형이고 ~ 독립변수(X)가 범주형이며
1) 독립변수 X가 이항변수일 때 : t-test
H0: X 여부에 따른 Y의 차이가 없다.
H1: X 여부에 따른 Y의 차이가 있다.

t.test(Sales~Urban, data=car, alternative="two.sided", var.equal=TRUE)

2) 독립변수 X가 3개 이상의 범주를 가질 때 : ANOVA
(1) Y와의 관계를 확인하고자 하는 독립변수 X가 1개 (Y~X) : 일원배치 분산분석
(2) Y와의 관계를 확인하고자 하는 독립변수 X가 2개 이상 (Y~X1+X2...) : 이원배치 분산분석

aov(revenues~pop_density, data=bike)

연속형 종속변수 Y ~ 다수의 연속형 독립변수 X 상관관계 분석

cor(Sales, ComPrice) #피어슨 상관계수 산출
cor.test(Sales, ComPrice) #피어슨 상관계수 검정

cor.test(
  x,  # 숫자 벡터
  y,  # 숫자 벡터
  alternative=c("two.sided", "less", "greater"),  # 대립가설. 기본값은 양측 검정(two.sided)
  method=c("pearson", "kendall", "spearman")      # 상관 계수의 종류. 기본값은 피어슨
)

cor.test(c(1, 2, 3, 4, 5), c(1, 0, 3, 4, 5), method="pearson")

#   Pearson's product-moment correlation

#data: c(1, 2, 3, 4, 5) and c(1, 0, 3, 4, 5)
#t = 3.9279, df = 3, p-value = 0.02937
#alternative hypothesis: true correlation is not equal to 0
#95 percent confidence interval:
# 0.1697938 0.9944622
#sample estimates:
#      cor
#0.9149914
########################까지//상관계수에도 p-value가 붙는구나

cor.test(c(1, 2, 3, 4, 5), c(1, 0, 3, 4, 5), method="spearman")

#   Spearman's rank correlation rho

#data: c(1, 2, 3, 4, 5) and c(1, 0, 3, 4, 5)
#S = 2, p-value = 0.08333
#alternative hypothesis: true rho is not equal to 0
#sample estimates:
#rho
#0.9

cor.test(c(1, 2, 3, 4, 5), c(1, 0, 3, 4, 5), method="kendall")

#   Kendall's rank correlation tau

#data: c(1, 2, 3, 4, 5) and c(1, 0, 3, 4, 5)
#T = 9, p-value = 0.08333
#alternative hypothesis: true tau is not equal to 0
#sample estimates:
#tau
#0.8

(피어슨 상관계수: 두 개의 연속 변수, 스피어만 상관계수: 순위가 있는 서열척도)
각 X변수의 Y에 대한 상관계수를 검정(p-value를 통한 통계적 유의성 확인)

'쫌쫌따리 통계+데이터+AI' 카테고리의 다른 글

Data Imbalance 이슈 해결 : 언더샘플링 & 오버샘플링  (0) 2022.03.20
선형회귀  (0) 2022.03.12
통계학습  (0) 2022.03.12
잔차분석  (0) 2022.03.11
변수 선택법  (0) 2022.03.11

댓글