본문 바로가기

쫌쫌따리 통계+데이터+AI29

선형회귀 갑자기 교정 장치 떨어져서 고터까지 와갖고 치과에서 콘서트 티켓값쓰고.. 와중에 치과에 사람 갸많아서 치대 유학 유튜버 찾아보다가 뭐하는건가 싶어서 그냥 카페와서 책이나 봄..여기 되게 멋진 스벅이랬는데 생각보다 꼬질이여~ 단순선형회귀: '하나의' 설명변수 X에 대한 양적 반응변수 Y를 예측 선형회귀 적합의 질: 잔차표준오차(RMSE), R^2 통계량 잔차 표준오차가 크다면 모델이 데이터를 잘 적합하지 않는다는 것. 그러나 이는 Y의 단위로 측정되어 '절대적'측도가 됨. R^2는 이를 비율 형태로 변환하여(1-RSS/TSS) 0~1 사이 값을 가지며 Y의 크기와 무관해짐 다중선형회귀: still 선형회귀 but with 2개 이상의 x (*맨날 궁금했던거!* 단순선형회귀 (1:1 관계)에서는 상관관계가 .. 2022. 3. 12.
통계학습 쿠키먹고 싶었는데 원하는게 없어서 비슷한 말차 스콘 시켰는데 탈락! 대학원 내내 이 책을 얼마나 봤는데 아직도 보고 아?아~!하고 있는게 넘 슬퍼서 굴레를 깨고자 정리를 시작ㅜㅜ 추억의 책도 이제 찐막..찐찐막이다. f 추정의 목적: 1) 예측 2) 추론(어떤 설명변수? 상관관계는? 선형 방정식으로 표현 가능?) 추정의 방법: 1) 모수적 방법(f의 형태에 대한 가정有) 2)비모수적 방법(명시적 가정 없이 더 넓은 범위의 형태에 정확히 적합될 수 있음. 그러나 아주 많은 수의 관측치를 필요로 함) 예측 정확도-모델 해석력의 절충: 제한적 모델이 해석하기 쉬움. 유연성↑ 정확도↑ 해석력↓ 예측에 적합 (but 과적합 이슈) 유연성↓ 정확도↓ 해석력↑ 추론에 적합 준지도 학습: 일부 반응변수의 측정값 이용 .. 2022. 3. 12.
잔차분석 회귀모형에 대한 잔차분석 1. 등분산성 가정 Scale Location 그래프에서 빨간선의 기울기가 0에 가까워야한다. 2. 정규성 가정 Q-Q Plot을 그려보고 대각선을 이루고 있을 때 정규성을 만족한다고 판단. shapiro.test(resid(adms.lm2)) #p-value 확인하여 귀무가설(정규분포를 따른다.) 기각 여부 판단 par(mfrow=c(2,2)) #화면 쪼개고 plot(adms.lm2) #Q-Q Plot 확인하여 잔차의 정규성 가정 만족 여부 확인 Scale Location 확인하여 잔차의 등분산성 여부 확인 3. 독립성 가정 (자료 수집 과정에서 무작위 표집(random sampling)을 하였다면, 잔차의 독립성은 만족하는 것으로 봄) install.packages("lmte.. 2022. 3. 11.
변수 선택법 독립변수의 수가 많아지면 모델의 복잡도가 올라가며 성능이 올라가지만 너무 많아지면 그 성능이 낮아진다. 학습성능이 높아지더라도 예측성능이 떨어질 수 있다(과적합이슈). either feature selection or feature extraction Feature Selection 1. Filter: 1:1 상관관계 확인, 주관적 판단 (특히 요즘 비추하는 추세 업계 짬 신뢰도 2022. 3. 11.
T-TEST|ANOVA|상관분석 먼저 각 변수간의 등분산성을 확인한다. H0: 집단간의 분산이 동일하다. H1: 집단간의 분산이 동일하지 않다. p-value가 유의수준 0.05 보다 크면 귀무가설을 기각하지 못하여 등분산성 만족 var.test(Sales~Urban, data=car, alternative="two.sided") 종속변수(Y)가 연속형이고 ~ 독립변수(X)가 범주형이며 1) 독립변수 X가 이항변수일 때 : t-test H0: X 여부에 따른 Y의 차이가 없다. H1: X 여부에 따른 Y의 차이가 있다. t.test(Sales~Urban, data=car, alternative="two.sided", var.equal=TRUE) 2) 독립변수 X가 3개 이상의 범주를 가질 때 : ANOVA (1) Y와의 관계를 확인하고.. 2022. 3. 11.