갑자기 교정 장치 떨어져서 고터까지 와갖고 치과에서 콘서트 티켓값쓰고.. 와중에 치과에 사람 갸많아서 치대 유학 유튜버 찾아보다가 뭐하는건가 싶어서 그냥 카페와서 책이나 봄..여기 되게 멋진 스벅이랬는데 생각보다 꼬질이여~
단순선형회귀: '하나의' 설명변수 X에 대한 양적 반응변수 Y를 예측
선형회귀 적합의 질: 잔차표준오차(RMSE), R^2 통계량
잔차 표준오차가 크다면 모델이 데이터를 잘 적합하지 않는다는 것. 그러나 이는 Y의 단위로 측정되어 '절대적'측도가 됨.
R^2는 이를 비율 형태로 변환하여(1-RSS/TSS) 0~1 사이 값을 가지며 Y의 크기와 무관해짐
다중선형회귀: still 선형회귀 but with 2개 이상의 x
(*맨날 궁금했던거!*
단순선형회귀 (1:1 관계)에서는 상관관계가 있음을 나타내는데 다중회귀는 그 반대 결과를 보일 수 있는가?
->ㅇㅇㅇ실제로는 다른 요인에 의한 것이며 변수 추가를 통해 해당 변수가 그 효과를 가져가는 것. Y에 실질적으로 영향 미치는 x를 추가하여, 유의해보였지만 사실 그렇지 않았던 x를 배제할 수 있다. 결국 변수 추가든 모델 고도화이든 실질적으로 반응 변수에 영향을 미치는 요인들을 더 정확히 구분하고 그 크기와 방향을 더 실제 현상과 비슷하게 표현해나가는 과정이다아아악!!)
다수의 설명변수 중 적어도 하나는 유용한가? 모든 설명 변수 혹은 일부? 모델은 얼마나 잘 맞는가? 예측의 정확도는?
F통계량: H0(제안된 모든 설명변수가 반응변수에 유의하지 않다.)를 기각하기 위한 값. 얼마나 커야하는가? 기준은 1
n이 큰 경우 1보다 약간만 커도 기각. n이 작은 경우 더 큰 값이 필요.
(*맨날 궁금했던거!*
각 x의 계수에 대한 p-value 값이 있는데 왜 F 통계량이 따로 필요한가?
x개수가 많은 경우 그 중 일부 변수들이 유의성이 없음에도 p-value 값이 작을 경우가 존재한다.
+22/09/24추가: 2집단간 분석을 진행하는 T검정을 반복하는 것과 달리 3집단간 분석 진행을 위한 ANOVA 분산분석의 필요성과 비슷: Type # error inflation에 대한 우려)
모델의 질 평가 기준: Mallows Cp, AIC, BIC, Adj. R^2
차원의 저주-전진선택법, 후진제거법, 단계적선택법(전진선택법은 greedy 방식. 그래서 초기에 포함한 변수가 나중에는 유효하지 않을 수 있다. 이는 단계적선택법으로 해결 가능)
+22/09/24추가: 간명도의 법칙?(from AR, MA, ARIMA model selection) 오컴의 면도날? 정확한 워딩은 무엇이었을까..
https://ko.wikipedia.org/wiki/%EC%98%A4%EC%BB%B4%EC%9D%98_%EB%A9%B4%EB%8F%84%EB%82%A0
모델 적합의 수치적 측도: RSE, R^2(1에 가까운 R^2는 모델이 반응변수 내 분산의 많은 부분을 설명한다는 것)
선형모델의 제한적 가정: 1) 가산성: x가 Y에 미치는 영향이 다른 설명변수에 독립적 2) 선형성: x의 유닛 변화에 따른 Y의 변화는 상수
1) 가산성 가정 제거: 상호작용 항(x1*x2) 의 추가 (계층적 원리에 의해 모델에 상호작용항을 포함하면, 주 효과는 p-value 값이 유의하지 않더라도 모델에 포함할 것!)
2) 선형성의 가정 제거: 비선형 x변수를 추가(그러나 여전히 x2= x1^2라는 항의 Y에 대한 선형관계로서 선형모델로도 계산 가능). 다항식회귀
선형회귀모델의 잠재적 문제(문제니까 없애야하는거!): 1) Y~x의 비선형성 상관관계 2) 오차항들의 상관성 3) 오차항의 상수가 아닌 분산 4) 이상치 5) 레버리지가 높은 관측치 6) 공선성
1) Y~x의 비선형성 상관관계: 잔차 그래프를 그렸을 때 패턴이 존재하면 이는 x, Y 사이 직선 상관관계가 아님을 보인다. 설명변수를 비선형적으로 변환(log, 루트)하여 해결
2) 오차의 상관성: 오차항 사이 상관성이 있으면 추정된 표준 오차가 실제 표준오차를 과소추정하게 됨. 시계열 데이터에서 자주 확인.
3) 오차항의 상수가 아닌 분산: 적합값이 커짐에 따라 잔차의 크기가 커지거나 하면 반응변수를 변환(log, 루트)하여 잔차가 상수 분산을 갖도록 함.
4) 이상치: 잔차 그래프 활용. 그 기준을 명확하게 하기 위해 '스튜던트화 잔차" 절대값이 3보다 크면 이상치 판단다.
5) 레버리지가 높은 관측치
6) 공선성: 두 개 이상의 설명변수들이 서로 밀접하게 상관되어있는 경우. 설명변수의 상관행렬을 살펴보기. 다중 공선성을 판단하는 더 좋은 방법: 분산팽창인수(VIF) 계산 5 또는 10 초과시 문제.
(다중공선성 이슈 해결할 때 상관행렬 살피기랑 VIF 중에 뭘 해야하는지 헷갈렸는데 그냥 VIF 확인이 조금 더 좋은 방식인가보다. 상관행렬을 살펴보면 두 요인들 사이 관계성이라서 하나를 뭘 빼야하는지 헷갈렸는데 VIF는 그냥 특정 x에 대한 값으로 나와서 제외하기도 편하다. 기준을 5로 둘 수도 있구나!)
선형회귀와 K-최근접이웃: f 형태에 대한 강한 가정을 근거로한 모수적 방법(선형회귀)과 유연한 비모수적 방법(KNN 회귀: K의 개수는 편향-분산 절충에 따라 결정됨.)
'쫌쫌따리 통계+데이터+AI' 카테고리의 다른 글
데이터 처리 속도 측정 (코드 수행 시간 측정) (0) | 2022.03.20 |
---|---|
Data Imbalance 이슈 해결 : 언더샘플링 & 오버샘플링 (0) | 2022.03.20 |
통계학습 (0) | 2022.03.12 |
잔차분석 (0) | 2022.03.11 |
변수 선택법 (0) | 2022.03.11 |
댓글