본문 바로가기
쫌쫌따리 통계+데이터+AI

선형회귀

by stherhj 2022. 3. 12.

갑자기 교정 장치 떨어져서 고터까지 와갖고 치과에서 콘서트 티켓값쓰고.. 와중에 치과에 사람 갸많아서 치대 유학 유튜버 찾아보다가 뭐하는건가 싶어서 그냥 카페와서 책이나 봄..여기 되게 멋진 스벅이랬는데 생각보다 꼬질이여~

단순선형회귀: '하나의' 설명변수 X에 대한 양적 반응변수 Y를 예측
선형회귀 적합의 질: 잔차표준오차(RMSE), R^2 통계량
잔차 표준오차가 크다면 모델이 데이터를 잘 적합하지 않는다는 것. 그러나 이는 Y의 단위로 측정되어 '절대적'측도가 됨.
R^2는 이를 비율 형태로 변환하여(1-RSS/TSS) 0~1 사이 값을 가지며 Y의 크기와 무관해짐
다중선형회귀: still 선형회귀 but with 2개 이상의 x
(*맨날 궁금했던거!*
단순선형회귀 (1:1 관계)에서는 상관관계가 있음을 나타내는데 다중회귀는 그 반대 결과를 보일 수 있는가?
->ㅇㅇㅇ실제로는 다른 요인에 의한 것이며 변수 추가를 통해 해당 변수가 그 효과를 가져가는 것. Y에 실질적으로 영향 미치는 x를 추가하여, 유의해보였지만 사실 그렇지 않았던 x를 배제할 수 있다. 결국 변수 추가든 모델 고도화이든 실질적으로 반응 변수에 영향을 미치는 요인들을 더 정확히 구분하고 그 크기와 방향을 더 실제 현상과 비슷하게 표현해나가는 과정이다아아악!!)


다수의 설명변수 중 적어도 하나는 유용한가? 모든 설명 변수 혹은 일부? 모델은 얼마나 잘 맞는가? 예측의 정확도는?
F통계량: H0(제안된 모든 설명변수가 반응변수에 유의하지 않다.)를 기각하기 위한 값. 얼마나 커야하는가? 기준은 1
n이 큰 경우 1보다 약간만 커도 기각. n이 작은 경우 더 큰 값이 필요.
(*맨날 궁금했던거!*
각 x의 계수에 대한 p-value 값이 있는데 왜 F 통계량이 따로 필요한가?
x개수가 많은 경우 그 중 일부 변수들이 유의성이 없음에도 p-value 값이 작을 경우가 존재한다.

+22/09/24추가: 2집단간 분석을 진행하는 T검정을 반복하는 것과 달리 3집단간 분석 진행을 위한 ANOVA 분산분석의 필요성과 비슷: Type # error inflation에 대한 우려)
모델의 질 평가 기준: Mallows Cp, AIC, BIC, Adj. R^2
차원의 저주-전진선택법, 후진제거법, 단계적선택법(전진선택법은 greedy 방식. 그래서 초기에 포함한 변수가 나중에는 유효하지 않을 수 있다. 이는 단계적선택법으로 해결 가능)

+22/09/24추가: 간명도의 법칙?(from AR, MA, ARIMA model selection) 오컴의 면도날? 정확한 워딩은 무엇이었을까..

https://ko.wikipedia.org/wiki/%EC%98%A4%EC%BB%B4%EC%9D%98_%EB%A9%B4%EB%8F%84%EB%82%A0

모델 적합의 수치적 측도: RSE, R^2(1에 가까운 R^2는 모델이 반응변수 내 분산의 많은 부분을 설명한다는 것)

선형모델의 제한적 가정: 1) 가산성: x가 Y에 미치는 영향이 다른 설명변수에 독립적 2) 선형성: x의 유닛 변화에 따른 Y의 변화는 상수
1) 가산성 가정 제거: 상호작용 항(x1*x2) 의 추가 (계층적 원리에 의해 모델에 상호작용항을 포함하면, 주 효과는 p-value 값이 유의하지 않더라도 모델에 포함할 것!)
2) 선형성의 가정 제거: 비선형 x변수를 추가(그러나 여전히 x2= x1^2라는 항의 Y에 대한 선형관계로서 선형모델로도 계산 가능). 다항식회귀

선형회귀모델의 잠재적 문제(문제니까 없애야하는거!): 1) Y~x의 비선형성 상관관계 2) 오차항들의 상관성 3) 오차항의 상수가 아닌 분산 4) 이상치 5) 레버리지가 높은 관측치 6) 공선성
1) Y~x의 비선형성 상관관계: 잔차 그래프를 그렸을 때 패턴이 존재하면 이는 x, Y 사이 직선 상관관계가 아님을 보인다. 설명변수를 비선형적으로 변환(log, 루트)하여 해결
2) 오차의 상관성: 오차항 사이 상관성이 있으면 추정된 표준 오차가 실제 표준오차를 과소추정하게 됨. 시계열 데이터에서 자주 확인.
3) 오차항의 상수가 아닌 분산: 적합값이 커짐에 따라 잔차의 크기가 커지거나 하면 반응변수를 변환(log, 루트)하여 잔차가 상수 분산을 갖도록 함.
4) 이상치: 잔차 그래프 활용. 그 기준을 명확하게 하기 위해 '스튜던트화 잔차" 절대값이 3보다 크면 이상치 판단다.
5) 레버리지가 높은 관측치
6) 공선성: 두 개 이상의 설명변수들이 서로 밀접하게 상관되어있는 경우. 설명변수의 상관행렬을 살펴보기. 다중 공선성을 판단하는 더 좋은 방법: 분산팽창인수(VIF) 계산 5 또는 10 초과시 문제.
(다중공선성 이슈 해결할 때 상관행렬 살피기랑 VIF 중에 뭘 해야하는지 헷갈렸는데 그냥 VIF 확인이 조금 더 좋은 방식인가보다. 상관행렬을 살펴보면 두 요인들 사이 관계성이라서 하나를 뭘 빼야하는지 헷갈렸는데 VIF는 그냥 특정 x에 대한 값으로 나와서 제외하기도 편하다. 기준을 5로 둘 수도 있구나!)

선형회귀와 K-최근접이웃: f 형태에 대한 강한 가정을 근거로한 모수적 방법(선형회귀)과 유연한 비모수적 방법(KNN 회귀: K의 개수는 편향-분산 절충에 따라 결정됨.)

댓글