쫌쫌따리 통계+데이터+AI29 텍스트 마이닝(Term Document Matrix) - 2022. 3. 24. 시계열 분석 항상 나오기만하면 눈감고 저리가!!했던 시계열 분석..이젠 어쩔 수 없다ㅠㅠ친하게 지내보자.. 시계열 데이터 구성 요소(original=trend+seasonal+random) 1. 추세변동(trend), 2. 순환변동(cycle), 3. 계절변동(seasonal), 4. 우연변동(random) : 백색잡음(white noise): 평균이 0이고 분산이 일정한 시계열 데이터의 노이즈 비정상성(non-stationary) 시계열 데이터 : 시간에 따라 평균과 분산이 변함(대부분의 시계열 자료 비정상성 시계열) -(시계열 분석을 위해)->정상성(stationary) 시계열 데이터: 시간의 추이와 관계 없이 평균과 분산이 일정 1) 평균을 일정하게 : 차분(difference)-일반차분, 계절차분(데이터가 계.. 2022. 3. 24. 유의성 검정(Significance Test) 악 작년 이맘때 산업은행 빅데이터직무 셤 볼 때도 똑같이 공부하고 똑같이 오~아~했던 내용ㅠ_ㅠ 실화인가? 유의성 검정 통계치가 모수에 대한 예측과 다르게 나왔을 때, 1) 통계치가 우연임(H0) 2) 모수에 대한 예측이 틀림(H1) 단측검정(one-tailed test) : H1가 방향성(>, 30) 모집단의 정규분포여야 함. 등분산 가정이 충족되어야 함. 1) 단일표본 z-test e.g. 기존 A고등학교의 수학점수 평균은 70점, 표준편차는 15점인 정규분포. 올해 A고 100명 학생을 조사하였을 때 평균 85점. 올해의 점수와 이전의 점수의 평균이 같은지 유의수준(α) .05에서 검정.(->양측검정) 2) 독립표본(2표본) z-test 두 모집단을 비교할 경우 두 모집단의 분산이 같아야 함. e... 2022. 3. 20. 비모수적 검정 방법 맨날 모수적 검정 방법만해서 비모수적 검정 방법? 그냥 식을 먼저 가정하고 모수를 찾자! 하는게 아니라 from scratch 한다..부호검정. .까지만 알았는데 이게 기출이라니~ 작년에 필기보고 바로 실기 못보는 구조라고 땅을 쳤는데 한 줄도 못쓰고 나와서 엉엉 울 뻔했눼.. 비모수적 검정 방법 : 절대적 크기에 의존하지 않는 관측값들의 순위, 두 관측값 차이의 부호 등을 이용 아래와 같은 상황에서 비모수적 검정 방법을 활용한다. 1) 관측된 자료가 특정분포를 따른다고 가정할 수 없는 경우. (e.g. 모집단의 정규성 or 집단간 등분산성 보장 불가) 2) 관측된 자료의 수가 30개 미만으로 적은 경우. (30개 이상의 표본->정규분포를 따르므로) 3) 자료가 개체간의 서열관계를 나타내는 경우. 1. .. 2022. 3. 20. 데이터 처리 속도 측정 (코드 수행 시간 측정) R start_time 2022. 3. 20. Data Imbalance 이슈 해결 : 언더샘플링 & 오버샘플링 비정형 데이터 공부하기 넘 싫어서 진짜 한글 문서 분석이 나오나 하고 찾아보다가 작년 20~23회차 기출문제에 빠진 것을 보고! 때려치다가..맨날 오버피팅 이슈만 해결했지 언더..오버..샘플링이라는 생소하면 안되는데 생소한 기출문제가 있길래 늦었지만 공부~.~ 데이터 불균형을 해소하기 위한 두 기법: Under-sampling & Over-sampling (석사 플젝 때 ㄷㄹㅇㅌ에서 계속 데이터 불균형 이슈 해결을 위한 샘플링 기법에 대해 고민해본 적 있는지 여러번 질문 받았었는데 그 때마다 관련 논문에서 데이터 변형 없이 진행해도 ㄱㅊㄱㅊ해서 이케 했다라는걸로 맨날 돌려 막았던 기억이 난다. 다시 생각해보면 이러이러한 기법들이 있지만 그럼에도 ~~한 이유로 데이터를 변형없이 활용하기로 했다. 정도는 답.. 2022. 3. 20. 이전 1 2 3 4 5 다음