본문 바로가기

쫌쫌따리 통계+데이터+AI29

[ADP] 이항분포/포아송분포 1. 이항분포 다섯 가족이 각 6명의 아이를 갖고 있고 딸을 낳을 확률이 0.5일 때, 1) 딸이 4명 이상인 가족이 3개 이상일 확률 2) 4명 이상의 딸을 가질 것으로 기대할 수 있는 가족의 수 p 2023. 11. 6.
26회 통계 모음 [문제1] 철강제품의 불량률을 조사하고자 한다. 이 때, 불량률의 90%, 추정오차한계가 5% 이내가 되기 위하여 적절한 표본의 크기 중 최소값은 얼마인가? [답1] 모비율 추정을 위해 필요한 표본의 개수 n = p(1-p)*(z/d)^2 p = 0.9, d z=약1.96) n >= (0.9*0.1)*(1.96/0.05)^2 (약138.3) 95%의 신뢰수준 아래 최소 139개의 표본이 필요하다. [문제2] 다음은 1월부터 9월까지의 은의 가격이다. 1. 은의 가격 및 이동평균값 3이 설정된 시계열 그래프를 그려라 2. 1월 대비 9월의 은의 가격은 몇 % 올랐는가? (소수점 두번째 자리에서 반올림) [답2] 1. import pandas as pd import matplotlib.pyplot as pl.. 2023. 3. 10.
다시 정리하는 기출문제 [24회 실기] PART1. 기계학습(50) - 메인 데이터 하나로 진행 1. Y(학생들의 결석 횟수) ~ X(부모님 동거여부, 부모님 학벌 클래스, 나이, ...) 1-1. EDA, 전처리 1-1-1. EDA 진행 시각화도 함께 head(data) str(data) #data type sum(is.na(data)) #NA여부 확인 barplot(data$y)#종속변수의 분포 확인 cor(data);plot(cor(data))#x간 상관관계(다중공선성), x,y의 상관관계 1-1-2. 전처리 진행 시각화도 함께. 해당 전처리 과정이 분석 예측 결과에 어떤 영향을 미치는지도 설명 #NA 처리 1) 단순 대치법(completes analysis, 평균 대치법, 단순확률 대치법) 2) 다중 대치법 data$col 2022. 9. 18.
Google Cloud Certified - Professional Machine Learning Engineer 이번엔 팁도 없다ㅜㅜ 그저..thanks to https://geniewishescometrue.tistory.com/category/Certificate/Machine%20learning%20engineer & 링크를 공유해주고 당연히 할 수 있지! 해준 동기 합격 굿즈가 다 있다니..! 쫌 기대했는데 다른 블로그에서 봤던 것과 달리 유일한 굿즈 조끼ㅎ_ㅎ 추석맞이 donation 엔딩..조끼보다 쪼끔 더 멋진 곳에 쓰이렴.. - 인생 계획대로 흘러가지 않지만 계획상으론 2024년이면 놀고 있을 시기인데 자격증 기한이 죄다 24년 초중반에 끝나네ㅜㅜ 2022. 9. 9.
z검정, t검정 정리와 기출문제 https://stherhj.tistory.com/150?category=1052148 유의성 검정(Significance Test) 악 작년 이맘때 산업은행 빅데이터직무 셤 볼 때도 똑같이 공부하고 똑같이 오~아~했던 내용ㅠ_ㅠ 실화인가? 유의성 검정 통계치가 모수에 대한 예측과 다르게 나왔을 때, 1) 통계치가 우연임(H0) stherhj.tistory.com https://stherhj.tistory.com/159?category=1052148 T-TEST|ANOVA|상관분석 먼저 각 변수간의 등분산성을 확인한다. H0: 집단간의 분산이 동일하다. H1: 집단간의 분산이 동일하지 않다. p-value가 유의수준 0.05 보다 크면 귀무가설을 기각하지 못하여 등분산성 만족 var.test(Sa sth.. 2022. 8. 29.
시계열 분석(2) : 일보전진 이보후퇴 왠지 모르게 공부하면 공부할 수록 더 모르겠는 시계열 분석 재정리 이전에 정리했던 기본 내용: https://stherhj.tistory.com/160?category=1052148 시계열 분석 항상 나오기만하면 눈감고 저리가!!했던 시계열 분석..이젠 어쩔 수 없다ㅠㅠ친하게 지내보자.. 시계열 데이터 구성 요소(original=trend+seasonal+random) 1. 추세변동(trend), 2. 순환변동(cycle), 3. 계절변동 stherhj.tistory.com ARIMA의 input data format? ("정상성 데이터: ARIMA 모형을 적용하기 위한 조건" → 정말 그러한가..?) [!] ARIMA : AR(자기상관: 과거 관측값을 통해 예측 모델 생성 *다중 회귀 모형과의 차이: .. 2022. 8. 26.