본문 바로가기

전체 글207

조건 해당 열 값 변경 https://velog.io/@dlskawns/Dataframe-%EB%82%B4-%ED%8A%B9%EC%A0%95Column-row%EC%9D%98-%EC%84%A0%ED%83%9D-%EC%A1%B0%EA%B1%B4%EB%B6%80-%EC%84%A0%ED%83%9D-%EB%B3%80%EA%B2%BD%ED%95%98%EA%B8%B0 Dataframe 내 특정Column, row의 선택, 조건부 선택, 변경하기 데이터 분석에 있어 데이터셋에 너무 많은 데이터가 있을 경우, 혹은 어떠한 계산을 필요로 할 경우 특정 데이터만 골라 봐야하는 경우가 있다. 그런경우 원하는 열의 원하는 행만 보고 싶은 경 velog.io 항상 조건입력하고 열 불러와서 input하면 값 변경이 안먹음ㅜㅜ pit.loc[pit['t.. 2022. 6. 12.
기술이민 정리 보호되어 있는 글 입니다. 2022. 6. 11.
신뢰구간(Confidence Interval) 신뢰구간: 샘플들을 통해 유추하는 '모수(모집단의 평균)가 실제로 포함될 것으로 예측되는 범위' 에 실제로 모수가 포함될 확률->신뢰수준 [ADP 24회] 5. 모집단의 평균 길이를 알아내기 위해 표본 9개 뽑음 5-1. 해당 표본 값을 사용하여 모집단의 평균에 대한 신뢰구간 95% 구간을 제시. (5) 모집단의 분산을 모르고 표본의 개수가 충분하지 않아 t분포를 활용한 신뢰구간 도출 (자유도 8의 t(0.025) 활용) 5-2. 모집단의 분산이 0.04인 것을 나중에 알아냄. 이에 따른 신뢰구간 95% 구간을 제시. (10) 모분산 확인 후 정규분포를 활용한 신뢰구간 도출 [ADP 25회] 4. 임상 대상 20명에 대해 혈압약 투약 이전과 이후의 차이가 24, 표준편차 9 신뢰구간 95%(10) 4-1.. 2022. 6. 10.
베이지안 정리 [ADP 24회] 베이지안 확률 : 코로나 유병률이 0.01일 때 키트가 양성 떴는데 바이러스에 실제로 감염되었을 베이지안 확률 (민감도=TP/(TP+FN)=P(B|A)) = 370/385 (특이도=TN/(FP+TN)=P(B^c|A^c)) = 690/700 베이즈 정리 i = 1 P(바이러스 감염|키트 양성) = ( P(키트 양성|바이러스 감염) * P(바이러스 감염) ) / ( P(키트 양성|바이러스 감염) * P(바이러스 감염) + P(키트 양성|바이러스 미감염) * P(바이러스 미감염) ) = ( P(키트 양성|바이러스 감염) * 0.01) / ( P(키트 양성|바이러스 감염) * 0.01 + P(키트 양성|바이러스 미감염) * 0.99 ) = (민감도 * 0.01) / (민감도 * 0.01 + (.. 2022. 6. 10.
알고리즘 성능 평가와 시각화(작성중) *회귀분석 성능 평가를 위해 train, test set을 나눌 필요가 있나? classification은 꼭 나눠야 한다고 생각. *회귀분석을 통해 미래를 예측하나? ->이 땐 test set 확보를 통해 모델이 특정 데이터셋에 overfitted 되어있지 않음을 확인(그럼에도..예를 들어 18~20년 train set 21년 test set을 통해 확인하면서 hyperparameter 최적화를 한다면 21년 set에 너무 적합한거 아님? 22년 예측에 잘 활용될 수 있을까?) *회귀분석에 iteration 필요? 그냥 한 번 돌릴 땐 몇 번의 iteration을 돌린거지 #Step 1 - create the evaluation metrics function eval_metrics = function(.. 2022. 6. 8.
Regression Algorithms 연속형 데이터(Y)에 대한 회귀하면 선형 회귀(좀 더 나아가봐야 비선형 회귀..)에 그쳐 당황했던 기억으로 작성하는 회귀 머신러닝 알고리즘 종류 #데이터 기본 준비과정 library(plyr) library(readr) library(dplyr) library(caret) library(ggplot2) library(repr) dat 2022. 6. 8.