본문 바로가기

쫌쫌따리 통계+데이터+AI29

2. 제 3장 정형 데이터 마이닝 제 3절 군집분석 1. 계층적 군집 [!] 최단, 최장, 중심 연결법은 군집간의 거리에 기반하며, 와드 연결법만 군집내 오차제곱합에 기초하여 군집을 수행하는 것이다. [?] 거리 측정 방법(수학적 거리: 유클리드, 맨하튼, 민코우스키, 통계적 거리: 표준화, 마할라노비스 등)에 따라 군집의 큰 차이가 있을지? -> 완전히 다르진 않아도 일부 개체들의 군집 변화가 존재한다. [?] 명목형 변수에 대한 군집분석? -> https://rfriend.tistory.com/583 2. K-평균 군집 [!] k-means clustering 보다 우위에 k-centroid clustering, outlier에 영향을 많이 받는 단점을 보완하기 위해 k-medoids clustering 등 활용 가능하다. #Scree plot fun.. 2022. 7. 25.
Tensorflow Developer Certificate 정리할 내용이..없다.. 코세라 함 열심히 따라가보기가 목표였지만 결국 코드 복붙으로 마무리..법카가 아니라면 보지말자! 팁은 여러 버전의 최근 기출 코드를 구해볼 것.. 이 영광을 텐서플로우의 대가 ㅂㅇㅅ 교수님께..! 다음엔 꼭 ADP 합격 후기로.. 2022. 7. 8.
25회 ADP 데이터 분석 전문가 실기 (22/06/18) 시험 전부터 이미 파악해둔 다음 26회 시험 일정..ㅎㅎ 지난 24회 보면서 당연히 합격 못할 것은 알았지만 그래도 공부할 수 있는 동기부여가 되어 이번에도 무작정 접수해두었는데 이번엔 참 공부를 못/안하고 셤문제 확인하러 다녀온 수준이다ㅜ 다시 9월 25일까지 파이팅..! *이유는 알 수 없지만 지난셤보다 문제 기억이 벌써 가물가물함 주의..ㅜㅜ PART1. 기계학습(50) - 지난 번처럼 그냥 한 세트로 50점 하는 건줄 알았는데 데이터 셋이 두 개=문제가 두 개나..!(그리고 그 두 개가 비지도 학습과 시계열이었다니..ㅎㅎㅠㅠ) 1. 온라인 유통회사 A사가 RMF(Recency, Monetary, Frequency) 중 F(고객의 구매 횟수) M (UnitPrice*Quantity) 기준 고객군집분.. 2022. 6. 19.
비모수검정 Run-test (배열의 임의성을 판단) 비모수적 검정방법 중 일련의 연속적 관측값이 임의적으로 나타난 것인지 검정하는 방법(관측값들이 얻어진 순서에 근거) 런: 한 종류의 부호가 시작~끝 한 덩어리 런의 수가 (시계열의 전체 길이 대비) 매우 많거나(음의 계열 상관) or 매우 적으면(양의 계열상관) 연관성이 있다고 한다. 계열상관: 원자료의 계열과 일정한 시간 차이를 갖는 계열간의 상관관계 예: 주식의 가격이 오르는 날에는 +, 내릴때는 – A주식 : +++ ------++++----+++--++++... → +값 : 14개, -값 : 12개, 런의 갯수 : 7개 (양의 계열상관) B주식 : +-+--+-+-+-+-+--+-+-++-++-+... → +값 : 14개, -값 : 13개, 런의 개수 : 23개 (음의 계열상관) 양의 계열상관을 .. 2022. 6. 17.
조건 해당 열 값 변경 https://velog.io/@dlskawns/Dataframe-%EB%82%B4-%ED%8A%B9%EC%A0%95Column-row%EC%9D%98-%EC%84%A0%ED%83%9D-%EC%A1%B0%EA%B1%B4%EB%B6%80-%EC%84%A0%ED%83%9D-%EB%B3%80%EA%B2%BD%ED%95%98%EA%B8%B0 Dataframe 내 특정Column, row의 선택, 조건부 선택, 변경하기 데이터 분석에 있어 데이터셋에 너무 많은 데이터가 있을 경우, 혹은 어떠한 계산을 필요로 할 경우 특정 데이터만 골라 봐야하는 경우가 있다. 그런경우 원하는 열의 원하는 행만 보고 싶은 경 velog.io 항상 조건입력하고 열 불러와서 input하면 값 변경이 안먹음ㅜㅜ pit.loc[pit['t.. 2022. 6. 12.
신뢰구간(Confidence Interval) 신뢰구간: 샘플들을 통해 유추하는 '모수(모집단의 평균)가 실제로 포함될 것으로 예측되는 범위' 에 실제로 모수가 포함될 확률->신뢰수준 [ADP 24회] 5. 모집단의 평균 길이를 알아내기 위해 표본 9개 뽑음 5-1. 해당 표본 값을 사용하여 모집단의 평균에 대한 신뢰구간 95% 구간을 제시. (5) 모집단의 분산을 모르고 표본의 개수가 충분하지 않아 t분포를 활용한 신뢰구간 도출 (자유도 8의 t(0.025) 활용) 5-2. 모집단의 분산이 0.04인 것을 나중에 알아냄. 이에 따른 신뢰구간 95% 구간을 제시. (10) 모분산 확인 후 정규분포를 활용한 신뢰구간 도출 [ADP 25회] 4. 임상 대상 20명에 대해 혈압약 투약 이전과 이후의 차이가 24, 표준편차 9 신뢰구간 95%(10) 4-1.. 2022. 6. 10.