본문 바로가기
쫌쫌따리 통계+데이터+AI

25회 ADP 데이터 분석 전문가 실기 (22/06/18)

by stherhj 2022. 6. 19.

 

시험 전부터 이미 파악해둔 다음 26회 시험 일정..ㅎㅎ 지난 24회 보면서 당연히 합격 못할 것은 알았지만 그래도 공부할 수 있는 동기부여가 되어 이번에도 무작정 접수해두었는데 이번엔 참 공부를 못/안하고 셤문제 확인하러 다녀온 수준이다ㅜ 다시 9월 25일까지 파이팅..!

 

*이유는 알 수 없지만 지난셤보다 문제 기억이 벌써 가물가물함 주의..ㅜㅜ

 

PART1. 기계학습(50) - 지난 번처럼 그냥 한 세트로 50점 하는 건줄 알았는데 데이터 셋이 두 개=문제가 두 개나..!(그리고 그 두 개가 비지도 학습과 시계열이었다니..ㅎㅎㅠㅠ)

1. 온라인 유통회사 A사가 RMF(Recency, Monetary, Frequency) 중 F(고객의 구매 횟수) M (UnitPrice*Quantity) 기준 고객군집분석 시행 (25.. 꼬리 문제 합이랑 점수가 안맞넵)  (데이터 : CustomerID, InvoiceID, ProductID, Quantity, UnitPrice 등 제안) 

1-1. EDA  이상치를 제거하고 필요하다면 변환도 적용 (5)

(결측치도 없는 깔끔 데이터 확인!) 먼저 unique InvoiceID에 cnt 1 열을 만들고 unique Customer ID 별로 sum하여 'F' 열 추가, 각 열 별 UnitPrice*Quantity 값을 Customer ID 별로 더하여 'M'열 추가. 파이썬으로 groupby.sum 하면 되는데 R로 groupby는? 6sigma 기준 이상치 제거 (min outlier은 괜히 제거한듯 데이터 특성상 +3std 이상 넘어가는 데이터만 삭제하면 될듯) Frequency 대비 Monetary 열의 값의 range가 넓어 min max normalization 시행

1-2. 적합한 군집분석 알고리즘을 택하고 시행,결과에 대해 응집도와 분리도 관점에서 평가할 것 (10)

군집분석 중 k-means 알고리즘 시행(왜..?), 먼저 scree plot으로 최적의 군집 개수를 정하는데 2에서 elbow pt가 생겼지만 분석의 실효성을 위해 3으로 선정. within cluster sum of squares by cluster (between_SS / total_SS)로 전체 변동 중 군집 간 변동이 차지하는 비율 제시, 정분류율 추가 제시.. 응집도와 분리도 제시 못함..ㅜㅜㅜ

1-3. 각 군집의 특성을 제시하고 인사이트 제안.(5)

3개의 군집의 M, F 가 하나가 큰데 하나가 작고 한 경우 없이 모두 소-중-대 순으로 cluster mean 값이 확인되어 구매촉진프로모션 등 시행시 구매 횟수 혹은 장바구니 금액 둘 중 하나에 가중치를 두기 보다 두루두루.. 군집의 개수를 늘렸을 때도 같은 성향의 군집들로 구분되는 것을 확인함. (추가로 각 군집의 M, F의 수를 확인하여 프로모션 집중 구매 횟수, 금액대를 제안할 수 있었을듯!)

 

2. 시기별 방문 고객수 데이터에 대한 시계열 분석 시행 (25)

(**시계열이랑 안친해서 무슨 소리하는지 모르고 적었음주의**) 

2-1. EDA 시행, 시각화 (5)

시계열 그래프를 그리고 평균이 시간의 흐름에 따라 증가하는 추세를 보여 차분, 차분하고 나니 분산도 시간에 흐름에 따라 증가하여 변환하여 정상성 시계열 데이터 확보..차분+변환 전의 pacf와 이후의 pacf를 그려 완화됨을 보임.

2-2. 결측치 처리와 해당 결측치 처리 방식에 대한 논리적 근거 제시. (5)

딱 결측치가 3개!. 그래서 각 결측치의 직전, 직후 값의 평균 값으로 impute. 데이터의 평균값이 시간의 흐름에 따라 늘어나는 추세를 갖고 있어 전체 평균 값으로 대체하는 것이 비합리적이기 때문에 그 시점 즈음의 값으로 대체하는 것이 낫다고 판단함.(결측치가 여러 개 였으면 그냥 pad 방식으로 결측치 직전 값으로 채워넣을 수 있음, 직후는 bfill)

2-3. 계절성을 반영한 시계열 모델 적합하고 정확도 측면에서 모델 성능 평가할 것. (10)

ARIMA 적합.. seasonal=TRUE로 두고..시계열 모델의 정확도는 어떻게 하는건지 몰라서 forecast해서 데이터 이후의 시간에 대한 값을 예측했다가 이러면 정확를 확인할 수 없음을 깨닫고 주어진 데이터의 마지막 50개 정도에 대해 forecast해서 실제 데이터와 어느정도 차이 나는지 제시. 정확한 정확도는 제시 못함.(어떻게 제시함??분류분석도 아닌디) 

2-4. 분석 결과 활용 가능 여부에 대한 분석 전문가로서의 제안. (5) 

ㅎㅎ..ㅜㅜ

 

PART2. 통계분석(50) - 머신러닝에 이어 예상치 못한 유형의 문제들의 모음~.~

3. 기본 통계 문제(20)

3-1. 서울에서 영동까지 100km/h로 가고 영동에서 서울까지 80km/로 돌아왔을 때, 평균 속도는? (5)

속도 = 거리/시간 서울->영동 100km라고 했을 때 왕복 총 거리는 200km, 시간은 갈 때 1시간 올 때 1.25시간 (시간 = 거리/속도 = 100/80)   총 2.25시간 결국 평균 속도는 200km/2.25h = 약88.89km/h

3-2.  이전에 1000이었는데 올해 2000으로 늘고 내년에 3000으로 늘어날 예정이라면 평균 몇 배 증가한 것? (5)

1000->2000 에서 2배 증가하고 2000->3000에서 1.5배 증가하여 평균 1.75배 증가하였다고 적었나? 그치만 답은 3^(1/2)라고 한닷~(기하평균)

3-3. 남자 중 등산을 좋아할 확률은? (5)

P(남자&등산좋아)/P(남자) 로 했는데 요것도 아닌듯..카이제곱으로 풀어야한다고..?요것을?

3-4.20개 샘플링 했는데 분산이 90^2일때, 신뢰구간 95%에서 분산의 신뢰구간은? (5)

a/2= 0.025, n-1 = 19 s^2 = 90 

lower_chi = qchisq(p=0.025, df=19, lower.tail=TRUE) #8.91
upper_chi = qchisq(p=0.975, df=19, lower.tail=TRUE) #32.85
19*90^2/lower_chi
19*90^2/upper_chi

 

4. 임상 대상 20명에 대해 혈압약 투약 이전과 이후의 차이가 24, 표준편차 9  신뢰구간 95%(10)

4-1. 귀무가설과 연구가설을 제시하시오. (5)

H0: 혈압약의 투약여부가 혈압에 대해 유의한 영향을 미치지 못한다.

H1: 혈압약의 투약여부가 혈압에 대해 유의한 영향을 미친다. (혈압약 투약 이전과 이후에 혈압에 유의한 차이가 있다.)

4-2. 검정 후 귀무가설 기각 여부 제시 (5)

모집단의 분산을 알지 못하고 샘플 사이즈가 30미만이므로 t-test 시행. 사전-사후 검사로 두 집단간 종속관계가 있으므로 종속표본(대응표본) t-test 시행. 먼저, 기각역 설정 t(0.025, 19) 

qt(0.025, 19, lower.tail = TRUE) #-2.09
qt(0.025, 19, lower.tail = FALSE) #2.09
#[24-2.09*(9/20^(1/2)), 24+2.09*(9/20^(1/2))] = [19.79, 28.21]

24/(9/20^(1/2)) #검정통계량 t = 11.62 가 신뢰구간을 벗어나므로 H0를 기각하며 투약이 증상에 대한 유의한 영향을 미친다고 할 수 있다.

 

5. 공장 X,Y,Z의 중위값, 순위 (10)

5-1. 귀무가설과 연구가설을 제시하시오 (5)

H0: X, Y, Z 공장의 집단의 평균이 모두 동일하다.

H1: X, Y, Z 공장 중 하나 이상의 공장의 평균값이 다르다.

5-2. 검정 후 귀무가설 기각 여부 제시 (5)

크루스칼..? 보고도 모르겠넵..순위합 검정인줄 알고 들여다보고 있었는데..하나도 아쉽지가 않다.

 

6. A사에 투자하는데 1~5안의 투자 금액과 NPV(Net Present Value, 순현재가치) 를 제시. 최적의 투자안 선택. 1년차에는 00억, 2년차에는 00억, 3년차에는 00억을 투자한다고 했을 때 기대할 수 있는 NVP는?(10)

???????

-

지난 번엔 어떻게 풀었는지 그래도 기록은 남길 정도였는데 이번엔 창피한 수준이라 남기지도 못하겠다ㅜㅜ 차츰..차츰..수정할 예정. 셤 직전엔 딱 일주일만 집중해서 공부해볼걸! 했는데 막상 보고나니 아쉬움도 안남는다..ㅎㅎ 아직 아주 멀었구나~~ 특히 t 값 하나 구하는 코드를 몰라서 help(t stat) 계속 검색하는데 이걸 모른다는 것보다 지난 셤 보면서 z 값 하나 못구해서 자괴감 들었는데 그걸 오늘날까지 안찾아보고 또 다시 시험장에 돌아왔다는게..ㅜㅜ

 

1번문제부터 groupby 함수는 파이썬에서 하는 방법 밖에 모르는데 가져간 자료는 또 죄다 R이고..최대한 파이썬으로 하려는데 한계가 있어서 한참을 헤매다가(R이랑 파이썬이랑 클라우드 환경이 달라서 저장해서 불러오는게 안됐다ㅜㅜ) 채팅으로 문의해서 파이썬에서 파일 저장해서 R로 옮기는 방법 알아내면서 시간이 많이 흘렀다.

 

지난 번 시험은 준비하면서 공부하는게 큰 도움이 되었는데 이번 시험은 준비도 못하였지만 이제 지금부터 공부해나갈 필요를 느끼는 것으로 되었다!라고 스스로를 위로해봅니다아..다음 번 모야! 9월 25일?! 다주거써ㅡㅡ파이팅!!

댓글