SAS를 이용한 이표본 T 검정 방법
안녕하세요. Career hacker입니다. 오늘은 평균 비교 방법 중 두 그룹의 평균을 비교하는 이표본 t-검정을 SAS를 이용해 실습해보겠습니다. 굳이 SAS가 아니어도 파이썬이나 R 역시 결과 창은 비슷하기 때문에 결과 해석하는 방법은 같습니다.
1. t-검정으로 해결할 수 있는 문제
<예제> 다판다 쇼핑몰의 고민
다판다 쇼핑몰은 신규 고객을 보다 많이 유치하기 위해 배너 광고 실을 생각입니다. 배너광고 단가는 위치와 크기에 따라 다르게 측정됩니다. 그래서 다판다 쇼핑몰은 단가가 비슷한 위치 중 가장 광고효과가 좋은 위치를 선택하기 위해 임시로 100명의 고객을 대상으로 다음과 같이 두 위치에 다르게 배너 광고가 보이게 했습니다.
<그림 1> 배너 위치에 따른 조회율 비교
그 결과 A위치에 광고가 노출된 고객이 B위치 보다 더 높은 조회율을 나타냈습니다. 그런데 과연 이 차이가 유의미한 차이일까요? 다판다 쇼핑몰은 보다 정확한 의사결정을 위해 평균 비교 방법을 통한 검정을 수행하기로 했습니다.
문제를 요약하면 A와 B 두 위치 중 어디서 더 많은 조회가 발생하는지, 그리고 정말 배너 위치가 조회수에 유의미한 영향을 미치는지 확인하는 것입니다. 이 예제에서 독립변수(영향을 주는 변수)와 종속변수(영향을 받는 변수)는 다음과 같습니다.
<그림 2> 독립변수와 종속변수
문제의 요점은 "차이가 유의미한가?"입니다. 이 경우 통계적 방법을 통해 해결할 수 있습니다. 문제는 배너 유형이 조회수에 영향을 미치는지 확인하는 것을 목적으로 합니다. 이때 배너 유형은 범주형 변수이고, 조회수는 연속형 변수입니다. 따라서 그룹이 두 개일 때 사용하는 평균 비교 방법인 이표본 t-검정을 이용합니다.
예제 데이터는 등분산인 경우와 이분산인 경우로 나누어 CSV 형태로 아래 첨부했습니다. 본 실습에서는 sas studio를 이용했고, sas studio는 sas OnDemand for Academics를 통해 클라우드 환경에서 무료로 이용 가능합니다.
<데이터 1> 등분산인 경우
<데이터 2> 이분산인 경우
2. t-검정을 위한 데이터 형태와 검정 절차 개요
<그림 3> 이표본 t-검정을 위한 데이터와 그 절차
이표본 t-검정을 위한 데이터는 <그림 3>과 같이 범주형 독립변수와 수치형 종속변수를 포함해야 합니다. 이때 데이터 형태는 그룹을 나타내는 독립변수에 따라 측정된 수치형 변수 값이 포함된 형태입니다. 데이터 형태를 <그림 3>과 같이 구성해야 통계 패키지를 통한 분석이 가능합니다.
3. t-검정 수행
데이터 분석 절차는 가설 설정, 데이터 분석, 통계적 의사결정, 가정 확인 순으로 수행됩니다. 먼저 통계적 의사결정을 위한 가설은 다음과 같습니다.
1) 가설설정
<가설>에서 H0는 귀무가설 기존에 알려진 사실 또는 주장하고 싶은 것에 반대에 되는 가설을 말합니다. 이 예제에서는 "배너 위치 A, B 어디에 광고를 실어도 클릭률이 같다"가 H0 즉, 귀무가설에 해당합니다. 반면, H1은 대립가설로 입증해야 할 새로운 사실을 말합니다. 예제에서는 "배너 위치에 따라 클릭률에 차이가 존재한다"가 H1에 해당합니다.
μ는 모집단의 평균인 모평균을 의미합니다. 우리는 전체 고객 중 일부에 해당하는 100명에 대해서 파일럿 테스트를 수행한 것이기 때문에 불확실성이 존재하고, T-검정을 통해 그 불확실 성의 정도를 확인할 수 있습니다.
2) 데이터 분석
<참고사항>
데이터 분석은 손으로 계산해 수행할 수 있지만, 그 절차가 매우 지루하기 때문에 보통 분석 프로그램을 활용해 수행합니다. 이번 실습에서는 SAS Studio를 이용해 분석을 수행했습니다. SAS Studio는 프로그래밍을 이용한 방법과 UI를 이용한 두 가지 방법을 지원하는데 "실무자를 위한 데이터 과학"에서는 보다 자유도가 높은 프로그래밍 방법을 이용해 설명하겠습니다(직장인을 위한 과정은 UI를 이용해 진행할 예정).
데이터 분석에 앞서 첨부한 데이터를 SAS 환경으로 로드해 주시기 바랍니다. 그다음 아래 실습 코드를 이용하시면 됩니다.
proc ttest data = blg_wrk.D003_EXAMPLE1;
class group;
var views;
run;
[PROC TTEST]는 T-검정을 위한 절차입니다. [DATA]에 입력 데이터를 지정합니다. 그리고 [CLASS] 문에는 범주형 독립변수를 할당합니다. 마지막으로 [VAR] 다음 연속형 반응변수를 할당하면 됩니다. 그 후 해당 영역을 블록 지정하고 [RUN]을 누르거나 [F3]을 누르면 프로그램이 실행됩니다.
실행이 완료되면 4개의 표와 2개의 그림이 출력되는 것을 알 수 있습니다. 먼저 표를 중심으로 해석 방법에 대해 알아보겠습니다.
<표 1> PROC TTEST를 이용한 검정 결과
t-검정은 동그라미 1, 2, 3번 순으로 진행합니다. ① 두 배너 위치에 대한 조회율을 집계 결과입니다. N은 관측치 수 Mean은 은 평균, Std Dev는 표준편차를 나타내고 Std Err는 표본 평균에 대한 표준오차를 나타냅니다. Minimum과 Maximum은 각 최댓값과 최솟값을 나타냅니다. 위에서 두 번째 표는 표본 평균과 표본 표준편차에 대한 95% 신뢰구간을 나타냅니다. A그룹에 대한 평균 조회율은 5.0080%이고 신뢰구간은 [4.9739, 5.0421] 임을 두 번째 표를 통해 알 수 있습니다.
② 등분산 검정(Equality of Variances) 결과표입니다. 등분산 검정의 귀무가설은 두 그룹의 분산이 "같다"입니다. 따라서 등분산 검정 결과에 대한 p-value가 5%보다 작은 경우 두 집단의 분산이 통계학적으로 서로 다름을 의미합니다. 분석 결과를 살펴보면 p-value는 0.5290으로 p-value > 0.05이기 때문에 귀무가설(두 그룹의 분산이 같다)을 기각할 수 없습니다. 정리하면 두 집단의 분산은 통계학적으로 서로 유사합니다.
③ t-검정 결과표입니다. 등분산 검정을 통해 두 집단의 분산이 같음을 확인했기 때문에 [Variances] 항목이 [Equal]인 [Pooled] 방법으로 검정한 p-value를 확인합니다. 대체로 [Pooled]와 [Satterthwaite] 방법의 p-value는 유사하지만 표본이 적거나 그 차이가 크지 않은 경우 p-value에서도 차이를 보일 수 있기 때문에 등분산 검정 결과를 해설할 수 있어야 합니다. 예제 분석 결과를 확인하면 [Pooled] 방법에서 p-value가 유의수준 5%보다 작기 때문에 귀무가설(두 배너 위치에 따른 조회율은 같다)이 기각되는 것을 알 수 있습니다. 즉, 배너 위치에 따라 조회율에 통계학적으로 유의미한 차이가 있는 것입니다.
이제 t-검정을 위한 가설인 두 그룹의 분포가 모두 정규분포를 따르는지 확인해 보겠습니다. 통상 표본수가 25개(또는 30) 이상인 경우 정규분포를 따름을 가정합니다. 하지만, 이 가정이 성립하기 위해서는 완전한 랜덤 표본이어야 합니다. 그렇지만 실험 여건상 완전한 랜덤 표본을 뽑기가 쉽지 않은 경우가 많아 대체로 정규성 검정을 생략하고 넘어가는 경우가 많습니다.
표본수 25개 또는 30개란 기준은 중심극한 정리에 기초한 것으로 실제 시뮬레이션을 해보면 데이터 분포가 정규분포를 따르지 않아도 표본수가 커질수록 표본평균의 분포는 정규분포를 따르는 것을 알 수 있습니다. 관련한 상세 내용은 추후 번외 포스팅으로 보여드리겠습니다. 직접 실험한 결과 데이터의 분포가 정규분포와 아주 다르지 않다면 5~8개 정도의 표본을 이용한 표본 평균도 정규분포를 따르는 것을 알 수 있었습니다.
<그림 4> 두 배너 위치에 대한 히스토그램 [참고: (좌) 등분산, (우) 이분산]
먼저 <그림 4> (좌) 그룹별 히스토그램을 통해 우리는 두 집단의 조회율 분포가 정규분포와 얼마나 유사한지 확인할 수 있습니다. 또한 두 집단의 분산이 같은지도 함께 확인할 수 있습니다. 실제 두 집단의 분산이 다른 경우 <그림 4> (우)와 같이 시각적으로 퍼진 정도가 다름을 알 수 있습니다. 앞서 분석한 예제에 대한 히스토그램은 <그림 4>의 (좌)로 분산이 서로 유사하고 정규분포와 유사한 형태를 갖는 것으로 미뤄보아 가정이 만족됨을 알 수 있습니다.
<그림 5> Q-Q Plot
④ 두 집단에 대한 Q-Q Plot 결과입니다. Q-Q Plot은 데이터 정규분포와 얼마나 유사한 형태로 분포해 있는 가를 보다 명확히 나타내기 위한 그래프입니다. 데이터가 정규분포를 따르는 경우 그래프의 대각선을 중심으로 데이터가 분포하게 됩니다. 즉, 자료가 대가선에서 크게 벗어나지 않으면 정규분포를 따른다고 할 수 있습니다.
3) 통계적 의사결정
다판다 고객 100명을 대상으로 한 파일럿 테스트 결과 A와 B 두 위치에 따라 조회율이 다름을 알 수 있었습니다. 또한, t-검정을 통해 그 차이는 유의수준 1%에서 조차 유의미함을 알 수 있었습니다. 결과를 통해 다판다는 배너 위치를 A로 선정해 전체 고객 100만 명을 대상으로 서비스를 시작했고 그 결과 매출이 전년 동기 대비 3.5배 상승했다고 합니다.
#마치며
아름다운 마무리였습니다. 아마 이 글을 읽은 분 중 다수는 마지막 결론을 보고 "에이~ 말도 안 되는 소리 하고 있어"라고 생각하실지 모르겠습니다. 하지만 실제로 데이터 분석이나 모델링을 통해 얻은 결과는 매출 향상과 고객 이탈 방지에 혁혁한 공을 세우고 있습니다. 제가 했던 프로젝트 중에도 모델을 이용한 방법이 훨씬 높은 성과를 나타낸 사례가 다수 존재합니다. 요점은 데이터 분석을 통한 의사결정은 실제로 작동한다는 것입니다.
'데이터 과학 시리즈 > 실무자를 위한' 카테고리의 다른 글
ANOVA 일원분산 분석이란? (0) | 2021.03.22 |
---|---|
SAS를 이용한 일표본 T-검정 (0) | 2021.03.22 |
t-검정은 무엇인가? (0) | 2021.03.22 |
댓글