본문 바로가기
데이터 과학 시리즈/실무자를 위한

SAS를 이용한 일표본 T-검정

by Career hacker 2021. 3. 22.
반응형

평균 비교: 일표본 t-test 실습

안녕하세요. Career hacker 입니다. 오늘은 SAS를 이용한 일표본 T-검정 방법에 대해 알아보겠습니다.

 

참고: 실습에 사용할 통계 패키지는 SAS University Edition으로 현재 무상으로 제공되고 있습니다.

 

[예제] 나이스 스포츠는 매년 수백만 켤레의 운동화를 생산한다. 최근 나이스 스포츠는 신상으로 울트라슈퍼부스트 시리즈를 출시했다. 그런데 고객들로부터 280 사이즈 울트라슈퍼부스트 시리즈의 발 사이즈가 표기된 것과 다르다는 컴플레인이 받았다. 컴플레인 건수가 많지 않아 우선 생산된 제품 중 100개를 임의추출해 280 사이즈와 같은지 확인하려고 한다.

 

[참고] 관련 데이터는 본 아래 첨부 파일을 다운 받으시기 바랍니다.

 

example.csv
0.00MB

 

1. 표본 크기에 대한 검토 및 데이터

우선 표본 크기가 충분한지 검토해야 합니다. 주어진 표본의 수는 100개로 통상 100 정도의 표본이면 충분하다고 볼 수 있기 때문에 정규성 검정은 우선 생략하고 바로 T-검정을 하도록 하겠습니다.

 

 

분석에 사용할 데이터의 일부입니다. 데이터 형태는 위와 같이 구성되어 있습니다.

 

2. 가설 설정

 

 

귀무가설은 "모평균은 280이다"이고, 대립가설은 "모평균은 280이 아니다"로 양측검정을 이용합니다.

 

3. 분석 코드

PROC TTEST DATA = TTEST_EXAMPLE_01 
           H0   = 280 
           ;
    VAR SIZE;
RUN;

 

분석 코드는 위와 같습니다. [TTEST] 절차를 통해 일표본 T-검정은 물론 다음과 같은 구문들을 통해 다양한 T-검정을 지원합니다.

분석 방법

구문

일표본(One-sample)

VAR

대응표본(Paired)

PAIRED

독립T검정(Two-independent-sample)

CLASS, VAR

AB/BA crossover

VAR / CROSSOVER=

일표본 T-검정은 기본 귀무가설이 모평균이 0인지를 검정하는 것이기 때문에 [H0] 구문을 통해서 모평균 비교 대상을 지정해 줘야 합니다. [VAR] 구문에 평균 비교 대상 변수를 지정합니다.

 

4. 결과

 

 

 

[TTEST] 절차를 통한 출력 결과입니다. [TTEST] 절차는 기본 기술통계량, 신뢰구간 그리고 가설 검정에 대한 p-value를 출력해 줍니다. 평균의 신뢰구간을 살펴보면 [280.8, 281.0]으로 280을 포함하고 있지 않은 것을 알 수 있습니다. 또한 p-value를 살펴보면 P-value<.0001로 유의수준 0.05 하에서 귀무가설이 기각임을 확인할 수 있습니다.


즉, 유의수준 0.05 하에서 100개의 신발 표본을 검토한 결과 신발 사이즈의 평균이 280이라는 통계적 근거가 없는 것입니다. 따라서 회사는 공정 불량률을 다시 확인해 보고 고객들에겐 적절한 보상을 해줘야 할 것으로 보입니다.


사실 검정은 여기서 끝입니다. 하지만 소표본인 경우를 고려해 정규성 가정을 어느 정도 만족하는가를 위 표와 함께 출력 되는 그래프를 통해 확인하는 법을 알아보겠습니다.

 

5. 가정에 대한 검토

 

 

(좌) 그래프는 관측된 표본의 분포를 나타낸 것입니다. 표본 분포를 살펴보면 정규분포와 유사한 것을 확인할 수 있습니다. (우) 그래프는 Q-Q Plot으로 각 관측치들이 대각선을 크게 벗어나지 않으면 정규성 가정을 만족한다고 볼 수 있습니다. 물론, 제일 정확한 것은 정규성 검정을 해보는 거겠지만 기왕 [TTEST] 절차를 수행하면 나오는 결과물을 통해 보는 것이 더 편하기 때문에 살펴봤습니다.

반응형

댓글