본문 바로가기
데이터 과학 시리즈/실무자를 위한

t-검정은 무엇인가?

by Career hacker 2021. 3. 22.
반응형

t-검정은 무엇인가?

안녕하세요. Career hacker입니다. 첫 게시글이네요. 오늘은 T-검정에 대해 알아보겠습니다. 개념은 매우 간단합니다. 한 집단의 평균과 다른 집단의 평균 또는 특정 상수 값이 서로 같은지(다른지)를 통계적으로 검정하는 방법입니다.

 

1. 언제 쓰는가?

t-검정은 평균 비교에 널리 쓰이는 검정방법입니다. 모형 관점으로 접근하면 t-검정은 범주형 독립변수와 수치형 종속변수를 갖는 모형 중 범주형 독립변수의 수준(level)이 2개 이하인 경우에 해당합니다. t-검정을 사용할 수 있는 문제 예시는 다음과 같습니다.

 

<예시>

1) (일표본 t-검정) 임의 선정된 만 15세 남, 여 100명을  대상으로 성별에 따른 평균 키 차가 유의한 지 검정

나이가 만 15세인 남학생과 여학생 100명을 임의로 선정합니다. 그리고 조사 학들의 키를 측정합니다. 이때 성별은 범주형 독립변수가 되며, 수준은 남, 여로 2개가 됩니다. 그리고 성별에 따라 측정된 키는 수치형 종속변수에 해당합니다. 이 경우 t-검정을 이용해 두 집단(남, 여) 간 평균 키 차이가 유의한 지 검정할 수 있습니다.

 

2) (이표본 t-검정) 시중에 판매되는 홈런볼 중량이 실제 표기 중량과 같은지 검정과자봉지 겉면에는 중량이 표시되어 있습니다. 만약 제조 업체가 단가를 낮추기 위해 중량을 허위로 표시했다면, t-검정을 이용해 과학적 근거를 마련할 수 있습니다. 시판되고 있는 홈런볼을 임의로 30~50개 선정한 뒤 각각에 대해 실제 중량을 측정합니다. 그리고 이 평균값과 겉면 표시 중량이 통계학적으로 같은지 단일 표본 t-검정을 이용해 검정할 수 있습니다.

 

예시와 같이 t-검정은 두 집단 간 평균 비교 또는 한 집단의 평균과 상수값을 비교할 때 사용합니다. t-검정을 사용하고 싶은 경우 임의로 선정된 25~30개 이상의 표본이 필요하다는 사실만 기억하면 됩니다. 이면에 복잡한 이론적 배경이 존재하지만 굳이 몰라도 문제를 해결할 수 있습니다.

 

<참고> 만약, 표본을 모으는 데에 비용이 너무 많이 들어 30개를 모으기 어렵다면 비모수 검정을 이용하거나 정규성 검정을 통해 데이터의 분포가 정규분포를 따르는지 확인하는 방법이 있습니다.

 


<더 알아보기> 왜 많은 수의 표본이 필요할까?

표본수가 커지면(이론적으로 무한대, 통상 25~30개) T통계량과 Z-통계량이 같아집니다. 즉, 표본이 많은 경우 T-검정과 Z-검정 결과가 사실상 같아집니다. 또한, 임의로 추출된 표본 수가 크다면 중심극한 정리에 따라 임의분포를 가정해도 표본 평균이 정규분포를 따르기 때문에 표본수가 큰 경우 데이터의 분포가 정규분포를 따르지 않아도 t-검정을 사용할 수 있습니다.

 

<표 1> 상황별 평균비교 검정방법 선택 표

상황별 평균비교 검정방법 선택 표

정석은 <표 1>입니다. 하지만, 실제로 모평균을 모르는 데 모분산을 아는 경우 없기 때문에 "모분산 정보가 알려진 경우"는 논의 대상이 아닙니다. 모분산 정보를 모르는 경우 크게 모집단 분포가 알려진 경우와 모는 경우로 나눌 수 있는데 이 역시 알려진 경우는 흔치 않습니다. 보통 정규성 검정을 통해 데이터의 분포로 모집단이 정규분포를 따르는지 추정합니다. 이런 이유로 가능하면 수준별 30개 이상의 표본을 확보하는 것이 좋습니다. 


2. 표본수가 커지면 Z-검정을 사용해도 되는 이유

T검정의 검정통계량:

T검정의 검정통계량 계산식

위 식을 보면 모분산 대신 표본분산 S제곱이 들어가 있는 것을 확인할 수 있습니다. 표본분산은 모분산에 대한 일치추정량(표본의 수가 커지면 모수로 수렴)이기 때문에 표본 수가 충분히 큰 경우 T통계량은 Z통계량과 구조가 같아집니다. 또한 T-분포 역시 표본수가 커지면 Z-분포와 같은 형태를 갖기 때문에 표본수가 큰 경우엔 Z-검정이나 T-검정이나 별 차이가 없습니다.

 

3. 소표본인 경우

이 상황은 요즘은 자주 일어나지 않습니다. 통계학 책을 보면 모분산을 아는 경우와 모르는 경우를 나눠서 보는데 아니 모평균을 몰라서 검정하는 건데 모분산은 어떻게 안답니까? 그런 일은 없다고 보면 됩니다. 따라서 고려할 가치도 없다고 생각해서 빼도록 하겠습니다. (실제로 통계 서적들을 보면, 이런 일은 일어나진 않긴 하는데 그래도 분량을 채워줘야 하니까 써는 줄게 약간 이런 느낌입니다)

 

소표본일때 제일 중요한 것은 정규모집단에 대한 가정을 만족하는지 여부입니다. 말이 어렵죠? 그냥 정규성검정 한번 해보라는 겁니다. 만약에 정규분포를 따르지 않으면? 비모수 검정이라는 걸 해야 합니다. 이때도 분포는 봐주는 게 좋습니다. 만약 분포를 봤는데 좌우가 대칭이면 부호순위 검정을 할 수 있고, 그렇지 않으면 부호검정만 가능하기 때문입니다.

 

제약 조건이 붙는 검정방법은 대부분 검정력이 높습니다. 내가 원하는 논문이면 논문, 보고서면 보고서에서 주장하고자 하는 바를 지지해주는 결과가 나올 가능성이 높다는 거죠(제 주관입니다). 그래서 분석 방법론을 많이 안 다는 건 내가 하고 싶은 말을 지지할 수 있는 근거를 잘 마련할 수 있다는 의미이기도 한 것 같네요.

 

4. T-검정의 종류

(1) 일표본 T-검정(One-sample T-test)

예를 들어서 우리 학교 학생의 평균 키가 내 생각엔 한 180쯤 되는 것 같은데 이게 진짜 그런지 확인해 보는 걸 말합니다. 간단하게 전교생 중 랜덤 하게 10 명정도 뽑았다고 가정합시다. 근데 이게 정규분포를 잘 따른다고 가정합시다. 그럼 이때 이 10명의 학생의 평균과 180cm가 같은지를 검정할 수 있습니다. 이게 바로 일표본 t-검정입니다. 간단하죠?

 

검정통계량 뭐 이런 건 책 보면 나오고요. 사실 요즘에는 R, SAS, 파이썬 같은 애들로 돌리면 되는데 그런건 뭐하러 배우나 싶은 생각도 들긴 합니다. 알면 좋지만요. 굳이 수식을 몰라도 분석은 가능합니다. 언제 어떤 분석을 써야 하고 어떻게 해석하는 지만 알면 말이죠. 왜? 가 궁금하면 좀 더 공부하면 됩니다. 그리고 더 깊게 알고 싶으면 대학원을 가면 됩니다.

 

대응표본 T-test를 구분하여 설명합니다. 전-후 비교에 주로 사용되는 방법인데 일표본 t-검정이랑 똑같습니다. 차이가 있다면 전-후를 빼준다는 절차가 있을 뿐입니다. 그럼 어떤 데이터에서 사용되느냐? 예를 들면, 1학년 1반 아이들에게 아침 자습시간에 클래식을 틀어 줬을 때랑 BTS의 블랙스완을 틀어줬을 때 듣기 평가 성적비교를 한다고 하면 딱 대응표본 T-test가 적당합니다. 그냥 각 학생이 클래식을 들었을 때와 BTS노래를 들었을 때의 듣기평가 점수차를 구해서 이들의 평균이 0인지를 비교하면 됩니다.

 

(2) 이표본 T-검정(Two-sample T-test)

일표본이랑은 좀 다릅니다. 이제는 두 집단입니다. 앞에는 한 집단에 대한 비교와 한 집단의 전-후 비교였다면, 이 검정방법은 남자와 여자 그리고 1학년과 3학년, 직장인과 대학생과 같이 서로 다른 두 집단에 대한 관심 변수의 평균을 비교할 때 이용됩니다. 집단이 두 개면 분포도 두 개를 추정해야 합니다. 우리가 알고 싶은 건 평균의 차이인데 만약 두 집단의 분산이 다르다면? 좀 복잡해지겠죠. 그래서 등분산 검정을 합니다.


이 포스팅이 마음에 드셨다면, 공감과 구독을 클릭해주세요:)

반응형

댓글