(source : http://myventurepad.com/10-objectives-six-sigma-green-belt-training-certification/)
"1화 : 숫자를 맞추어 보세요"
"2화 : 어느 반의 성적이 더 좋은가요?"
"3화 : 교회가 많으면 범죄가 늘어난다?"
"4화 : 내가 개선한 성능은?"
"5화 : 전보다 좋아졌나요?"
처음에 간단한 실험계획의 원리로 시작해서, 5화에서는 2개의 집단을 비교하는 2 sample t-test에 대해서 알아보았습니다.
오늘은 이와 유사하지만, 주의해서 사용해야 하는 paired t-test에 대해서 알아보겠습니다.
만약 이게 사실이라면, 우리는 왼쪽은 275, 오른쪽은 280이나 285를 신어야 할지도 모르겠습니다. 정말 그런지 한번 볼까요?
데이터는 예제 데이터 입니다. 정말 그런일이 벌어지는지는 좀 더 정확한 측정을 해야 겠지만요..
10명의 사람들의 왼발과 오른발의 크기를 측정한 데이터 입니다.
대충 눈의로 보기에 오른발이 더 커 보입니다. 정말 그런지..통계적으로 분석을 해 볼까요?
역시나..신발의 크기가 다른 일은 발생하지 않았습니다. P값이 0.05보다 크니 귀무가설을 채택하면, 왼발과 오른발의 크기가 같다라고 통계적으로 말할수 있는 상황이 되겠습니다.
그런데 좀 이상하지 않나요? 분명 표를 눈으로 보기에는 오른발이 더 큰데 말이죠..
왼발과 오른발의 크기를 비교하는 것에는 사람이라는 변수가 있습니다. 즉 왼발과 오른발은 조금 더 정확히 쓰면, 사람 A의 왼발과 사람 A의 오른발입니다.
여기에 2 sample t-test를 쓰는 것은.....조금 무서운 상황입니다. 누구의 발인지는 궁금하지 않고, 오른발 10개와 왼발 10개를 비교한 것이 됩니다. 그것도 발을 섞어서 말이죠....
왜냐하면 2 sample t-test는 두개의 집단을 비교하는 것이기 때문에 그렇습니다.
이와 같이 비교하는 2개의 값이 서로 연관되는 경우에는 2 sample t-test가 paired t-test를 써야 합니다. 즉 왼발과 오른발을 10명의 사람에 대해서 각각 비교하는 것이지요. 이렇게 해야 이치에 맞습니다.
한국말로는 쌍체검정이라고 번역되는 paired t-test입니다. 즉 하나의 쌍으로 된 서로 다른 군집을 비교하는 것이고, t검정 통계량을 이용하기 때문에 t-test입니다.
결과를 보면 아까와는 달리 왼발과 오른발의 크기가 다르다고, 그리고 오른발이 더 크다라고 판단을 내리고 있습니다.
같은 데이터 이지만, 데이터의 성격에 따라서 사용해야 하는 test가 달라지고, 이에 따라서 결과의 해석도 달라지게 됩니다.
쉬운 다른 예를 들면 신발의 마모도가 그 예중의 하나입니다. 사람별로 마모도가 다르기때문에 이를 단순히 비교하면 원하지 않는 결과가 나올수 있고, 이 경우에도 paired t-test를 써야 합니다.
데이터가 잘 취득되었다고 가정을 하면, 결국 우리는 왼발과 오른발, 서로 다른 크기의 신발을 신어야 하는 상황이 발생을 한 것입니다. T.T
여기서 볼 수 있는 또 하나의 중요한 것은 데이터의 수집니다. 결국 통계분석은 데이터에 기반하니, 아무리 통계분석을 잘하는 사람이어도, 데이터가 잘못되면 제대로 해석할 방법이 없습니다.