전보다 좋아졌나요?-SixSigma Chapter5

(source : http://myventurepad.com/10-objectives-six-sigma-green-belt-training-certification/)

Previously

Software에도 유용하게 적용되는 six sigma에 대해서 사례나 적용 위주로 풀어나가는 글을 쓰고 있습니다. 전 시간에는 평균비교의 종류와 하나의 집단의 평균을 비교하는 것을 알아 보았습니다. 이번 시간에는 2개 집답 간의 평균 비교에 대한 이야기를 해보려고 합니다.

["1화 : 숫자를 맞추어 보세요"]
["2화 : 어느 반의 성적이 더 좋은가요?"]
["3화 : 교회가 많으면 범죄가 늘어난다?"]
["4화 : 내가 개선한 성능은?"]

에 이은 다섯번째 연재 입니다.

과연 이 속도로 연재를 하면, 연말에 정말 책을 낼수 있을지, 저도 잘 모르겠지만, 그래도 꾸준히 열심히 해보려고 합니다.

예전 보다 좋아 졌나요?

우리가 일상 생활에서 흔하게 접하는 문제입니다. 무언가를 하기 전과 후의 차이가 나는지를 비교하는 것이 주로 여기에 속합니다. 물론, 이를 비율로 비교해야 한다면 비율에 대한 비교 방법을 써야 하겠지요.(이는 나중에 다시 다루겠습니다.) 그게 아니라면 대부분 평균을 비교하는 여기에 속하게 될 것입니다.

두 반간의 성적의 차이 비교
중간고사와 기말고사의 시험 성적 비교
개선전과 후의 software의 성능 비교
개선전과 후의 인터넷 속도의 비교
새로운 제도 도입 전후의 업무 개선 정도의 비교 등등등..

얼핏 듣기에는 굉장히 쉬운 문제로 보이지만, 다음과 같은 경우를 놓고 보면 그리 간단한 문제는 아닙니다.

개선 전, 후의 성능 비교

개선 전과 개선후의 성능을 측정한 표입니다. 단위는 생략하고, 측정한 수치가 크면 클수록 좋다고 가정해 보겠습니다. A연구원은 개선전의 software를 분석하여, 한달간 개선을 하였고, 그 결과과 개선후의 결과로 측정이 되었습니다.

자 과연...개선이 된걸까요? 2번을 보면 개선된 것 같기는 한데..10번중의 한번 측정한 것이니 조금 애매합니다. 그런데 4번, 6번등을 보면 개선이 아니라 개악이 된 것 같기도 하고..참 애매하지 않나요?

일단 이건 전문가의 분석이고, A연구원은 눈을 질끈 감고 일단 평균을 내어 보기로 했습니다.

이건 개선 전,

이건 개선 후 입니다.

평균을 비교해 보니 개선 전은 9.4158, 개선 후는 9.9975....

오 약 0.5만큼 성능이 개선되었습니다. 그런데..?? 아까로 돌아가서 개별 데이터를 뜯어보면 개선이 되었나요? 전혀 아닙니다.

어떻게 해야 할까요?

이 때 필요한 것이 통계적인 분석입니다. 왜냐하면...평균만 놓고 보면 분명 개선이 된 것 같은데요..
개별 데이터를 놓고 보면 개선이 된 것 같기도 하고 아닌 것 같기도 하기 때문입니다.

흔하게 실무 또는 학위 논문에서 보이는 오류중에 하나이기도 합니다. 평균을 그 수치만으로 비교하여 개선되었다고 하는 경우가 흔하게 보이는 오류중에 하나 입니다. 사실 이건 의도적인 속임수가 아니라, 따로 배우지 않아서 발생하는 흔한 오류입니다.

그럼 통계적으로 여기서 무얼해야 하나요? 라고 물으신다면 2 sample t-test를 하면 됩니다.

여기서 말해주는 것은 두 집단간의 평균이 다르다고 말할수 없다 입니다. 실제 평균의 차이는 수집된 표본만으로는 0.582만큼 차이가 나지만, 계속해서 측정을 하는 경우 차이가 -1.648에서 0.485사이의 값을 가질 것으로 예측되고, 따라서 둘이 다르다고 이야기할수 없다 입니다.

따라서 통계적으로는 개선되었다고 볼수 없다입니다.

더욱이..만약에 개선의 정도가 적어도 2이상 나야 한다고 가정을 했다면,

그 차이가 2가 전혀 아니란 답을 주고 있습니다. (평균의 차이에 대해서 귀무 가설을 조정할수 있습니다.)

다른 고려 사항

물론 2 sample t-test를 하기 전에, 각각의 집단은 정규분포여야 하고, 등분산성을 가져야 한다는 가정이 있습니다. 이 가정을 만족하지 못하면, 당연히 2 sample t-test의 결과도 신뢰할수 없게 됩니다.

사실 별게 아닌 내용 같지만, 2 sample t-test를 위한 통계량을 계산할때 이런 가정들이 사용되기 때문에, 매우 중요한 내용입니다. 다만 우리는 그 수식을 직접 계산해보거나 보지 않고 사용하기 때문에 이런 가정들을 놓치기 쉬운 것이지요.

마치며

오늘은 가장 기본적이고 많이 사용되는 2 sample t-test에 대해서 알아보았습니다. 전보다 좋아 졌는지를 비교할때 쓰는 가장 기본적인 test입니다.

다음 시간에는 paired t-test에 대해서 알아보도록 하겠습니다.

한 주의 중간인 수요일이지만, 어제가 휴일이어서 월요일 같은 수요일입니다. 비도 내리고 하늘도 어둡지만, 마음만을 맑은 하루 되시기 바랍니다.