(source : http://myventurepad.com/10-objectives-six-sigma-green-belt-training-certification/)
["1화 : 숫자를 맞추어 보세요"]
["2화 : 어느 반의 성적이 더 좋은가요?"]
["3화 : 교회가 많으면 범죄가 늘어난다?"]
["4화 : 내가 개선한 성능은?"]
에 이은 다섯번째 연재 입니다.
과연 이 속도로 연재를 하면, 연말에 정말 책을 낼수 있을지, 저도 잘 모르겠지만, 그래도 꾸준히 열심히 해보려고 합니다.
얼핏 듣기에는 굉장히 쉬운 문제로 보이지만, 다음과 같은 경우를 놓고 보면 그리 간단한 문제는 아닙니다.
개선 전과 개선후의 성능을 측정한 표입니다. 단위는 생략하고, 측정한 수치가 크면 클수록 좋다고 가정해 보겠습니다. A연구원은 개선전의 software를 분석하여, 한달간 개선을 하였고, 그 결과과 개선후의 결과로 측정이 되었습니다.
자 과연...개선이 된걸까요? 2번을 보면 개선된 것 같기는 한데..10번중의 한번 측정한 것이니 조금 애매합니다. 그런데 4번, 6번등을 보면 개선이 아니라 개악이 된 것 같기도 하고..참 애매하지 않나요?
일단 이건 전문가의 분석이고, A연구원은 눈을 질끈 감고 일단 평균을 내어 보기로 했습니다.
이건 개선 전,
이건 개선 후 입니다.
평균을 비교해 보니 개선 전은 9.4158, 개선 후는 9.9975....
오 약 0.5만큼 성능이 개선되었습니다. 그런데..?? 아까로 돌아가서 개별 데이터를 뜯어보면 개선이 되었나요? 전혀 아닙니다.
흔하게 실무 또는 학위 논문에서 보이는 오류중에 하나이기도 합니다. 평균을 그 수치만으로 비교하여 개선되었다고 하는 경우가 흔하게 보이는 오류중에 하나 입니다. 사실 이건 의도적인 속임수가 아니라, 따로 배우지 않아서 발생하는 흔한 오류입니다.
그럼 통계적으로 여기서 무얼해야 하나요? 라고 물으신다면 2 sample t-test를 하면 됩니다.
여기서 말해주는 것은 두 집단간의 평균이 다르다고 말할수 없다 입니다. 실제 평균의 차이는 수집된 표본만으로는 0.582만큼 차이가 나지만, 계속해서 측정을 하는 경우 차이가 -1.648에서 0.485사이의 값을 가질 것으로 예측되고, 따라서 둘이 다르다고 이야기할수 없다 입니다.
따라서 통계적으로는 개선되었다고 볼수 없다입니다.
더욱이..만약에 개선의 정도가 적어도 2이상 나야 한다고 가정을 했다면,
그 차이가 2가 전혀 아니란 답을 주고 있습니다. (평균의 차이에 대해서 귀무 가설을 조정할수 있습니다.)
사실 별게 아닌 내용 같지만, 2 sample t-test를 위한 통계량을 계산할때 이런 가정들이 사용되기 때문에, 매우 중요한 내용입니다. 다만 우리는 그 수식을 직접 계산해보거나 보지 않고 사용하기 때문에 이런 가정들을 놓치기 쉬운 것이지요.
다음 시간에는 paired t-test에 대해서 알아보도록 하겠습니다.
한 주의 중간인 수요일이지만, 어제가 휴일이어서 월요일 같은 수요일입니다. 비도 내리고 하늘도 어둡지만, 마음만을 맑은 하루 되시기 바랍니다.