어느 반의 성적이 더 좋은가요?-SixSigma Chapter2

(source : http://myventurepad.com/10-objectives-six-sigma-green-belt-training-certification/)

Prologue

이전 시간에는 ["숫자를 맞추어 보세요"]라는 식스 시그마의 효율적인 측면에 대해서 이야기를 했었습니다.

오늘은, 효율이 아니라 공정성? 혹은 공평성에 대한 이야기를 해보고자 합니다.

우리가 정말 일상 생활에서 너무나 흔하게 범하고 있는 오류가 여기에 포함되고, 그냥 그렇게 살아가고 있지만, 다행스럽게도 식스시그마에서는 이에 대한 것을 아주 자세히, 그리고 정교하게 다루고 있습니다.

두 반의 평균 비교

자 이렇게 A, B반이 있습니다. 요즘도 하는지 모르겠지만, 제가 고등학교에 다닐때에는 반 전체 평균이 그 학년에서 1등이면 아이스크림을, 반대로 꼴등이면 매를 선사하는 그런 일들이 종종 있었습니다.

매는 지금 정서에 맞지 않으니, 오직 A, B 2개의 반만 있다고 가정하고, 1등한 반에는 아이스크림을 사주는 내기를 했다고 가정하겠습니다.

그리고 누가 더 잘했는지는 점수의 평균으로 비교하는 것으로요...

그래서 평균을 내어 보았습니다.

A반은 평균 68, B반은 평균 68.1 그래서 B반이 더 잘했고, 그래서 B반의 아이들이 아이스크림을 먹었습니다.

Graph 비교

그래프를 음미해 보면, A반은 성적이 양극화 되어 있고, B반은 평균에 잘 몰려 있는 것이 보입니다. 또한 B반은 8번 학생을 제외하면 전반적으로 평균 성적이 매우 유사 합니다.

반면에 A반은 고득점자도 많지만, 저득점자도 많습니다.

만약에 정규분포 곡선을 두 반에 대해서 그려본다면 극명하게 갈리는 그래프가 나올것입니다. 다만 여기에서1 , 2, 3과 같은 학생의 번호는 임의로 할당한 것이니 번호간의 비교는 큰 의미가 없겠습니다.

공평한가?

다시 이 글 처음에 이야기 했던 문제로 돌아가 보겠습니다. B반이 이겨서 아이스크림을 먹었는데요?
과연 공평할까요?

다시 말해서 "A반과 B반의 평균으로 우열을 가리는 것이 적절한가?"라는 질문으로 귀결될 것 같습니다.

예를 들어 경기의 규칙을 1~5번 학생의 평균으로 하자 또는 6~10번 학생의 평균으로 하자 또는 임으로 5명만 뽑아서 하자와 같이 규칙을 조금만 바꾸어도 결과가 뒤집에 지게 되고,

더욱이 A반에 있는 고득점 학생들은 이 결과가 매우 불공평하다고 느낄수도 있습니다.

왜 이런 문제가?

애초에 서로 다른 분포를 가지는 집단을 평균으로 비교하려고 했기 때문입니다. 우리가 흔하게 범하는 실수 중에 하나가, 특정 집단을 대표하는 대표값으로 평균이 제일 좋거나 혹은 평균만 있다고 생각하는 것입니다. 사실 대표값에는 평균, 최빈값, Median등 다양한 지표가 있고, 이들 이외에도 임으로 지표를 만들어서 쓸수도 있습니다.

그리고 만약 꼭 평균을 써야 한다면, 평균이 사용가능한 조건으로 미리 데이터에 대해서 전처리를 해주어야 합니다. 여기에선 적절한 transform을 통해서 좌우대칭 종모양의 정규분포로 만드는 작업이 필요합니다. 물론 분산에 대한 확인도 필요하구요..

정리하면 마구잡이로 평균을 적용한데에서 문제가 기인한 것입니다.