(source : http://myventurepad.com/10-objectives-six-sigma-green-belt-training-certification/)
이전 시간에는 ["숫자를 맞추어 보세요"]라는 식스 시그마의 효율적인 측면에 대해서 이야기를 했었습니다.
오늘은, 효율이 아니라 공정성? 혹은 공평성에 대한 이야기를 해보고자 합니다.
우리가 정말 일상 생활에서 너무나 흔하게 범하고 있는 오류가 여기에 포함되고, 그냥 그렇게 살아가고 있지만, 다행스럽게도 식스시그마에서는 이에 대한 것을 아주 자세히, 그리고 정교하게 다루고 있습니다.
자 이렇게 A, B반이 있습니다. 요즘도 하는지 모르겠지만, 제가 고등학교에 다닐때에는 반 전체 평균이 그 학년에서 1등이면 아이스크림을, 반대로 꼴등이면 매를 선사하는 그런 일들이 종종 있었습니다.
매는 지금 정서에 맞지 않으니, 오직 A, B 2개의 반만 있다고 가정하고, 1등한 반에는 아이스크림을 사주는 내기를 했다고 가정하겠습니다.
그리고 누가 더 잘했는지는 점수의 평균으로 비교하는 것으로요...
그래서 평균을 내어 보았습니다.
A반은 평균 68, B반은 평균 68.1 그래서 B반이 더 잘했고, 그래서 B반의 아이들이 아이스크림을 먹었습니다.
그래프를 음미해 보면, A반은 성적이 양극화 되어 있고, B반은 평균에 잘 몰려 있는 것이 보입니다. 또한 B반은 8번 학생을 제외하면 전반적으로 평균 성적이 매우 유사 합니다.
반면에 A반은 고득점자도 많지만, 저득점자도 많습니다.
만약에 정규분포 곡선을 두 반에 대해서 그려본다면 극명하게 갈리는 그래프가 나올것입니다. 다만 여기에서1 , 2, 3과 같은 학생의 번호는 임의로 할당한 것이니 번호간의 비교는 큰 의미가 없겠습니다.
다시 말해서 "A반과 B반의 평균으로 우열을 가리는 것이 적절한가?"라는 질문으로 귀결될 것 같습니다.
예를 들어 경기의 규칙을 1~5번 학생의 평균으로 하자 또는 6~10번 학생의 평균으로 하자 또는 임으로 5명만 뽑아서 하자와 같이 규칙을 조금만 바꾸어도 결과가 뒤집에 지게 되고,
더욱이 A반에 있는 고득점 학생들은 이 결과가 매우 불공평하다고 느낄수도 있습니다.
그리고 만약 꼭 평균을 써야 한다면, 평균이 사용가능한 조건으로 미리 데이터에 대해서 전처리를 해주어야 합니다. 여기에선 적절한 transform을 통해서 좌우대칭 종모양의 정규분포로 만드는 작업이 필요합니다. 물론 분산에 대한 확인도 필요하구요..
정리하면 마구잡이로 평균을 적용한데에서 문제가 기인한 것입니다.
예를 들어,
A반, B반은 A사, B사로..그리고 학생번호는 각 동의 번호로...그리고 1,2,3,4,5는 금천구에 속한 동이고, 6,7,8,9,10은 강남구에 속한 동이라고 해보겠습니다. 그리고 각 칸에 쓰여 있는 숫자는 인터넷 속도라고 해보면..
B사의 인터넷 속도가 좋다는 것에 동의가 되시는지요? 그보다는 구별도 인터넷 제공 회사별로 속도의 차이가 있다 또는 금천구는 A사가, 강남구는 B사가 빠름. 이렇게 분석하는 것이 더 적절해 보입니다.
이에 따라서 문제의 인식도 바뀌게 됩니다. 옳지 않은 비교로 평균만 보았다면 A사의 인터넷 속도 개선이라는 문제점을 도출할수 있겠지만, 잘 구분해서 비교했다면 A, B사의 지역별 차이 개선 이렇게 할수 있었을 것입니다.
여기에서 중요한 것이 꼭 개별의 데이터를 그래프 분석을 통해서 보아야 한다는 것입니다.
더욱이 두 회사간에는 단순히 아이스크림을 먹고 안먹고의 문제가 아니라 사활이 걸린 문제일 수도 있습니다.
뒤에 연재되는 글에서는 이를 Measure단계에서 더 자세히 다루어 보도록 하겠습니다.
통계적인 tool에 대한 이야기보다는 실제 상황에서 벌어지는 예를 들어 말씀드리고자 했고, 비유가 적절치 않거나 혹혹은 궁금하신 부분들은 댓글을 달아주시면 많은 도움이 될 것 같습니다.
감사합니다.