(source : http://myventurepad.com/10-objectives-six-sigma-green-belt-training-certification/)
["1화 : 숫자를 맞추어 보세요"]
["2화 : 어느 반의 성적이 더 좋은가요?"]
에 이은 세번째 연재 입니다.
아래 표를 보시겠습니다. (아래 표는 예시를 위해서 임의로 만든 것입니다.)
각 도시 또는 지역별 교회의 수와, 1주일에 발생하는 범죄의 건수라고 가정을 해보겠습니다.
문제의 출발은 이랬습니다.
범죄가 많이 발생하는 이유가 무엇이지?
그래서 어떤 사람이 혹시나 하여 교회의 수를 조사해 보자. 이렇게 된 것입니다.
그리고 그 어떤 사람은 Six sigma에서 상관관계라는 분석 tool을 생각해 내게 됩니다. 사실 six sigma는 framework이기 때문에 상관관계 분석은 이미 여러 통계를 쓰는 사람들이 사용하는 tool중에 하나 입니다.
우선 그래프 분석을 해보니...교회의 수가 많은 곳에는 범죄의 수도 많습니다. 무언가 개연성이 있어 보입니다. 흔히 우리가 이야기 하는 정비례 관계가 보입니다.
실제 상관관계 분석을 돌려 보면,
제가 만든 데이터이니 놀랄것도 없지만, 상관계수 r = 1의 놀라운 결과가 나왔습니다. 교회의 수와 범죄의 발생 수가 아주 큰 관계가 있어 보입니다.
적어도 교회가 많은 곳에는 범죄가 많고, 교회가 적은 곳에는 범죄가 적다는 정도이 해석도 가능하겠습니다. 하지만 까마귀 날자 배 떨어진다고, 둘이 전혀 인과 관계가 없을 가능성이 훨씬 높습니다.
그래서 말 그대로 "상관관계"로만 보고 해석을 했다면 "교회가 많으면 범죄가 늘어난다"라는 이야기를 안했을 터인데..이를 "인과 관계"로 오해하여 "교회가 많으면 범죄가 늘어난다"라는 해석이 된 것입니다.
우선 상관관계를 이론적으로 간단히 보겠습니다. 수식은 생략하구요, 상관 관계는
크게 2가지가 있습니다. 양의 상관관계와 음의 상관관계. 양의 상관 관계는 하나가 증가하면 다른 하나도 증가하는 것이고, 음의 상관관계는 하나가 증가하면 다른 하나는 감소하는 경우를 의미합니다.
반대로 하나가 감소할때 다른 하나가 감소해도 양의 상관관계이죠. 저희가 학교때 배우 정비례가 양의 상관관계, 반비례가 음의 상관관계입니다.
그리고 이를 수치화 하여 "r"이라는 값으로 표시합니다. 이 값의 범위는 -1 <= r <= 1 이 됩니다.
r값이 크면 클 수록 상관관계가 강하다고 이야기 합니다.
그럼 위의 해석으로 돌아가 보면 r값이 "1"이 었으니 양의 상관관계가 굉장히 크다. 이렇게 해석할 수 있겠죠. 이는 수치적인 해석이고, 실제 의미적인 해석은 또 다른 문제 입니다.
여기서 인과관계는 원인과 결과의 관계입니다. 예를 들어 "수능 시험 성적이 좋으면 대학교 합격률이 높아진다."와 같은 것은 인과관계입니다. 당연히 둘의 상관관계도 높을 것이고 양의 상관관계입니다.
그렇다면 위의 교회와 범죄의 관계는? 1번에 해당할까요? 그렇지 않습니다. 3번에 해당 합니다.
무슨 이야기냐 하면, 또 다른 C가 있는 것입니다. 여기에서 C는 바로 "인구의 수"입니다.
즉..
"인구의 수가 많으면 교회의 수도 많다."
"인구의 수가 많으면 범죄의 수도 많다."
이렇게 인구가 교회와, 범죄의 수에 인과 관계를 형성하는 경우이고, 이로 인해서 교회와 범죄의 수에 대해서 상관관계가 생긴 것입니다. 그런데 이를 잘못 해석하면 인수의 수는 쏘옥 빠지고 교회와 범죄만 남게되는 상황이 벌어지는 것입니다. 애초에 가설 설정이 잘못 된 것이지요.
사실 이런 일은 프레임을 바꾸는 작업에서도 많이 벌어집니다. 그래서 문제의 본질을 잘 쳐다보아야 하는 상황이 벌어지는 것이구요..
여기에서 중요한 것은 교회와 범죄의 수에 대한 관계나 이에 대한 논쟁이 아니라, 그 밑에 본질인 인구의 수를 보아야 한다는 중요한 교훈이 있습니다. 그런데 교회와 범죄의 민감한 논쟁에 빠지게 되면 인구는 영원히 잊혀지게 되는 상황이 벌어지곤 합니다.
즐거운 주말 보내세요.