읽던 책의 1/3을 다 읽어서 질병유전학의 이론적 배경에 대해서는 대충 알게 됐으니 그걸 설명하기에 앞서 질병/건강에 영향을 미치는 요인을 분석하는 기본적인 틀을 복습하고 그 내용을 여러분에게 소개하고자 합니다.
쉬운 예로, 담배가 폐암에 미치는 영향이 있는지 없는지 알아보는 상황을 생각해봅시다. 어떻게 하면 담배와 폐암이 연관이 있는지 없는지 알 수 있을까요?
Cohort Study와 Case-Control Study는 특정 요인과 건강상태의 연관성을 알아보는 가장 대표적인 연구 디자인에 속합니다. 오늘은 이 두 개에 대해서 알아보겠습니다.
이렇게 최초에 흡연자와 비흡연자를 수집한 후 그들을 추적 관찰하여 각 그룹에서 몇 명이 폐암에 걸리는지 확인하는 연구 디자인을 Cohort Study라고 부릅니다.
담배를 피는 사람 중 폐암에 걸린 사람/걸리지 않은 사람을 각각 a/b명 그리고 담배를 피지 않은 사람 중 폐암에 걸린 사람/걸리지 않은 사람을 각각 c/d명이라고 합시다. 이 상황은 아래 표에 요약되어 있습니다.
첫 번째 값을 두 번째 값으로 나눈 것을 Relative Risk(RR)이라고 하는데 RR이 1보다 크면 담배가 폐암에 걸릴 확률을 높인다고 생각할 수 있고 RR이 1보다 작으면 담배가 폐암에 걸릴 확률을 낮춘다고 볼 수 있겠습니다. RR을 산출하는 구체적인 방법(예컨데 Logistic Regression)은 이 글에서 다루지 않겠습니다.
폐암에 걸린 사람 중 흡연자/비흡연자의 수를 각각 a/c명, 폐암에 걸리지 않은 사람 중 흡연자/비흡연자의 수를 b/d명이라고 합시다. 이 상황은 아래 표에 요약되어 있습니다.
표 2. 각 그룹의 인원 수와 흡연 노출 빈도
이 표를 이용하면 우리는 폐암 환자/비환자 그룹에서 흡연에 노출된 빈도를 구할 수 있습니다. 폐암 환자 그룹의 흡연 노출 빈도는 a/(a+c) 이고 폐암 비환자 그룹의 흡연 노출 빈도는 b/(b+d)입니다.
그런데 실제로는 a/(a+c)와 b/(b+d)를 계산하기 보다는 a/c와 b/d를 계산한 후 첫 번째 값을 두 번째 값으로 나눈 Odds Ratio(OR) 값을 더 많이 사용합니다. a/(a+c)와 b/(b+d)의 대소관계가 a/c와 b/d의 대소관계와 똑같기 때문에 어떤 것을 택하든 단순히 1보다 크고 작음을 논할 때는 그 비율을 해석하는 데에는 큰 차이가 없습니다. 단순 대소가 아니라 구체적인 값을 생각할 때는 물론 큰 차이가 있을 수 있습니다(아래 댓글의 예시 참고).
Cohort 이든 Case-Control 이든 흡연을 유전자로 바꾸면 질병유전학 연구에도 똑같이 적용할 수 있다는 것을 알 수 있습니다. 참고로, 두 연구 디자인 모두 Randomized Controlled Trial보다 여러가지 문제(예컨데 Bias)에 더 취약하며 따라서 연구를 설계할 때 신중함이 요구됩니다. 더 자세한 상황은 아래 레퍼런스로 달아놓은 책을 읽으면 좋겠습니다.
근데 저 책 6판 곧 나온다는데 언제 나오는지 아시는 분 =.=...?