01. 서론
전향적 연구에서 특정 처치가 나타내는 결과를 추정(casual inference)하기 위해 연구대상을 선정할 때는 연구 설계 단계에서 무작위 배정(random assignment)을 사용하여 결과에 영향을 주는 특성의 차이가 없도록 해야 한다.
그러나 임상에서 환자에게 위험(hazard)이 예상되는 경우 혹은 이미 특정 치료방법이 시행되고 있는 경우에는 무작위 배정이 윤리적 문제를 발생시킬 수 있다.
e.g.) 폐암 치료방법으로 수술이 권장되는 경우, 다른 방법과 비교를 하여 환자가 수술에 의해 치료를 받을 수 있는 기회를 박탈하는 경우가 있다.
이의 대안으로 관측연구(observational study)를 진행하는데, 무작위 배정 없이 특정 집단을 대상으로 연구를 진행하기 때문에 조금 더 현실적이고 일반적인 장점이 있다. 또한 추정된 치료효과를 임상에 적용할 수 있도록 조정이 가능하다.
그러나 관측연구는 연구대상의 선정에서 선택편향(selection bias)을 피할 수 없고, 무작위 배정에 의하지 않기 때문에 어떤 현상의 원인을 추론하는 것이 근본적으로 불가능하다.
여기서 선택편향이란, 특정 공변량(covariate)에 의하여 연구대상이 특정 처치를 받을 확률이 증가하는 것을 말하며, 이 공변량은 처치군(treatment group)과 대조군(control group) 사이의 결과 차이를 규명하는데 혼란변수로 작용하게 된다.
관측연구에서 선택편향을 감소시키는 방법으로 고전적으로 사용하는 방법은 짝짓기(matching)이다. 짝짓기는 결과에 영향을 미치는 공변량의 수준을 맞춘 연구대상들을 처치군과 대조군에 고르게 포함시키는 방법이다.
그러나 발생률이 낮은 현상을 연구 대상으로 한다면,
- 짝짓기 방법으로 통계적 검정력(statistical power)을 가지는 수만큼 표본을 수집하는 것은 매우 어렵다.
- 공변량이 여러 개라면 두 군을 완전히 맞추는 것이 불가능하다.
- 오히려 여러 개의 공변량을 모두 맞추면 편향되고 왜곡된 통계 결과를 도출하기도 한다.
관측연구에서 고전적인 짝짓기 방법이 가지는 단점을 극복하고 선택편향을 최소화하기 위해 propensity score를 이용한 짝짓기 방법이 사용되고 있다.
이것이 Propensity score matching(PSM)이다.
02. Propensity Score의 정의와 계산방법
Propensity score란 연구 대상이 특정 공변량에 의해 대조군이 아닌 처치군에 포함될 확률이다.
확률이기 때문에 0에서 1 사이의 값을 가진다.
만약 연구대상이 처치군과 대조군에 무작위 배정 되었다고 가정한다면, 이때의 propensity score는 0.5가 된다.
그러나 실제 관찰실험에서는 무작위 배정이 불가능하므로 각 공변량에 대한 propensity score를 추정하여 이 점수(확률)을 이용한 조정(adjustment)를 시행하게 된다.
propensity score는 두 가지 방법으로 계산한다.
1. classification and regression tree analysis (CART)
2003년에 Lemon 등이 처음 소개한 non-parametric decision tree method이다.
그러나 이 방법은 너무 복잡하고 특정 통계적 상황에서만 적용이 가능하기 때문에 널리 사용되지 않는다.
2. 로지스틱 회귀분석
처치군에 포함되는 경우를 1, 대조군에 포함되는 경우를 0으로 하는 이항반응(binary response) 형태로 종속변수를 설정하고, 보정하려는 공변량을 독립변수로 지정하여 로지스틱 회귀분석을 시행한다. 이 모형에 의해 각 대상들의 추정된 확률이 propensity score에 해당된다.
03. Propensity Score를 이용한 짝짓기 방법들
1. 층화 짝짓기(Stratified matching)
Propensity score의 범위에 따라 몇 개의 간격으로 연구에 포함된 개체를 분류하는 방법이다.
다섯 개 정도의 층(strata)으로 자료를 분류하면 공변량에 의한 bias를 90-95%가량 의미 있게 제거할 수 있다.
2. 최근접 짝짓기(nearest neighbor matching)
대조군과 처치군에 대해 propensity score 차이의 절대값이 가장 작은 순서대로 짝짓기를 하는 방법이다.
3. N : N matching
처치군의 첫 번째 개체부터 N개의 대조군 중에서 propensity score가 가장 차이가 적은 개체와 짝짓기를 하는 방법이다.
- 1 : 1 matching은 대조군과 처치군의 propensity score가 비슷하지 않으면 많은 수의 처치군의 자료가 탈락되는 단점이 있다.
따라서 표본수가 같은 경우에는 1 : 2 matching이 보다 좋은 검정력을 가진다.
단, 1 : 5 이상으로 matching을 하면 검정력의 증가는 미미하다.
- 대조군의 표본수가 작은 경우에는 한 번 짝짓기에 사용된 대조군의 연구대상을 반복해서 사용하는 matching with replacement 방법이 효과적이다.
- 대조군의 표본수가 충분히 많다면 대조군과 처치군을 1 : 2로 짝짓기를 하면 된다.
4. Radius matching
처치군의 propensity score로부터 미리 설정한 간격 이내의 대조군을 짝짓기 하는 방법이다.
5. Kernel matching
처치군과 대조군의 propensity score의 차이에 반비례하는 값에 의하여 가중치(weight)를 결정하고 대조군의 가중평균(weighted average)에 의거하여 처치군의 개체들과 짝을 이루는 방법이다.
6. Caliper matching
추정된 propensity score의 표준오차(standard error)의 1/4에 해당되는 값을 범위로 지정하여 짝짓기에 사용한다.
대조군과 처치군의 짝을 이룰 대상들 사이의 propensity score 차이가 이 범위 내에 해당하는 경우에만 짝을 이루어 분석에 포함시키고 제외되는 모든 개체는 분석에서 제외된다.
7. Mahalanobis metric matching
처치군의 연구대상과 Mahalanobis distance가 가장 작은 대조군이 짝을 이루는 방법이다.
짝짓기는 모든 처치군 대상이 짝을 이룰 때까지 시행된다.
관찰연구에서 Mahalanobis matching method는 block randomization design과 같은 것으로 간주한다.
또한 대조군의 표본수가 많지만 비대칭 분포를 하는 경우에는 Radius나Kernel 혹은 Mahalanobis matching이 사용된다.
8. Greedy matching method
Greedy matching method는 다양한 post-matching analysis이 가능하기 때문에 유용하다.
- 연구 대상이 정규분포를 사용하지 않거나, 연속변수가 아닌 경우에는 Caliper matching에서 정의된 범위 내로 최 근접 짝짓기를 이용한 Greedy matching method가 적절하다.
- 표본수가 작은 경우에는 Mahalanobis metric matching을 사용한 Greedy matching이 유용하다.
여러 장점에도 불구하고 몇가지 제한점을 가지고 있기 때문에 널리 사용되지는 않는다.
- 가능한 정확한 matching을 하기 때문에 많은 수의 연구대상이 배제된다.
- 대조군과 처치군의 추정된 propensity score들의 분포가 서로 겹쳐야 가능하며 대푯값(예: 평균 혹은 중앙값)이 유사하여야 사용이 가능하다.
9. Optimal matching method
PSM의 방법 중 가장 최근에 소개된 Optimal propensity score matching (OPMS)은 network flow theory에 기초하여 짝짓기를 최적화하며, 관찰연구에서 bias를 통제하는데 가장 많이 사용된다.
OPMS은 유사한 propensity score를 가진 대조군과 처치군의 연구 대상들이 하나의 계층(stratum)으로 분류하여, 자료 전반에 걸쳐 층화(stratification)를 시행한다.
- 각 계층 내에서 처치군과 대조군 표본수의 비율에 따라 matching process가 결정된다.
- matching process는 1 : 1 matching (pair matching), 1 : N matching (variable ratio 혹은 variable matching), N : N matching (full matching) 중 선택이 가능하다.
-> 이 방법으로 전체 표본에 대한 propensity score의 통계적 거리(statistical distance)를 최소화하는 계층을 만들어 통계분석을 시행한다.
PSM이 등장한 이후로 다양한 matching method가 소개되었으나. 최근에는 Greedy matching method와 optimal matching method를 많이 사용한다.
이 두 가지 방법은 다른 PSM의 장점들을 사용하여 이루어지며, 방대한 양의 자료를 다루기에 적합하다.
03. Validating PMS
propensity score는 propensity score model에 포함된 모든 공변량에 대한 확률이고,
PSM은 propensity score가 가까운 것들끼리 짝짓기를 이루는 과정이다.
따라서, PSM 후에는 짝짓기 과정의 적절성에 대해 검정이 필요하다.
- Balance diagnostics는 공변량이 연속변수이거나 혹은 이분변수(binary variable)인 경우에 평균과 표준편차 혹은 빈도를 이용하여 두 군의 공변량의 차이를 알아보는 가장 단순한 방법이다.
- 만약 공변량이 범주형 변수라면 가변수(dummy variable)를 생성하여 분석이 가능하다.
- 이 방법에 의한 표준화된 차이(standard difference; d)가 0.1보다 작다면 두 군의 공변량에 의한 차이는 무시할 정도라고 결정한다.
<참고문헌>
이동규. (2016). Propensity score matching method의 소개. Anesthesia and Pain Medicine, 11(2), 130-148.
'논문요약' 카테고리의 다른 글
[논문 요약 5일차] Heterogeneous Graph Attention Network (0) | 2025.04.29 |
---|---|
[논문 요악 4일차] Graph neural networks: A review of methods and applications (1) (7) | 2024.10.02 |
[논문 요약 2일차] PSM 분석을 활용한 적정 급식비 인식분석 (2) | 2024.09.17 |
[논문 요약 1일차] 기계학습 모형을 이용한 악취의 요인 파악 (2) | 2024.09.17 |