Jak porównać dwie grupy, useR 2013, Propensity Scores a badania obserwacyjne

This post was kindly contributed by SmarterPoland » R - go there to comment and to read the full post.

Jutro zaczyna się useR!2013, czyli coroczna międzynarodowa konferencja użytkowników R [przyjeżdżam na nią od sześciu lat i nie znalazłem jeszcze innej tak wciągającej konferencji]. Tym razem w Albacete w Hiszpanii.

Dziś miejsce mają tutoriale. Zakończyłem właśnie jeden poświęcony Propensity Scores [analizie z uwzględnieniem efektu predyspozycji / skłonności / prawdopodobieństwa nominacji ?] i poniżej mam zamiar o nim napisać. Pytanie na które będziemy chcieli odpowiedzieć, to jak porównać dwie [potencjalnie niejednorodne] grupy.

Ale najpierw wkleję logo tegorocznej konferencji [czyż nie jest rewelacyjne?].

O co chodzi?

Z tytułową metodą zetknąłem się mniej więcej rok temu przy pewnym badaniu medycznym dotyczącym efektywności pewnej procedury operacji pozawałowej. W skrócie i upraszczając: Mamy dwie procedury operacji po zawale A i B. Procedura A jest standardowa, ale czasem można zastosować B. Chcielibyśmy sprawdzić czy procedura B jest równie dobra, a może nawet lepsza czy nie jest lepsza niż procedura A.
[poza zastosowaniami w medycynie jest wiele w edukacji, ekonomii itp, o tym później]

Czyli porównanie dwóch grup. Niby łatwizna, ale badanie nie jest zrandomizowane. Gdy pacjent z zawałem leży na stole operacyjnym lekarz nie rzuca monetą czy zastosować procedurę A czy B, tylko stosuje procedurę, kierując się własną wiedzą i doświadczeniem, procedurami itp.
Oznacza to, że pacjenci ,,nominowani” do leczenia procedurą B będą inni, niż pacjenci ,,nominowani” do leczenia procedurą A. Być może B będzie stosowana przy łatwiejszych przypadkach, może przy młodszych pacjentach, nie wiadomo.

W oczywisty sposób ta niejednorodność grup ma wpływ na wyniki porównania grup. Może się zdarzyć, że procedura B jest bardzo skuteczna, ale ponieważ częściej jest stosowana w trudniejszych przypadkach średnia dla pacjentów po B będzie gorsza niż po procedurze A.

Podobnie, być może porównujemy skuteczność nauczania w szkołach prywatnych i szkołach publicznych, ale przecież inne dzieci trafiają do jednych szkół [w szkołach prywatnych rodzice są średnio zamożniejsi, średnio więc lepiej wykształceni o lepiej płatnych zawodach, lepiej odróżnić efekt szkoły od efektu rodziny]

Podobnie w ekonomii, może badamy efekt określonej strategii ale czy grupy poddawane tej strategii są porównywalne?

Jak walczyć z niejednorodnoścą grup?
Taka niejednorodność jest bardzo częsta w badaniach obserwacyjnych, ale występuje też czasem w planowanych eksperymentach.

Pomocą jest analiza z użyciem Propensity Scores. [Jest oczywiście wiele innych sposobów, np regresja z wieloma zmiennymi, ale one często są trudniejsze w interpretacji.]

Termin Propensity Score oznacza prawdopodobieństwo znalezienia się grupie poddanej terapii. Nie znalazłem polskiego tłumaczenia, ale odpowiednim tłumaczeniem wydaje się analiza z uwzględnieniem efektu predyspozycji / skłonności [w zależności od dziedziny pasować bardziej będzie słowo predyspozycja lub skłonność].

W pierwszym kroku szacuje się te prawdopodobieństwa [regresją logistyczną, drzewami klasyfikacyjnymi lub inaczej] a następnie wykorzystuje się stratyfikacje [analizę w warstwach obiektów z podobnym prawdopodobieństwem znalezienia się w grupie leczonej] lub podpróbkowanie [do każdego obiektu z mniej licznej grupy dolosowujemy k najbardziej podobnych obiektów z liczniejszej grupy] lub ważenie.

Przykładowy scenariusz

Wróćmy do przykładu od którego zacząłem. Mam dane 1000 pacjentów leczonych standardową procedurą A i 50 leczonych rzadszą [być może droższą, być może trudniejszą w zastosowaniu, być może nie zawsze możliwą do zastosowania] procedurą B.
Co możemy zrobić?
Dla każdego z pacjentów z grupy poddanej trapią B losuję po k=3 [lub inne k, tutaj 3 było dobre] z grupy leczonych terapią A, tak by cechy dolosowanych pacjentów były możliwie najbardziej podobne do cech pacjenta z grupy B. Dzięki czemu po zakończeniu procedury dolosowywania mam 50 jednorodnych grup, w każdej jednego pacjenta z terapii B i trzech z terapii A. Dalej standardowo, modele mieszane, testy sparowane, co kto lubi.

Więcej informacji?

Wariantów tej analizy jest bardzo dużo. W języku polskim można o niej poczytać np. tutaj ,,Wykorzystanie techniki propensity score matching w badaniach ewaluacyjnych” (Rafał Trzciński). W języku angielskim jest wiele materiałów, tutaj znajdują się materiały z dzisiejszego tutoriala (Jason Bryer), wraz z prezentacją i przykładami jak to zrobić w R. jest tam też wiele odnośników do literatury.