lördag 18 juli 2015

Fem DAGar i London: "Det tog en stund innan jag kunde ta ordet kausalitet i min mun"

Av Per Broberg, FMS
Som nybliven epidemiolog, efter många år inom läkemedelsindustrin, åkte jag till London för att lära om kausal inferens. Som erfaren statistiker trodde jag mig veta att statistiken inte ägnar sig åt att klarlägga kausalitet, utan åt att

1. testa variablers inverkan på något intressant och mätbart tillstånd

2. prediktera något som vi vill veta om framtiden

I min statistiska utbildning har det aldrig hetat att vi har klarlagt orsakssamband, utan det har till exempel betonats att korrelation inte mäter kausalitet. Att klarlägga orsakssammanhang lät i mina öron som något deterministiskt. Så det tog en stund innan jag kunde ta ordet kausalitet i min mun.



Jag anlände till ett novembergrått London och tog in på ett enkelt hotell nära London School of Hygiene and Tropical Medicine, som gav kursen.

Det var en välrenommerad lärarkår som mötte upp: Bianca De Stavola, Simon Cousens, Richard Silverwood, Rhian Daniel, Karla Diaz-Ordaz och Stijn Vansteelandt. Deltagarna var i huvudsak från brittiska öarna, men där fanns också långväga deltagare från Japan och USA.

Något som omedelbart vädjade till min intuition var de Directed Acyclic Graphs (DAGs) som föreläsarna ritade från första stund. Jag har lagt mig till med vanan att rita upp orsakssamband mellan variabler som underlag för diskussioner med mina biovetenskapliga kollegor. Begreppet confounding, eller förväxlingseffekter, går det nu att samtala om på ett nytt intuitivt sätt.



Den som vill kan tänka på kopplade ekvationer (Structural Equation Models) för att förstå en DAG. Antag att egenskapen Gula fingrar är oberoende av Lungcancer hos en individ givet Rökning, se grafen. Antag för enkelhets skull att variablerna är kontinuerliga. Exempelvis kan grafen översättas till G=β1R+εG och L=β2 R+ϵL, där ϵG och ϵL representerar feltermer. I sådana modeller där de gemensamma orsakerna anses inkluderade antas feltermerna vara oberoende. Det visar sig att i så fall gäller att varje variabel är oberoende av alla andra variabler (dess effekter undantagna) givet dess direkta orsaker. I vårt exempel gäller alltså att G och L är oberoende givet R.

När det gäller det kausala har jag nu läst Dawid, som säger att kausala teorier inte är något annat än ambitiösa probabilistiska teorier, som postulerar vissa gemensamma beteendemönster tvärsöver en rad sammanhang. Jag är en praktiker med massor av mylla under naglarna, så den typen av filosofiska utgjutelser begriper jag inte. Men jag tänker som så: en okontroversiell teori för betingade fördelningar tolkas i termer av kausalitet. En modell för betingade oberoenden kan anses beskriva en orsakskedja. Men det krävs ett leap of faith för att känna visshet.

Ett annat begrepp som var relativt nytt för mig var propensity score, vilket är sannolikheten att få den behandling som studeras. Om analysen görs med denna som kovariat, eventuellt efter någon transformation, så kan man reducera bias. Den som tidigare stött på Little och Rubin och deras idé att modellera sannolikheten för saknade värden i samband med imputeringar kan känna igen resonemangen.

All dataanalys genomfördes i programpaketet STATA, som är nischat mot denna sorts epidemiologiska tillämpningar. Både övningsdata och kod gicks igenom på djupet.

För mig som inlett en ny karriär som epidemiolog var denna kurs gefundenes Fressen.

PER BROBERG