Statistics Data Literacy: Om webbpanelundersökningar

onsdag 15 juli 2015

Om webbpanelundersökningar

Bildresultat för webbpanelundersökningar

Av Jörgen Brewitz (f.d. Svensson), Statistiska centralbyrån
Webbpanelundersökningar har på senare år fått stort genomslag bland marknads- och opinionsundersökare. Med en webbpanel avses ett register eller en databas över personer som förklarat sig villiga att delta i webbundersökningar. En webbpanelundersökning är en undersökning med urval från en webbpanel. Sådana undersökningar kan synas ha praktiska fördelar framför traditionella undersökningar baserade på sannolikhetsurval. Men en fråga är om deras kvalitet räcker.

Webbpaneler ger ett relativt enkelt, snabbt och billigt sätt att samla in stora mängder data. Inga intervjuare är inblandade, och det blir inga kostnader för porto eller hantering av postförsändelser med pappersblanketter. Uppgiftslämnarbördan kan i en mening sägas bli lindrig, genom att respondenterna på eget bevåg väljer att gå med i webbpanelerna och får rutin på att medverka i undersökningar. En stor webbpanel ger därtill en möjlighet att få tag i en liten grupp, t.ex. båtägare, utan att behöva filtrera fram denna i den specifika undersökningen. Det förutsätter dock att den uppgiften samlats in för alla i webbpanelen.

Är det då dags att över lag ta till webbpanelundersökningar för officiell statistik? Nej, knappast i närtid, eftersom metodproblemen med webbpanelundersökningar inte kan anses ha klarats ut väl nog för det. Huvudproblemet är hur slutsatser ska kunna dras från dem som deltar i undersökningen upp till målpopulationen, dvs. möjligheten att göra inferens från svarsmängd till population. Webbpaneler kan inte företräda människor som inte är ute på webben. Denna undertäckning kan snedvrida resultaten av undersökningar om företeelser som är särskilt frekventa i grupper av äldre, lågutbildade eller utrikes födda. I det följande fokuseras dock på selektionsproblematiken.

Två typer av webbpanelundersökningar

Det förekommer att webbpaneler rekryteras utifrån sannolikhetsurval. Webbpanelundersökningen har då två slumpmekanismer: dels en välkontrollerad där urvalet görs, dels en bortom effektiv kontroll där bortfallet uppstår. Den s.k. kumulativa deltagarandelen, som grovt kan sägas motsvara svarsandelen i en traditionell undersökning, ligger vanligen under 10 procent, dvs. väsentligt lägre än svarsandelarna i traditionella undersökningar för samhällsstatistik. Det mycket stora bortfallet riskerar leda till betydande systematiska fel i statistikresultaten. Denna typ av webbpanelundersökning kan ändå i princip uppfattas som en traditionell undersökning och är då hanterbar med statistisk metodik för urval och bortfallskompensation. För att detta ska kunna hålla behöver dock det vanligen mycket stora bortfallet hållas under någorlunda kontroll. Den nederländske professorn Jelke Bethlehem [1] menar att denna undersökningstyp kan vara tänkbar för officiell statistik under en del ambitiösa förutsättningar, såsom att bortfall förebyggs i möjlig mån både vid panelrekrytering och i den specifika undersökningen, att hjälpinformation används för att justera för bortfallsfel, och att panelen förnyas regelbundet. Han betonar att det är en komplex uppgift att uppfylla förutsättningarna och att det kan vara resurskrävande.

Webbpanelundersökningar baseras dock ofta på icke-sannolikhetsurval, t.ex. genom rekrytering via reklam på internet. Panelen som erhålls är då självselekterad: respondenterna har själva valt att delta i panelen efter en bred inbjudan, och urvalsförfarandet är okontrollerat. Information saknas både om vilka personer som inte varit medvetna om att valet fanns att delta i panelen och om vilka personer som valt att inte vara med. Bortfallet är alltså okänt, eller egentligen odefinierat. Risken är att panelen kommer att bestå av ”proffstyckare” eller en högljudd minoritet. Denna typ av webbpanelundersökning med självrekrytering är alltså principiellt annorlunda och kan knappast ses som ens i princip jämförlig med en traditionell undersökning. Det hjälper inte att ett sannolikhetsurval dras från panelen för den enskilda undersökningen. Undersökningar utifrån självrekryterade paneler saknar i nuläget en sannolikhetsteoretisk grund, och tilltron till dem bygger snarare på empiri från enskilda undersökningar.

Kvalitetsmått

För icke-sannolikhetsurval saknar det vanliga osäkerhetsmåttet (skattat urvalsfel) tolkning, varför det inte heller kan användas för att konstruera konfidensintervall. Följden blir att signifikanta skillnader mellan grupper eller över tid inte kan urskiljas trovärdigt. Detta gör att det för statistik baserad på icke-sannolikhetsurval normalt inte är möjligt att säkra en tillräcklig kvalitet för att statistiken ska hålla som trovärdigt beslutsunderlag.

Ett alternativ till konfidensintervall är att ta fram ett slags bedömningsintervall. Detta måste dock baseras på en modell, ofta utifrån en bayesiansk ansats, och blir starkt beroende av vilka antaganden som görs om urvalet och populationen.

Jag var med och tillsatte Surveyföreningens webbpanelkommitté 2009. Efter ett gediget arbete avlämnade kommittén i fjol en mycket läsvärd rapport [2]. Den belyser kvalitetsfrågor och presenterar mått som på olika sätt kan beskriva kvalitet i webbpanelundersökningar. Några numeriska beskrivningsmått föreslogs för kvalitetsbedömning, och därutöver rekommenderades verbala beskrivningar av rekrytering, urval och skattning m.m. Det finns dock inte underlag ännu för att säga hur väl de olika måtten predicerar kvaliteten i en webbpanelundersökning.

Empiriska resultat

Den teoretiska grunden är alltså svag för den typ av icke-sannolikhetsurval som ofta görs för webbpanelundersökningar. Hur ser då empirin ut? Ett väsentligt empiriskt resultat om webbpaneler finns i den s.k. Stanford-studien [3]. Där jämfördes resultat från några amerikanska webbpanelundersökningar och från sannolikhetsbaserade undersökningar med riktmärken från tillförlitliga källor. Det visade sig att webbpanelundersökningarna konsekvent hade sämre tillförlitlighet, även efter bortfallsjusterande vägning, och att deras tillförlitlighet varierade mer. Undersökningarna som byggde på sannolikhetsurval fungerade däremot väl, även vid relativt stora bortfall. Det verkar alltså även vid stort bortfall ändå vara en avgörande fördel att utgå från sannolikhetsurval. I [4] jämfördes resultat från webbpanelundersökningar med kända riktmärken. Jämförelserna avsåg dels en sannolikhetsbaserad webbpanelundersökning, dels en specifik undersökning genomförd utifrån nitton olika självrekryterade webbpaneler. Det systematiska felet var för fem av sex riktmärken mindre för den sannolikhetsbaserade undersökningen än för genomsnittet av de nitton andra undersökningarna. I [5] presenterades en metaanalys av åtta självrekryterade webbpaneler avseende effekten av vägning för att reducera skevhet på grund av undertäckning och självselektion. Justeringarna eliminerade som högst ca 60 procent av det systematiska felet, och för vissa variabler ökade felet.

Webbpanelbaserade väljarbarometrar har dock många gånger gett relativt träffsäkra resultat, både i Sverige och utomlands [6]. Men väljarbarometrar är en speciell typ av undersökningar. De har en enda huvudfråga, vilken kan betraktas som enkel, väsentligen vilket parti respondenten skulle rösta på om det vore val i dag. Justerande vägning kan göras med hjälp av de vanliga bakgrundsvariablerna, men det finns även möjlighet att fråga hur respondenten röstade i förra riksdagsvalet och använda detta för s.k. partivägning. I Sverige är dessutom valdeltagandet högt, vilket gör det lättare att jämföra och kalibrera väljarbarometrar mot valresultatet. Därtill finns det många andra konkurrerande barometrar att jämföra med. Att lyckas med en väljarbarometer, där det finns en tydlig huvudvariabel och gott om hjälpinformation, ger därför inte någon garanti för framgång med helt andra typer av undersökningar. Många av de undersökningar som genomförs för att ta fram samhällsstatistik avser dessutom kvantitativa variabler, som kan vara snedfördelade, vilket ökar risken för stora systematiska fel.

Metodutveckling

En intressant frågeställning är om det går att dra nytta av fördelarna med en webbpanelundersökning utan att behöva ge upp en kontrollerad inferenssituation, se [7]. Kombinationer av webbpanelundersökningar och traditionella sannolikhetsurval kan då möjligen vara en lösning. Tyngdpunkten flyttas då från en enskild undersökning som en fristående enhet till integration av data från flera olika källor. En sådan utveckling finns när det gäller kombinationer av urvalsundersökningar och registerbaserade undersökningar, och kan skönjas även för kombinationer av nya datakällor (under benämningen Big Data) och urvalsundersökningar eller registerbaserade undersökningar. Den vetenskapliga grunden är dock relativt svag för hur dessa kombinationer ska göras på bästa sätt. Olika kombinationsansatser kan vara tänkbara att pröva. I sammanhang där webbpanelundersökningar kan tänkas komma ifråga, kan två parallella undersökningar genomföras: en traditionell, sannolikhetsbaserad undersökning och en webbpanelundersökning. Resultaten kan användas för att utröna graden av skillnad i skattningarna mellan de två ansatserna. Dessutom skulle den väletablerade, sannolikhetsbaserade undersökningen kunna utnyttjas för att ”överföra information” till webbpanelundersökningen eller kommande sådana. Notera dock att ansatserna kan komma att reducera fördelarna med webbpanelundersökningar, att de är enkla, snabba och billiga.

Samhällsstatistik ligger till grund för viktiga beslut av myndigheter och andra aktörer, och då behöver den vara trovärdig genom att hålla vetenskapligt. För att detta ska gå med webbpanelundersökningar förutsätts att ett passande vetenskapligt ramverk tas fram. Relativt mycket forskning har bedrivits på senare år inom webbpanelmetodik; för en sammanställning av forskningsläget, se [8]. Mest lovande är troligen metoder som beaktar inferensproblematiken både i urvals- och skattningsfaserna. Bland annat prövas olika matchningsmetoder och val av hjälpinformation för att effektivt minska selektionseffekter.

Det saknas dock fortfarande en solid vetenskaplig grund för webbpanelundersökningar, i synnerhet för dem som grundas helt på icke-sannolikhetsurval. Även om webbpanelundersökningar kan variera mycket i kvalitet, blir min slutsats i nuläget ändå att de normalt ska undvikas när målet är att skatta populationsstorheter tillförlitligt, i synnerhet för officiell statistik. Att traditionella, sannolikhetsbaserade individundersökningar numera drabbas av höga bortfall (ofta mellan 20 och 60 procent) räcker inte som argument för att överge dem, eftersom bortfallet i webbpanelundersökningar är ännu mycket högre (vanligen över 90 procent för sannolikhetsbaserade webbpaneler). För självrekryterade webbpaneler kan bortfallet inte ens definieras. Ett alternativ till webbpanelundersökningar är ökad användning av webbenkäter inom traditionella, sannolikhetsbaserade undersökningar. Förhoppningsvis kan också nya framsteg göras det närmaste decenniet inom forskningen på webbpanelundersökningarnas metodik.

Jörgen Brewitz (f.d. Svensson), Statistiska centralbyrån

Citat: Samhällsstatistik ligger till grund för viktiga beslut av myndigheter och andra aktörer, och då behöver den vara trovärdig genom att hålla vetenskapligt.

Referenser

[1] Bethlehem, J.G., och Cobben, F. (2013). Web Panels for Official Statistics? Invited paper presented at the 59th ISI World Statistical Congress, 2013, Hong Kong, China.

[2] Surveyföreningen (2014). Kvalitet i webbpanelundersökningar. ISBN 978-91-637-3193-8.

[3] Yeager, D.S., Krosnick, J.A., Chang, L., Javitz, H.S., Levendusky, M.S., Simpser, A., och Wang, R. (2011). Comparing the Accuracy of RDD Telephone Surveys and Internet Surveys Conducted with Probability and Non-Probability Samples. Public Opinion Quarterly, Vol. 75, pp. 709–747.

[4] Scherpenzeel, A., och Bethlehem, J.G. (2011). How representative are online panels? Problems of coverage and selection and possible solutions. In M. Das, P. Ester, and L. Kaczmirek (Eds), Social and behavioral research and the internet: Advances in applied methods and research strategies (pp. 105–132). New York: Routledge.

[5] Tourangeau, R., Conrad, F.C., och Couper, M.P. (2013). The science of web surveys. Oxford: Oxford University Press.

[6] Baker, R., Blumberg, S.J. , Brick, J.M., Couper, M.P., Courtright, M., Dennis, J.M., Dillman, D., Frankel, M.R., Garland, P., Groves, R.M., Kennedy, C., Krosnick, J., Lavrakas, P.J., Lee, S., Link, M., Piekarski, L., Rao, K., Thomas, R.K., och Zahs, D. (2010). Research Synthesis: AAPOR Report on Online Panels. Public Opinion Quarterly, Vol. 74, pp. 711–781.

[7] Svensson, J. (2014). Web panel surveys – a challenge for official statistics. Proceedings of Statistics Canada Symposium 2014, Gatineau, Canada.

[8] Callegaro, M., Baker, R., Bethlehem, J.G., Goritz, A., Krosnick, J.A., och Lavrakas, P.J. (editors) (2014). Online panel research: a data quality perspective. John Wiley & Sons, Ltd.