Lehti 6: Työssä 6/2021 vsk 76 s. 365 - 366

Merkitsevyyttä massasta – tilastollinen voima

Tilastollinen voima tarkoittaa todennäköisyyttä havaita tilastollisesti merkitsevä löydös, mikäli se on havaittavissa.

Aleksi Reito
Kuvituskuva 1
Adobe AOP
Kansikuva
Adobe AOP

Tilastollinen voima on yksi keskeisimpiä menetelmäopin ja tilastotieteen käsitteitä tieteellisessä tutkimuksessa. Yksinkertaisimmillaan tilastollinen voima tarkoittaa todennäköisyyttä havaita tilastollisesti merkitsevä löydös, mikäli se on havaittavissa (1). Jos aineisto ei sisällä minkäänlaista yhteyttä kahden eri muuttujan välillä, tilastollisesti merkitsevää löydöstä ei voida koskaan havaita. Jos sellainen todetaankin, kyseessä on satunnaisvaihtelun aikaansaama väärä positiivinen löydös.

Tilastollinen voima liittyy suoraan tutkimuksen otoskokoon eli aineiston laajuuteen. Mitä enemmän tutkimuksessa on tutkittavia, sitä suurempi on sen tilastollinen voima. Eli mitä paremmaksi voima halutaan, sitä useampia potilaita tai tutkimusyksiköitä tarvitaan. Mahdollisimman suuren tilastollisen voiman kääntöpuoli on siten suuri aineiston tarve. Tilastollista voimaa ja otoskokoa optimoitaessa joudutaankin punnitsemaan toisaalta tutkimuksen menetelmällistä laatua ja toisaalta käytännön näkökohtia kuten potilasrekrytoinnin kestoa.

Otoskokolaskut ovat oleellinen osa tutkimusten ennakkorekisteröintiä. Tutkimuksen suunnitteluvaiheessa on pyrittävä varmistamaan riittävän suuri tilastollinen voima. Suunnitteluvaiheessa pitää arvioida oletetun löydöksen voimakkuutta, jotta otoskoko voidaan laskea asianmukaisesti. Laskukaavaan asetetaan haluttu voiman taso ja arvioitu vaikutuksen koko, joka oletetaan havaittavan, sekä tyypin I virhetaso. Arvioidun vaikutuskoon sijasta voidaan käyttää myös luottamusvälin leveyttä, joka halutaan saavuttaa. Tyypin II virhetaso on tilastollisen voiman ns. komplementti. Jos tilastollinen voima asetetaan 90 %:iin, tyypin II virhetaso on 10 % (1,0,9).

Pieni tilastollinen voima on siis lähes suora seuraus pienestä otoskoosta (2). Tällä on useita tutkimuksen tulkintaan ja tulosten hyödyllisyyteen liittyviä seurauksia. Selvin seuraus on tulosten epätarkkuus, joka ilmenee leveinä luottamusväleinä. Leveät luottamusvälit ovat ongelmallisia tulosten tulkinnan kannalta, ja virhetulkinnat ovatkin yleisiä. Vähäinen voima eli pieni otoskoko tarkoittaa myös tutkimushavainnon huonoa toistettavuutta. Tuloksen epätarkkuuden ja satunnaisvaihtelun vuoksi seuraava, täysin identtinen tutkimus saattaa antaa aivan päinvastaisen tuloksen.

Pieni otoskoko ja vähäinen tilastollinen voima saattavat aiheuttaa myös tutkimuslöydösten ns. inflatoitumisen (3). Tämä tarkoittaa tilannetta, jossa verrattain pienessä aineistossa havaitaan suhteellisen suuri, tilastollisesti merkitsevä vaikutuskoko. Vaikutuksen pitää pienessä aineistossa olla suuri, jotta se saavuttaa tilastollisen merkitsevyyden. Jos lääkkeen teho on todellisuudessa x yksikköä, pienessä aineistossa vasta huomattavasti suurempi teho (esimerkiksi 1,3x eli 30 % suurempi) havaitaan tilastollisesti merkitsevänä.

Tutkimuksen otoskokolasku voi olla periaatteessa oikein tehty, mutta tilastollinen voima voi silti olla vain näennäisesti riittävä. Tällöin kyse on yleensä siitä, että tutkijat ovat asettaneet oletetun aineistossa havaittavan vaikutuskoon aivan liian suureksi. Esimerkiksi yhden keskihajonnan suuruinen ero ryhmien välillä otoslaskussa voidaan tulkita jo epärealistiseksi ilman syvempää perustelua.

Lue myös

Pieniin ja vähäisen voiman tutkimuksiin liittyy myös muita lieveilmiöitä (2). Pienen otoskoon tutkimukset kärsivät todennäköisesti enemmän "pöytälaatikkoefektistä" eli tutkimusten julkaisematta jättämisestä, mistä syntyy julkaisuharhaa. Pienet tutkimukset saattavat olla myös huonommin suunniteltuja ja sisältää enemmän valikoivaa raportointia. Ennakkorekisteröinti ja tutkimusprotokollan julkaisu ovat keskeisiä keinoja, joilla voidaan vähentää valikoivaa julkaisutoimintaa.

Tilastollisella voimalla ei ole enää tutkimuksen päätyttyä mitään tulkintaa. Yksittäisen tutkimuksen kohdalla myös tyypin I tai II virheen mahdollisuutta on mahdotonta arvioida enää tutkimuksen jälkeen. Jälkikäteen voidaan toki pohtia käänteisesti, mikä oli tutkimuksen voima havaita tietyn suuruinen löydös juuri sen kokoisella aineistolla, joka tutkimuksessa oli mukana (4). Tämä ns. retrospektiivinen voimalasku voidaan myös raportoida tutkimuksessa.


Sidonnaisuudet

Aleksi Reito: Apurahat (valtion tutkimusrahoitus 2018), luentopalkkiot (Orion).


Kirjallisuutta
1
Krzywinski M, Altman N. Power and sample size. Nat Methods 2013;10:1139–40.
2
Button K, Ioannidis J, Mokrysz C ym. Power failure: why small sample size undermines the reliability of neuroscience. Nat Rev Neurosci 2013:14;365–76.
3
Ioannidis JP. Why most discovered true associations are inflated? Epidemiology 2008;19:640–8.
4
Gelman A, Carlin J. Beyond Power Calculations: Assessing type S (Sign) and type M (Magnitude) errors. Perspect Psychol Sci 2014;9:641–51.
Lääkäriliitto Fimnet Lääkärilehti Potilaanlaakarilehti Lääkäripäivät Lääkärikompassi Erikoisalani Lääkäri 2030