Raportti Suom Lääkäril 2026;81:e48440, www.laakarilehti.fi/e48440

Tekoälyn hyöty perusterveydenhuollon keuhkokuvien arvioinnissa jäi vähäiseksi

Lähtökohdat Keuhkojen natiivikuva on paljon käytetty kuvantamistutkimus, mutta se on haasteellinen tulkittava. Perusterveydenhuollossa keuhkokuvien tulkinnan laatua valvova tekoäly voisi auttaa havaitsemaan huomaamatta jääneitä, jatkotutkimuksia vaativia pyörövarjostumia. Tutkimuksen tarkoituksena oli arvioida, onko tekoälystä hyötyä tässä tehtävässä ja vähentäisikö sen käyttö mahdollisia alkuvaiheen keuhkosyöpiä, jotka ovat jääneet huomaamatta perusterveydenhuollossa

Menetelmät Tutkimuksessa syväoppiva algoritmi analysoi Oulun kaupungin perusterveydenhuollossa vuoden 2021 aikana otetut keuhkojen natiivikuvat ja niihin liittyvät radiologin lausunnot. Tekoäly tulkitsi, oliko kuvissa radiologilta huomaamatta jääneitä pyörövarjostumia. Ulkopuolisen ja oman radiologimme avulla arvioimme tekoälyn löydösten kliinistä merkittävyyttä ja tarvetta jatkotutkimuksille.

Tulokset Miltei 10 000 kuvan aineistosta tekoäly tunnisti yhdeksän kliinisesti merkittävää löydöstä. Tekoälyn tulkinnan mukaan 410 kuvassa oli radiologilta huomaamatta jäänyt pyörövarjostuma. Näistä 395 kuvassa (96 %) löydös oli kliinisesti merkityksetön.

Päätelmät Tekoäly havaitsi ihmistä enemmän keuhkosyöpään viittaavia muutoksia, mutta sen huonon spesifisyyden vuoksi diagnostiikka vaati merkittävää ihmisen työpanosta.

Ilmari AlanampaTommi Keski-FilppulaOsmo Tervonen

Rintakehän röntgenkuva on yleisin röntgentutkimus. Vuonna 2024 niitä otettiin Suomessa lähes 700 000 (1). Keuhkokuva on erinomainen diagnostinen työkalu mutta haasteellinen tulkita. Takautuvasti keuhkokuvasta havaittavissa olevista keuhkosyövistä jää ensimmäisellä luennalla huomaamatta 20–90 %, ja jopa 90 % diagnoosivirheistä tehdään keuhkokuvaa tulkittaessa (2,3). Diagnostiikkaohjelmat pystyvät havaitsemaan merkittävän määrän huomaamatta jääneitä keuhkosyöpiä ja parantavat radiologin suoriutumista tässä tehtävässä (4,5,6,7).

Aiemmissa tekoälyn käyttöä koskevissa tutkimuksissa aineistot on koottu pääasiassa ohjelman validaatiota varten. Tutkimusta tekoälyohjelmien todellisesta hyödystä kliinisessä käytössä on toistaiseksi vähän. Tämän tutkimuksen tarkoituksena on arvioida, voidaanko kaupallisen, syväoppivan tekoälyn avulla vähentää perusterveydenhuollossa huomaamatta jääneitä mahdollisia keuhkosyöpiä.

Aineisto ja tekoäly

Tutkimuksen aineiston muodostivat kaikki vuonna 2021 Oulun kaupungin perusterveydenhuollon käyntien yhteydessä otetut keuhkokuvat (n = 9 996). Data oli anonymisoitu, ja yhtä potilasta kohden oli yksi kuva. Tutkimusaineistosta poissuljettiin alle 18-vuotiaiden keuhkokuvat ja kuvat, joista ei ollut radiologin lausuntoa. Tutkimusaineistoon jäi 9 058 kuvaa.

ChestEye Quality (Oxipit, Liettua) on CE-merkitty diagnostiikan laatua varmistava syväoppiva tekoäly, joka tulkitsee takautuvasti keuhkokuvan PA-projektion ja sen lausunnon (8). Jos tekoälyn tulkinnan mukaan kuvassa on jotain mitä lausunnossa ei ole huomioitu, ohjelma merkitsee kuvan uudelleentulkintaa varten. Algoritmi perustuu yli 300 000 kuvan aineistoon ja on koulutettu tunnistamaan keuhkokuvasta 75 eri löydöstä.

Tekoäly analysoi kuvat vuonna 2021, ja ohjelman kehittäneen yrityksen radiologi karsi sen merkitsemistä kuvista todelliset löydökset. Tämän jälkeen oma radiologimme luokitteli nämä kuvat viiteen luokkaan niiden kliinisen merkittävyyden mukaan Potchenin ja muiden (2000) luokitteluasteikkoa mukaillen (9). Asteikko on tätä tutkimusta varten vapaasti suomennettu, ja siihen on tarkennettu eri jatkotutkimusten tarve luokan mukaan. Oysin eettinen toimikunta on hyväksynyt tutkimussuunnitelman.

Tulokset

Tekoäly havaitsi tutkimusdatasta 410 kuvaa, joissa oli ainakin yksi nodusepäily, josta ei ollut mainintaa alkuperäisessä radiologin lausunnossa. Ulkopuolinen radiologi tulkitsi, että kuvista 36 sisälsi todellisen löydöksen.

Radiologimme luokittelemista kuvista kymmenessä oli jatkotutkimuksia vaativa nodus (kuvio 1). Yhdessä kuvassa tekoälyn merkitsemä nodus oli kuitenkin huomioitu alkuperäisessä radiologin lausunnossa, eli ohjelma oli lausuntoa tulkitessaan tehnyt virheen. Analysoiduista 9 058 kuvasta huomaamatta jääneitä, kliinisesti merkittäviä noduksia tekoäly tunnisti siis yhteensä yhdeksästä kuvasta. Näistä kaksi kuului luokkaan 5 ja seitsemän luokkaan 4 (kuva 1).

Suurin osa tekoälyn noduksiksi tulkitsemista löydöksistä oli todellisuudessa pleuraplakkeja, summaatioita ja tulehdusjätteitä. Väärin noduksiksi tulkittuja, mutta kliinisesti merkittäviä löydöksiä oli kolme: kaksi mediastinumin laajenemaa ja yksi retrosternaalinen struuma.

Päätelmät

Tutkimuksen tarkoituksena oli arvioida, voidaanko tekoälyä käyttämällä vähentää keuhkojen natiivikuvasta huomaamatta jääneitä mahdollisia keuhkosyöpiä. Analysoiduista kuvista tekoäly merkitsi 4,5 % (410/9 058) nodusepäilyksi. Näistä jatkotutkimuksia vaativia noduksia löytyi radiologimme arvion mukaan yhdeksästä kuvasta, joka on 0,1 % koko analysoidusta aineistosta.

Tekoälyn tuottamat väärät positiiviset

Tekoälyn merkitsemistä kuvista suurin osa (395/410 = 96 %) oli normaaleja tai sisälsi vain kliinisesti merkityksettömiä löydöksiä. Vääriä positiivisia aiheuttivat erityisesti pleuraplakit ja summaatio, jotka kuvautuvat usein samankaltaisina kuin syöpänodukset. Osa vääristä positiivisista voi selittyä sillä, että radiologi voi tarkoituksella jättää mainitsematta vanhoja tai merkityksettömiä löydöksiä, joita kliinikon ei ole tarpeen huomioida. Toisaalta tekoäly tuotti yhden väärän positiivisen, vaikka löydös oli mainittu lausunnossa.

Myös aiemmissa ChestEye-algoritmia käsitelleissä tutkimuksissa huomattiin tekoälyn taipumus merkitä noduksia liian herkästi. Suurista sairaalan ja syöpäkeskuksen keuhkokuva-aineistoista tekoäly merkitsi vielä enemmän noduksia (15,4 %) (10). Radiologin arvion jälkeen kliinisesti merkittäviksi todettujen nodusten osuus oli samaa luokkaa kuin tässä tutkimuksessa (n. 0,1 %). Miró Catalinan ja muiden tutkimuksessa ChestEye merkitsi usein rinnan areolan nodusepäilyksi (11).

Tekoälyn hyödyllisyys

Keuhkosyöpä on pitkään oireeton ja diagnoosivaiheessa usein levinnyt. Suomessa sen ennuste on pohjoismaiden huonoimpia (12). Laajaa keuhkosyövän TT-seulontaa ei Suomessa toistaiseksi ole käytössä, eikä keuhkokuvilla seulominen vähennä kuolleisuutta (13). Käyttökelpoinen keuhkokuvien tulkinnan laatua valvova tekoäly voisi tulevaisuudessa tarjota mahdollisuuden havaita enemmän alkuvaiheen keuhkosyöpiä kustannustehokkaasti.

Tässä tutkimuksessa tekoälyn diagnostinen tarkkuus kuitenkin osoittautui huonoksi, ja radiologi teki merkittävän työn karsiessaan todelliset löydökset tekoälyn merkitsemistä kuvista. Tämä asettaa tulkinnan laatua valvovan tekoälyn hyödyn kyseenalaiseksi. Terveydenhuollon ammattihenkilöä tarvitaan tulevaisuudessakin arvioimaan jatkotutkimusten tarvetta, sillä lainsäädäntö edellyttää, että ihminen on mukana päätöksenteossa (14).

Riittävätkö resurssit tekoälyn virheiden tarkistukseen? Kun tekoälyä otetaan käyttöön perusterveydenhuollon diagnostiikassa, on tarpeen määritellä, milloin sen tuottamien tulosten arviointiin tarvitaan radiologi ja milloin riittää kokenut perusterveydenhuollon lääkäri. Jos tuloksiin reagoidaan liian herkästi tai ne arvioidaan väärin, lisätään potilaan huolta ja aiheutetaan tarpeettomia jatkotutkimuksia.

Tutkimuksen rajoitukset

Tutkimusaineistona oli vain Oulun kaupungin perusterveydenhuollossa otettuja kuvia, mikä vaikuttaa tulosten yleistettävyyteen. Data oli anonymisoitu, joten pääsyä potilaiden muihin tietoihin ei ollut. Koska ulkopuolinen radiologi sulki pois normaalit keuhkokuvat tekoälyn analyysin jälkeen ei hänen ja oman radiologimme tulkinnoista kuvien kliinisestä merkittävyydestä saatu muodostettua yhtenevää näkemystä. Tämä voi vaikuttaa siihen, mitkä kuvat lopulta luokiteltiin tekoälyn todellisiksi löydöksiksi. Käytetyn tekoälyn rajoituksena oli, että se tulkitsi vain keuhkokuvan PA-projektion eikä verrannut kuvia aiempiin saman potilaan kuviin.

Lopuksi

Tekoälyn avulla löydettiin pieni määrä aiemmin huomaamatta jääneitä pyörövarjostumia, mutta tämä edellytti merkittävää radiologin työpanosta. Tekoälyn käyttöönotossa on syytä punnita, milloin siitä saatava hyöty ylittää siitä koituvat kustannukset. Jatkossa prospektiivisia tutkimuksia tarvitaan arvioimaan tekoälyn hyödyllisyyttä kliinisessä käytössä.

Tutkimusta ovat rahoittaneet sosiaali- ja terveysministeriö ja Suomen Lääketieteen Säätiö.

Kirjoittajat

Ilmari Alanampa LK Oulun yliopisto, lääketieteellinen tiedekunta

Tommi Keski-Filppula LL, erikoistuva lääkäri, radiologia Oys

Osmo Tervonen professori Oulun yliopisto, lääketieteellinen tiedekunta, lääketieteen tekniikan ja terveystieteiden yksikkö


Sidonnaisuudet

Ilmari Alanampa: Palkkiot osallistumisesta tutkimuksen toteutukseen ja korvaus käsikirjoituksen kirjoittamisesta (Pohjois-Pohjanmaan hyvinvointialue).

Tommi Keski-Filppula: Apuraha (Suomen Lääketieteen Säätiö).

Osmo Tervonen: Ei sidonnaisuuksia.


Kirjallisuutta
1
Ala-Mursula O. Radiologisten tutkimusten ja toimenpiteiden määrät vuonna 2024 -aineisto. Säteilyturvakeskus 2025:16. https://urn.fi/URN:ISBN:978-952-309-637-0
2
Gefter WB, Post BA, Hatabu H. Commonly missed findings on chest radiographs: causes and consequences. Chest 2023;163:650–61. doi.org/10.1016/j.chest.2022.10.039
3
Del Ciello A, Franchi P, Contegiacomo A ym. Missed lung cancer: when, where, and why? Diagn Interv Radiol 2017;23:118–26. doi.org/10.5152/dir.2016.16187
4
Jang S, Song H, Shin YJ ym. Deep learning-based automatic detection algorithm for reducing overlooked lung cancers on chest radiographs. Radiology 2020;296:652–61. doi.org/10.1148/radiol.2020200165 (Julkaistu korjaus: Radiology 2022;302:E10. doi.org/10.1148/radiol.219028)
5
Kligerman S, Cai L, White CS. The effect of computer-aided detection on radiologist performance in the detection of lung cancers previously missed on a chest radiograph. J Thorac Imaging 2013;28:244–52. doi.org/10.1097/RTI.0b013e31826c29ec
6
White CS, Flukinger T, Jeudy J ym. Use of a computer-aided detection system to detect missed lung cancer at chest radiography. Radiology 2009;252:273–81. doi.org/10.1148/radiol.2522081319
7
Li F, Engelmann R, Metz CE ym. Lung cancers missed on chest radiographs: results obtained with a commercial computer-aided detection program. Radiology 2008;246:273–80. doi.org/10.1148/radiol.2461061848
8
Oxipit. Oxipit’s ChestEye solution receives CE certification (siteerattu 9.2.2026). https://oxipit.ai/news/ai-in-radiology-ce-mark/
9
Potchen EJ, Cooper TG, Sierra AE ym. Measuring performance in chest radiography. Radiology 2000;217:456–9. doi.org/10.1148/radiology.217.2.r00nv14456
10
Topff L, Steltenpool S, Ranschaert ER ym. Artificial intelligence-assisted double reading of chest radiographs to detect clinically relevant missed findings: a two-centre evaluation. Eur Radiol 2024;34:5876–85. doi.org/10.1007/s00330-024-10676-w
11
Miró Catalina Q, Vidal-Alaball J, Fuster-Casanovas A ym. Real-world testing of an artificial intelligence algorithm for the analysis of chest X-rays in primary care settings. Sci Rep 2024;14:5199. doi.org/10.1038/s41598-024-55792-1
12
Lundberg FE, Ekman S, Johansson ALV ym. Trends in lung cancer survival in the Nordic countries 1990–2016: The NORDCAN survival studies. Lung Cancer 2024;192:107826. doi.org/10.1016/j.lungcan.2024.107826
13
Oken MM, Hocking WG, Kvale PA ym. Screening by chest radiograph and lung cancer mortality: the Prostate, Lung, Colorectal, and Ovarian (PLCO) randomized trial. JAMA 2011;306:1865–73. doi.org/10.1001/jama.2011.1591
14
Yleinen tietosuoja-asetus (GDPR) (Euroopan parlamentti ja Euroopan unionin neuvosto), 27.4.2016/679. https://eur-lex.europa.eu/legal-content/FI/TXT/?uri=CELEX:32016R0679

English summary

Artificial intelligence was of limited use in the quality control of primary care chest radiographs

Background Chest radiograph is a commonly used imaging examination, but it is challenging to interpret. In primary care, a quality-controlling artificial intelligence (AI) could help detect missed pulmonary nodules that require further investigation. The aim of this study was to assess the usefulness of AI in this task, and to determine whether its use could reduce the number of missed potential early-stage lung cancers.

Methods In this study, a deep learning algorithm analyzed all chest radiographs and corresponding radiologists’ reports taken during the year 2021 in the primary care of the city of Oulu, Finland. The algorithm assessed if any pulmonary nodules had been missed by the reporting radiologist. With the help of an external radiologist and our own radiologist, we evaluated the clinical significance of the AI findings and the need for further investigation.

Results Out of nearly 10 000 images, AI helped to identify nine clinically significant findings. According to the AI analysis, 410 images contained a previously unreported nodule. Of these, 395 (96%) were clinically insignificant.

Conclusions AI detected more lung cancer-suspect findings than radiologists but due to its low specificity, substantial human input remained necessary for diagnosis.

Ilmari Alanampa, Tommi Keski-Filppula, Osmo Tervonen

Lääkäriliitto Fimnet Lääkärilehti Potilaanlaakarilehti Lääkäripäivät Lääkärikompassi Erikoisalani