Neo o cancro? L'algoritmo che non rileva un melanoma su tre e ignora i pazienti con pelle scura.

Il tempo è denaro. Soprattutto quando si tratta di melanoma, il tumore della pelle più pericoloso: diagnosticare questo tumore il prima possibile è fondamentale per salvare vite umane, più che per quasi qualsiasi altro tumore . In Spagna, si stima che entro il 2025 ci saranno quasi 9.400 casi di melanoma, un tumore altamente aggressivo che può diffondersi rapidamente e causare metastasi in pochi mesi. Quando ciò accade, la prognosi è spesso infausta, quindi qualsiasi errore nella diagnosi può essere fatale.
Proprio questa urgenza ha spinto i Paesi Baschi a investire nell'intelligenza artificiale (IA). Il Servizio Sanitario Basco, Osakidetza, sta lavorando affinché i suoi centri sanitari e ospedali pubblici integrino Quantus Skin , un algoritmo progettato per diagnosticare il rischio di cancro della pelle, incluso il melanoma. In teoria, promette di semplificare il processo: dalle cure primarie, i medici di famiglia potranno inviare immagini di lesioni sospette al reparto di dermatologia dell'ospedale, insieme alla probabilità che siano maligne, calcolata automaticamente dall'algoritmo. L'idea del governo basco è che Quantus Skin, attualmente in fase di sperimentazione, aiuti a decidere quali pazienti debbano essere trattati per primi.
Tuttavia, i dati mostrano una realtà preoccupante. Transmural Biotech, l'azienda che commercializza Quantus Skin, ha condotto uno studio iniziale con risultati promettenti , ma presentava limiti significativi: è stato condotto interamente online e non è stato pubblicato su alcuna rivista accademica, il che significa che non è stato sottoposto ai consueti controlli di qualità richiesti in ambito scientifico.
Successivamente, i dermatologi dell'Ospedale Ramón y Cajal di Madrid e i professori dell'Università Complutense hanno condotto un secondo studio, pubblicato nel 2018 , per valutare l'efficacia clinica di Quantus Skin nella pratica clinica. Questo lavoro, finanziato e supportato da Transmural Biotech, ha mostrato risultati peggiori: l'algoritmo ha ignorato un melanoma su tre. La sua sensibilità è del 69%, il che significa che ignora il 31% dei casi reali di questo tumore potenzialmente letale.
Interpellato da Civio sul secondo studio, il CEO di Transmural Biotech, David Fernández Rodríguez, ha risposto evasivamente via email: "Non so quale sia al momento". Dopo aver parlato al telefono, ha cambiato versione: "Stavamo facendo dei test" per individuare potenziali problemi di implementazione. E, al termine della chiamata, Fernández Rodríguez ha ammesso che Quantus Skin "non ha smesso di funzionare, anzi, ha funzionato molto peggio, ma dovevamo capire perché".
Il CEO di Transmural Biotech attribuisce questi risultati più scarsi a carenze nell'acquisizione delle immagini dovute al mancato rispetto delle istruzioni di Quantus Skin. Questo è un aspetto osservato anche negli studi condotti nei Paesi Baschi. "I medici di base non sono ben formati nell'acquisizione delle immagini", afferma, il che evidenzia la necessità di "medici formati". Tuttavia, il secondo studio ha coinvolto dermatologi specializzati specificamente nella fotografia di lesioni sospette per una diagnosi successiva. Secondo Fernández Rodríguez, l'affidabilità è migliorata dopo che "le immagini sono state ritagliate con cura" perché "non seguivano esattamente" le istruzioni.
Criticato da fonti indipendenti"Per il cancro della pelle, una sensibilità del 70% è molto bassa. È molto bassa. Se si chiede a qualcuno di scattare una foto per capire se potrebbe trattarsi di melanoma e ne sbaglia una su tre, non è sufficiente per lo screening del cancro della pelle in un contesto di cure primarie; bisogna chiedere di più", spiega a Civio il Dott. Josep Malvehy Guilera , direttore dell'Unità di Tumori della Pelle dell'Hospital Clínic di Barcellona. Per la Dott.ssa Rosa Taberner Ferrer , dermatologa dell'Ospedale Son Llàtzer di Maiorca e autrice del blog specializzato Dermapixel , "il 31% di falsi negativi sembra pericoloso, per usare un eufemismo. Come test di screening, è una sciocchezza".
Tuttavia, il CEO di Transmural Biotech cerca di minimizzare il problema concentrandosi solo sui dati a favore del suo prodotto, evitando di menzionare la bassa sensibilità di Quantus Skin. Secondo lo stesso studio che ne ha analizzato l'efficacia clinica, il sistema fallisce anche per due motivi: la sua specificità si traduce in un tasso di falsi positivi del 19,8%, il che significa che scambia un neo benigno su cinque per melanoma. Ciò significherebbe che l'utilizzo di Quantus Skin comporterebbe inutili invii a specialisti per quasi il 20% dei pazienti trattati.
Nello studio , gli autori – dermatologi dell'Ospedale Ramón y Cajal di Madrid e professori dell'Università Complutense di Madrid – sostengono che sia preferibile che Quantus Skin abbia un'elevata specificità (pochi falsi positivi) anche a costo di una bassa sensibilità (più falsi negativi), poiché non verrà utilizzato per la diagnosi definitiva, ma piuttosto per lo screening, ovvero per aiutare a filtrare i casi dall'assistenza primaria. Secondo la loro ipotesi, ciò potrebbe evitare la saturazione delle visite specialistiche e ridurre le liste d'attesa e le relative spese mediche.
Gli specialisti consultati da Civio mettono in discussione la strategia alla base dell'algoritmo. Sebbene non esista uno standard ideale per la diagnosi del cancro – in parte perché dipende dall'aggressività di ciascun tumore – ciò che Quantus Skin ha ottenuto è tutt'altro che accettabile. "Se commettono un errore diagnosticando il melanoma in lesioni con un potenziale rischio di crescita rapida e persino di morte del paziente, devo essere molto intollerante. Devo già richiedere sensibilità del 92%, 93%, 94% come minimo", afferma Malvehy Guilera.
"Se intendono utilizzarlo per lo screening, il sistema dovrebbe avere una sensibilità estremamente elevata a scapito di una specificità leggermente inferiore", spiega Taberner Ferrer. In altre parole, è preferibile che un algoritmo come questo pecchi per eccesso di cautela: meglio sbagliare un po' generando falsi allarmi in persone sane piuttosto che non riconoscere un caso reale di cancro.
Pelle scura, diagnosi incertaI problemi di Quantus Skin vanno oltre la sua bassa sensibilità. Lo studio ha valutato solo la sua efficacia clinica nella diagnosi del melanoma, ma non ha analizzato altri tipi di cancro della pelle più comuni ma meno aggressivi, come il carcinoma basocellulare e il carcinoma squamocellulare, in cui il programma può essere applicato. Gli autori non hanno inoltre studiato in che modo il colore della pelle influenzi le prestazioni dell'algoritmo, pur riconoscendo che questo sia uno dei principali limiti della loro ricerca.
Quantus Skin, basato su reti neurali, ha imparato a riconoscere il cancro della pelle quasi esclusivamente nelle persone di razza bianca. L'algoritmo è stato inizialmente alimentato con poco più di 56.000 immagini provenienti dall'International Skin Imaging Collaboration (ISIC) , un archivio pubblico di fotografie mediche raccolte principalmente da ospedali occidentali , la maggior parte delle quali corrisponde a pazienti con pelle chiara. Quantus Skin è stato poi testato utilizzando le immagini di 513 pazienti dell'Ospedale Ramón y Cajal di Madrid, tutti di razza bianca.
Il set di dati utilizzato per alimentare Quantus Skin include immagini di "uomini e donne caucasici", conferma il direttore generale di Transmural Biotech. "Non voglio addentrarmi nella questione delle minoranze etniche e tutto il resto, perché lo strumento è utilizzato dai Paesi Baschi, da Osakidetza (l'Istituto Nazionale Basco di Statistica e Censimenti). Quello che metto a disposizione è uno strumento, con i suoi limiti", afferma Fernández Rodríguez. Nonostante la mancanza di formazione sulle tonalità di pelle più scure, il governo basco indica che non è necessario "implementare" alcuna misura "per promuovere l'uguaglianza e la non discriminazione", secondo il file Quantus Skin incluso nel catalogo di algoritmi e sistemi di intelligenza artificiale dei Paesi Baschi. Tuttavia, poiché le reti neurali sono state addestrate quasi esclusivamente con immagini di persone di razza bianca, è probabile che falliscano più frequentemente con le tonalità di pelle più scure, come quelle dei Rom o dei migranti provenienti dall'America Latina e dall'Africa.
"È molto facile far fallire gli algoritmi", ha detto a Civio Adewole Adamson , professore di dermatologia all'Università del Texas. Nel 2018 aveva messo in guardia dalla discriminazione che l'intelligenza artificiale avrebbe potuto portare se non fosse stata sviluppata in modo inclusivo e diversificato, un problema che va oltre Quantus Skin.
Le loro previsioni sono state confermate. In dermatologia, quando gli algoritmi vengono alimentati principalmente con immagini di pazienti bianchi, "l'affidabilità diagnostica nelle tonalità di pelle più scure" diminuisce, afferma Taberner Ferrer. L'algoritmo Skin Image Search dell'azienda svedese First Derm, addestrato principalmente su foto di pelle bianca, ha visto la sua accuratezza scendere dal 70% al 17% quando testato su persone con pelle più scura. Ricerche più recenti hanno confermato che questi tipi di algoritmi hanno prestazioni peggiori sulle persone di colore, non a causa di problemi tecnici, ma a una mancanza di diversità nei dati di addestramento.
Sebbene il melanoma sia un tumore molto più comune tra i bianchi, le persone con la pelle scura hanno un tasso di sopravvivenza complessivo significativamente inferiore . L'ingegnere americano Avery Smith conosce bene queste cifre. Alla sua compagna, Latoya Smith, è stato diagnosticato un melanoma appena un anno e mezzo dopo il matrimonio. "Sono rimasto davvero sorpreso dai tassi di sopravvivenza per etnia. Latoya, essendo afroamericana, era in fondo. Non lo sapevo finché non mi ha colpito come se fossi stato investito da un autobus. È stato terrificante", racconta a Civio. Qualche tempo dopo la diagnosi, alla fine del 2011, Latoya è morta.
Da allora, Avery Smith si impegna per una dermatologia più inclusiva e per garantire che gli algoritmi non amplifichino le disuguaglianze . Per sottolineare l'"impatto" che possono avere, soprattutto sui gruppi vulnerabili, Smith rifiuta di riferirsi all'intelligenza artificiale come a uno "strumento", come se si trattasse semplicemente di "forbici": "È un termine di marketing, un modo per farla capire alle persone. Ma è molto di più".
Anche l'esperta legale Anabel K. Arias , portavoce della Federazione dei consumatori e degli utenti ( CECU ), parla di questi effetti: "Quando si considera l'utilizzo per la diagnosi precoce, potrebbe esserci una parte della popolazione sottorappresentata. In tal caso, la diagnosi potrebbe essere errata e avere un impatto sulla salute della persona. Si potrebbe persino considerare un danno".
Pazienti invisibili agli occhi di un algoritmo"Le persone tendono a fidarsi molto dell'intelligenza artificiale, le attribuiamo qualità di oggettività che non sono reali", afferma Helena Matute Greño , professoressa di psicologia sperimentale all'Università di Deusto. Qualsiasi intelligenza artificiale utilizza le informazioni che riceve per prendere decisioni. Se i dati di input non sono validi o incompleti, potrebbe fallire. Quando commette errori sistematici, l'algoritmo commette errori che chiamiamo bias. E se colpiscono maggiormente un certo gruppo di persone – a causa della loro origine, colore della pelle, genere o età – parliamo di bias discriminatori.
Una revisione pubblicata sul Journal of Clinical Epidemiology ha mostrato che solo il 12% degli studi sull'intelligenza artificiale in medicina ha analizzato se fosse influenzata da bias. E, quando lo era, il bias più comune era quello razziale, seguito da genere ed età, con la stragrande maggioranza che colpiva gruppi che avevano storicamente subito discriminazioni. Questi errori possono verificarsi se i dati di addestramento non sono sufficientemente diversificati ed equilibrati : se gli algoritmi apprendono solo da una parte della popolazione, hanno prestazioni peggiori in gruppi diversi o minoritari.
Gli errori non si limitano solo al colore della pelle. Le tecnologie commerciali di riconoscimento facciale falliscono molto più spesso quando classificano le donne nere perché storicamente sono state addestrate su immagini di uomini bianchi. Una cosa simile accade con gli algoritmi che analizzano le radiografie del torace o predicono le malattie cardiovascolari, la cui performance diagnostica è peggiore nelle donne se i dati di addestramento sono sbilanciati . Nel frattempo, uno dei set di dati più utilizzati per prevedere le malattie epatiche è completamente distorto – il 75% dei dati riguarda uomini – quindi gli algoritmi che lo utilizzano falliscono molto più frequentemente con le donne. Nel Regno Unito, l' algoritmo per dare priorità ai trapianti ha discriminato le persone più giovani . Il motivo? Era stato addestrato su dati limitati, che tenevano conto solo della sopravvivenza nei successivi cinque anni , e non dell'intera vita che i pazienti che hanno ricevuto un nuovo organo avrebbero potuto ottenere.
"I dati utilizzati per la formazione devono rappresentare l'intera popolazione a cui saranno destinati", spiega la Dott.ssa Nuria Ribelles Entrena , portavoce della Società Spagnola di Oncologia Medica ( SEOM ) e oncologa presso l'Ospedale Universitario Virgen de la Victoria di Malaga. "Se mi alleno solo con un certo gruppo di pazienti, il mio programma sarà molto efficace in quel gruppo, ma non in un altro", aggiunge.
Evitare i pregiudizi, un percorso a ostacoliLa soluzione per evitare distorsioni esiste: "Il set di addestramento deve essere il più ampio possibile", spiega López Rueda. Ma questo non è sempre verificabile. Finora, la maggior parte dei sistemi di intelligenza artificiale implementati in Spagna che utilizzano immagini mediche non pubblica solitamente dati di addestramento. È il caso di due dispositivi dermatologici – i cui nomi sono sconosciuti – che saranno attivati prima nell'area sanitaria caudale e poi estesi a tutto il Principato delle Asturie. È il caso anche dell'applicazione commerciale ClinicGram , per la rilevazione delle ulcere del piede diabetico, implementata presso l'Ospedale Universitario di Vic (Barcellona); o dei vari sistemi di radiologia privati, come BoneView e ChestView, o Lunit, operativi in alcuni ospedali della Comunità di Madrid, del Principato delle Asturie e della Comunità Valenciana.
Quando i set di dati sono accessibili, un altro ostacolo è che non includono metadati, come origine, sesso, età o tipo di pelle, che ci permetterebbero di verificare se sono inclusivi ed equilibrati. In dermatologia , la maggior parte dei set di dati pubblici in genere non riporta l'origine o il tono della pelle dei pazienti. Laddove queste informazioni sono incluse, gli studi dimostrano costantemente che le persone di colore sono significativamente sottorappresentate . "C'è una crescente consapevolezza del problema e gli sviluppatori di algoritmi hanno cercato di colmare queste lacune. Tuttavia, c'è ancora molto lavoro da fare", afferma il professor Adamson.
Nel 2022, Osakidetza ha assegnato un contratto del valore di quasi 1,6 milioni di euro a Transmural Biotech per l'implementazione di "algoritmi di intelligenza artificiale nell'imaging medico", che richiedevano una sensibilità e una specificità di "almeno" l'85%. L'azienda, spin-off dell'Università di Barcellona e dell'Hospital Clínic, appartiene alla compagnia assicurativa privata Asisa. Secondo Osakidetza, nonostante il capitolato d'oneri includesse diversi algoritmi, alla fine ne sono stati scelti solo due, tra cui Quantus Skin, per il suo "maggiore impatto sanitario" e le sue "migliori prestazioni sanitarie". Come appreso da Civio, la decisione è stata presa unilateralmente, senza consultare gli specialisti competenti. A febbraio, Osakidetza ha anche dichiarato che Quantus Skin aveva superato "le fasi di validazione" ed era "in fase di integrazione". In risposta alle domande di Civio sulla sua efficacia clinica, ora afferma che continua a essere testato e che prenderà decisioni "sulla base dei risultati ottenuti". Tuttavia, evita di rispondere se fosse a conoscenza del fatto che i dati di efficacia clinica pubblicati per Quantus Skin (sensibilità del 69,1% e specificità dell'80,2%) fossero inferiori alla soglia dell'85% richiesta dal contratto. Oltre all'aggiudicazione nei Paesi Baschi, Transmural Biotech ha un solo altro contratto pubblico, in Catalogna, di importo molto inferiore (25.000 euro), per la certificazione di algoritmi di intelligenza artificiale in radiologia.
Questo articolo è stato originariamente pubblicato su Civio , una redazione indipendente no-profit che conduce ricerche approfondite sugli affari pubblici. Potete trovare la metodologia completa qui .
EL PAÍS