AI in sanità: test inadeguati

L’intelligenza artificiale sta diventando parte integrante della medicina moderna. Algoritmi avanzati vengono utilizzati per analizzare immagini diagnostiche, assistere nella trascrizione delle cartelle cliniche e persino supportare i medici nelle diagnosi. Tutto questo suona rivoluzionario, no? Eppure, qualcosa non torna.

Secondo un’analisi pubblicata su New England Journal of Medicine AI, la maggior parte dei test utilizzati per valutare le capacità di questi sistemi non riflette la realtà clinica. Gli LLM (Large Language Models), gli stessi che vengono integrati nei software sanitari, vengono testati su esami teorici, come il MCAT, il test di ammissione alle scuole di medicina. Ma quanto è utile sapere che un’IA può superare un esame accademico, se poi non è in grado di gestire un colloquio con un paziente o di riassumere in modo chiaro una cartella clinica?

Quando i test ingannano

C’è un dato che fa riflettere: solo il 5% degli studi che valutano l’IA in sanità utilizza dati reali dei pazienti (JAMA, 2025). Il resto? Basato su domande teoriche, come se la medicina fosse solo un esercizio accademico. È un po’ come valutare un chirurgo esclusivamente in base alla sua conoscenza dei libri di testo, senza mai osservarlo in sala operatoria.

Deborah Raji, esperta di auditing dell’IA all’Università della California, Berkeley, è chiara su questo punto: “Le aspettative riposte in questi sistemi derivano da test che non hanno nulla a che vedere con la pratica clinica.” Il problema? Si rischia di implementare strumenti ancora immaturi, fidandosi di risultati fuorvianti.

Perché serve un cambio di paradigma?

Gli attuali test valutano la conoscenza teorica, ma la pratica medica è tutt’altra cosa. Un modello può sapere tutto sul diabete, ma riuscirà a rispondere in modo empatico a un paziente che chiede se potrà ancora mangiare il suo dolce preferito? E se dovesse sintetizzare una conversazione tra medico e paziente, coglierebbe davvero le sfumature tra ciò che è stato detto e ciò che è stato sottinteso?

C’è poi un altro aspetto: i test attuali sono tarati sul sapere medico tradizionale, ma la sanità è fatta anche di infermieri, terapisti e operatori sanitari. Ignorare queste figure significa perdere una fetta fondamentale della realtà clinica.

Verso una valutazione più realistica

Che fare, quindi? I ricercatori propongono alcune soluzioni.
Invece di affidarsi a test rigidi, servirebbe osservare direttamente l’uso dell’IA in ospedali e ambulatori, valutando come interagisce con il personale sanitario. Un altro approccio potrebbe essere il cosiddetto red teaming, cioè mettere alla prova gli LLM con domande volutamente complesse e trabocchetti, per testarne davvero i limiti.

E poi, trasparenza. Se gli ospedali rendessero pubbliche le informazioni sui software di IA che utilizzano, sarebbe più facile valutarne l’efficacia. E le aziende? Dovrebbero spiegare chiaramente come testano i loro modelli, evitando di vendere illusioni basate su benchmark poco significativi.

L’IA in medicina è una realtà inarrestabile. Ma se vogliamo davvero che sia utile e sicura, dobbiamo smettere di misurarla con strumenti inadeguati.

Bibliografia

Raji, I.D., Daneshjou, R., Alsentzer, E. (2025). It’s time to bench the medical exam benchmark. New England Journal of Medicine AI, Vol. 2, Febbraio 2025. doi: 10.1056/AIe2401235.

Bedi, S., Liu, Y., Orr-Ewing, L. (2025). Testing and evaluation of health care applications of large language models: a systematic review. JAMA, Vol. 33, 28 Gennaio 2025, p. 319. doi: 10.1001/jama.2024.21700.