Salute e Benessere

Intelligenza artificiale in medicina sa diagnosticare, ma non sa parlare con i pazienti

Uno studio dell’Università di Oxford, pubblicato su arXiv e non ancora sottoposto a revisione paritaria, conferma che i modelli di linguaggio avanzati (LLM) non sono ancora in grado di sostituire efficacemente un medico. La ricerca mette in luce un paradosso già emerso in un articolo pubblicato il 2 gennaio su Nature Medicine: nonostante questi modelli ottengano punteggi eccellenti nei test medici standard, falliscono nel supportare le persone in situazioni reali. Anzi, in alcuni casi, il loro utilizzo può portare a errori o sottovalutazioni.

Lo studio ha coinvolto 1.298 volontari, ai quali è stato chiesto di affrontare dieci scenari medici realistici. Ogni partecipante doveva identificare una possibile causa dei sintomi presentati e scegliere il percorso d’azione più appropriato, che poteva variare dall’automedicazione alla visita dal medico di base, fino al ricorso al Pronto Soccorso. Alcuni hanno avuto accesso a un modello linguistico avanzato, mentre altri hanno utilizzato strumenti tradizionali come Google. I risultati hanno rivelato che il problema non risiede nella conoscenza medica dell’AI, ma nella comunicazione tra uomo e macchina.

Negli ultimi due anni, i modelli linguistici di grandi dimensioni hanno dimostrato un’accuratezza impressionante nel rispondere a domande cliniche, superando in alcuni casi i medici umani in test standardizzati come MedQA, PubMedQA e MultiMedQA. Modelli come GPT-4o, Llama 3 e Command R+ sono spesso considerati esempi di intelligenza artificiale “esperta” in campo medico. Tuttavia, i ricercatori di Oxford si sono chiesti perché, nonostante queste prestazioni, le AI non riescano a essere d’aiuto nella pratica quotidiana. La risposta sta nel modo in cui avviene l’interazione: i benchmark accademici prevedono prompt ben strutturati e dati completi, mentre nella realtà le persone descrivono i sintomi in modo confuso, emotivo e spesso incompleto. È proprio qui che emerge il divario tra conoscenza teorica e utilità pratica.

La ricerca è stata condotta in modo rigoroso, coinvolgendo 1.298 adulti britannici suddivisi in quattro gruppi. Ogni gruppo è stato assegnato a uno scenario clinico, redatto da medici, che spaziava da disturbi lievi come la congestione nasale a emergenze potenzialmente letali come ictus o dolori toracici. Due gruppi hanno interagito con modelli linguistici avanzati, un terzo ha utilizzato strumenti di ricerca tradizionali come Google o il sito del NHS, mentre il quarto ha agito senza alcun supporto esterno.

Ogni partecipante, dopo aver analizzato lo scenario e interagito con l’AI (se previsto), doveva rispondere a due domande: qual era la condizione più probabile e quale tipo di assistenza fosse necessaria (cura domestica, visita medica, Pronto Soccorso o chiamata d’emergenza). Le risposte sono state poi valutate da un team clinico indipendente.

I risultati hanno rivelato una contraddizione significativa: se testati in modo isolato, i modelli linguistici dimostravano un’elevata accuratezza, con GPT-4o in grado di identificare correttamente la condizione nel 98% dei casi e di fornire il consiglio giusto nel 64%. Tuttavia, quando utilizzati dai partecipanti, queste percentuali crollavano. Solo il 35% degli utenti supportati da GPT-4o identificava la condizione corretta, e appena il 43% sceglieva l’opzione di assistenza appropriata.

Questo paradosso evidenzia che il vero ostacolo non è la competenza medica dell’AI, ma la sua capacità di comunicare in modo efficace con gli esseri umani. I pazienti spesso descrivono i sintomi in modo vago, non rispondono alle richieste di chiarimento o ignorano le indicazioni fornite. D’altra parte, le AI, pur avendo accesso a informazioni corrette, non sempre riescono a trasmettere l’urgenza o a utilizzare un linguaggio comprensibile. Anche quando suggeriscono di contattare i servizi di emergenza, molti utenti tendono a sottovalutare il consiglio.

Lo studio critica anche l’affidabilità dei test tradizionali, come MedQA e MedMCQA, che si basano su dati perfetti e domande strutturate. Nella vita reale, però, le interazioni sono molto più complesse: le persone formulano richieste ambigue, incomplete o cariche di emotività. I ricercatori sottolineano la necessità di un nuovo approccio, che valuti l’efficacia delle AI non solo attraverso simulazioni, ma coinvolgendo utenti reali in scenari realistici.

La lezione principale dello studio è che non basta che un’AI “conosca” le risposte giuste: deve anche saperle comunicare in modo chiaro, persuasivo e adatto al contesto. Allo stesso tempo, gli utenti devono essere in grado di interpretare correttamente le informazioni ricevute. In campo medico, dove le decisioni possono avere conseguenze vitali, questo aspetto è cruciale. La medicina non è solo scienza, ma anche arte del dialogo – e oggi questo dialogo deve avvenire non solo tra medico e paziente, ma anche tra uomo e macchina.

Related posts

Quante ore di sonno servono davvero?

Redazione

Reshaping Glutei con Acido Ialuronico

Redazione

Mal di testa perché lo sottovalutiamo e come affrontarlo correttamente

Redazione