Sintomi, referti ed esami clinici passano sempre più spesso attraverso chatbot e motori di ricerca con funzioni generative. Un nuovo studio della Princeton University mostra però che anche i sistemi più avanzati faticano a ricostruire correttamente le conclusioni della letteratura scientifica.
Per una parte crescente della popolazione, il percorso verso una risposta sanitaria inizia con una domanda rivolta all’intelligenza artificiale. Il chatbot precede la visita, aiuta a interpretare un referto oppure suggerisce quali condizioni potrebbero spiegare un sintomo. Il fenomeno coinvolge anche i medici, che usano questi strumenti per consultare la letteratura, preparare documenti clinici e ottenere un supporto nelle attività quotidiane.
La diffusione dell’AI sanitaria, però, procede più rapidamente della capacità dei sistemi di fornire sintesi scientifiche complete e attendibili. Il divario emerge dal confronto tra un sondaggio sulle abitudini degli italiani e SciConBench, un nuovo benchmark sviluppato da ricercatori della Princeton University e di altri istituti statunitensi e brasiliani.
Oltre il 70% degli italiani cerca informazioni sanitarie con l’AI
Il sondaggio “Dottor AI – Come gli italiani usano l’intelligenza artificiale in tema di salute”, promosso da Cerba HealthCare Italia su un campione rappresentativo di mille cittadini, indica che oltre sette persone su dieci ricorrono almeno occasionalmente a strumenti di AI per questioni sanitarie.
Il 43,9% dichiara un utilizzo diretto, il 21,6% ne fa un uso saltuario e un ulteriore 7% consulta le risposte generate dall’AI all’interno dei motori di ricerca. Tra gli under 50, la quota degli utilizzatori almeno occasionali sfiora l’89%. Più di due intervistati su tre prevedono inoltre un aumento del proprio utilizzo futuro. (ferpi.it)
Le richieste riguardano soprattutto la comprensione di sintomi e disturbi, che raccolgono il 39% delle menzioni, e l’interpretazione di analisi, esami e referti, indicata nel 30% dei casi. Tra i più giovani prevalgono le domande sui sintomi, mentre dopo i 50 anni cresce il ricorso all’AI per decifrare documenti clinici.
La fiducia supera la verifica con il medico
Il livello di fiducia dichiarato appare particolarmente elevato. Tra chi consulta l’intelligenza artificiale per questioni di salute, il 57% afferma di fidarsi abbastanza delle risposte e oltre il 41% dichiara molta fiducia.
L’interazione produce anche un effetto emotivo. Più dell’81% degli utilizzatori riferisce di essersi sentito spesso rassicurato dalle risposte, mentre circa un terzo dichiara di aver provato almeno qualche volta una maggiore preoccupazione.
Il dato più delicato riguarda il passaggio successivo. Soltanto il 2,6% degli utilizzatori afferma di aver verificato con un professionista sanitario le informazioni ottenute attraverso l’AI. Il chatbot, quindi, assume spesso il ruolo di fonte autonoma, anche quando la richiesta riguarda elementi che richiedono contesto clinico, anamnesi, esame obiettivo o ulteriori accertamenti. (AboutPeople Magazine)
Il sondaggio Cerba fotografa le percezioni e le abitudini dichiarate da un campione di cittadini. Non misura la correttezza delle risposte ricevute e non costituisce uno studio clinico. Il suo valore risiede soprattutto nella descrizione di un comportamento ormai diffuso: l’intelligenza artificiale entra nel percorso informativo sanitario prima, durante o dopo il rapporto con il medico.
SciConBench misura la capacità di ricostruire le prove scientifiche
Una risposta sulla salute richiede spesso molto più del recupero di una singola informazione. Occorre individuare studi pertinenti, distinguere le fonti più solide, valutare la qualità delle prove, confrontare risultati contrastanti e conservare le incertezze presenti nella letteratura.
Per misurare questa capacità, un gruppo di ricercatori guidato da Hayoung Jung ha creato SciConBench, un benchmark composto da 9.107 quesiti scientifici validi associati alle conclusioni delle revisioni sistematiche Cochrane. Le revisioni Cochrane costituiscono uno dei principali riferimenti della medicina basata sulle evidenze, poiché analizzano più studi relativi a uno stesso quesito clinico e ne valutano affidabilità, limiti e risultati.
Il lavoro, pubblicato su arXiv il 9 giugno 2026, è al momento un preprint e non risulta ancora sottoposto al processo completo di revisione tra pari. Il benchmark contiene oltre novemila quesiti, mentre i confronti tra i diversi sistemi si basano su campioni selezionati, scelti anche in funzione delle date di aggiornamento dei modelli e dei costi delle prove.
I ricercatori hanno scomposto ogni risposta in singole affermazioni e hanno valutato due aspetti: la precisione fattuale, cioè la presenza di informazioni supportate dalle revisioni, e la copertura dei fatti essenziali. Da queste due misure deriva il punteggio F1 fattuale, che premia le risposte corrette e allo stesso tempo complete.
Il problema delle risposte già presenti online
Durante le prime prove, i ricercatori hanno scoperto che alcuni agenti cercavano direttamente le conclusioni delle revisioni Cochrane dalle quali erano stati ricavati i quesiti. In questo scenario, il sistema non ricostruisce la risposta attraverso l’analisi delle prove: recupera un testo che contiene già la soluzione.
Per ridurre questa scorciatoia, il gruppo ha sviluppato SciConHarness, un ambiente di valutazione controllato che esclude le pagine Cochrane e altri contenuti capaci di rivelare direttamente la conclusione di riferimento.
Con l’accesso libero al web, o3 Deep Research di OpenAI ha ottenuto un F1 fattuale pari a 0,508. Nell’ambiente controllato, il punteggio è sceso a 0,337, pur restando il migliore tra i sistemi esaminati. La riduzione delle prestazioni ha interessato tutti i modelli sottoposti al protocollo clean room. (CITP Blog)
Lo 0,337 non indica che il sistema sia corretto nel 33,7% dei casi. F1 è una misura composita che combina correttezza e copertura. Il risultato mostra però quanto sia difficile produrre una risposta che includa tutti gli elementi essenziali senza introdurre affermazioni errate, contraddittorie o prive di supporto.
Tra gli errori rilevati compaiono l’inversione degli effetti di un trattamento, la rappresentazione imprecisa della qualità delle prove e la formulazione di conclusioni troppo generiche rispetto ai risultati effettivamente disponibili.
Google AI Overview e OpenEvidence alla prova
Lo studio ha analizzato anche tre servizi già accessibili agli utenti: Google AI Overview, Google AI Mode e OpenEvidence, una piattaforma rivolta soprattutto ai professionisti sanitari.
OpenEvidence ha ottenuto i risultati migliori tra questi strumenti, con un F1 fattuale di 0,522. La sua risposta media ha però coperto soltanto il 51,7% dei fatti presenti nelle conclusioni Cochrane. Nel 50,8% delle conclusioni esaminate era presente almeno un’affermazione in contrasto con la revisione di riferimento.
Per Google AI Overview, almeno una contraddizione è comparsa nel 56,3% delle conclusioni analizzate. Nel caso di Google AI Mode, la quota ha raggiunto il 59%. I rispettivi punteggi F1 sono stati pari a 0,384 e 0,361. (arXiv)
Queste percentuali non significano che ogni informazione prodotta dai servizi sia errata o che ogni singola risposta abbia una probabilità superiore al 50% di risultare falsa. Indicano che, all’interno del campione e secondo il metodo adottato dai ricercatori, oltre la metà delle conclusioni conteneva almeno un elemento incompatibile con la corrispondente revisione Cochrane.
Il problema appare ancora più rilevante perché, durante questa parte dell’esperimento, i servizi potevano accedere anche alla risposta corretta pubblicata online. L’errore sembra quindi collocarsi nella selezione delle fonti, nel peso attribuito alle diverse prove o nella fase di costruzione della sintesi.
Anche i medici usano l’intelligenza artificiale
Il ricorso all’AI non riguarda soltanto i pazienti. Un sondaggio pubblicato nel marzo 2026 dall’American Medical Association, al quale hanno risposto quasi 1.700 medici statunitensi, indica che l’81% utilizza strumenti di intelligenza artificiale in ambito professionale, più del doppio rispetto al 2023.
L’impiego più comune riguarda la sintesi di ricerche mediche e linee di cura, indicata dal 39% dei partecipanti. Seguono la preparazione di istruzioni e piani assistenziali, la documentazione delle visite e i riepiloghi delle cartelle. Soltanto il 17% cita un utilizzo diretto come supporto alla diagnosi. (American Medical Association)
La distinzione è importante. Un sistema che prepara una bozza, riassume un documento o organizza informazioni opera sotto la supervisione di un professionista. Un chatbot consultato autonomamente da un paziente può invece fornire una risposta senza conoscere l’intera storia clinica, i farmaci assunti, le patologie pregresse e altri elementi necessari per valutare il caso.
La stessa indagine AMA rileva che quasi la metà dei medici si oppone con decisione all’uso autonomo dell’AI da parte dei pazienti per interpretare esami radiologici o risultati anatomopatologici. L’88% considera necessaria una solida validazione di sicurezza ed efficacia, mentre l’86% indica la protezione dei dati personali come condizione essenziale.
Il divario tra percezione e affidabilità
I dati italiani e il benchmark misurano fenomeni diversi e non possono essere confrontati come parti di uno stesso esperimento. Il primo rileva comportamenti e fiducia percepita; il secondo valuta la capacità di sintetizzare conclusioni scientifiche rispetto a un riferimento specialistico.
La loro lettura congiunta mostra però una distanza significativa. Da una parte, quasi tutti gli utilizzatori italiani dichiarano almeno un discreto livello di fiducia. Dall’altra, i sistemi sottoposti a SciConBench omettono informazioni essenziali e, in numerosi casi, introducono contraddizioni anche quando dispongono di fonti autorevoli.
L’Organizzazione mondiale della sanità riconosce le possibili applicazioni dell’AI nella diagnosi, nella ricerca e nell’organizzazione dei sistemi sanitari, ma raccomanda controlli, trasparenza, valutazioni rigorose e supervisione umana per gli impieghi ad alto rischio.
L’intelligenza artificiale può aiutare a comprendere termini tecnici, preparare le domande per una visita o individuare documenti da discutere con uno specialista. I risultati di SciConBench indicano invece che diagnosi, scelta delle terapie e interpretazione definitiva degli esami richiedono ancora una verifica professionale, soprattutto quando una risposta apparentemente chiara nasconde omissioni, prove deboli o valutazioni scientifiche discordanti.





























Lascia un commento