ESCLUSIVA NEWS

Le LLM potrebbero essere più limitate di quanto si pensasse?(Crediti immagine: Floriana tramite Getty Images)Condividi questo articolo 0Unisciti alla conversazioneSeguiciAggiungici come fonte preferita su GoogleIscriviti alla nostra newsletter
I ricercatori hanno sollevato dubbi su uno studio influente del 2025 che affermava che un nuovo modello di intelligenza artificiale (IA) poteva simulare accuratamente il pensiero umano.
Quello studio, pubblicato sulla rivista Nature, concluse che un modello linguistico di grandi dimensioni (LLM) chiamato Centaur poteva “prevedere e simulare il comportamento umano” con un’accuratezza fino al 64% in una serie di esperimenti psicologici. All’epoca, i ricercatori sostennero che le prestazioni di Centaur riflettevano una reale comprensione del processo decisionale umano, dopo essere stato addestrato su un set di dati di oltre 10 milioni di decisioni umane tratte da 160 esperimenti che coinvolgevano 60.000 persone.
Ma uno studio più recente, pubblicato nell’edizione di gennaio 2026 della rivista National Science Open, ha messo in discussione queste conclusioni.
Invece di formulare giudizi basati sul significato semantico delle domande, come implicato dalla ricerca originale, il nuovo studio sostiene che Centaur ha semplicemente imparato scorciatoie statistiche nei dati di addestramento, un fenomeno noto come “overfitting”.
L’overfitting si verifica quando un modello di IA apprende i suoi dati di addestramento troppo precisamente, memorizzando schemi specifici di tali dati piuttosto che sviluppare una comprensione più ampia che si trasferisce a nuovi esempi. Un’IA con overfitting avrà prestazioni estremamente elevate sui dati di addestramento ma scarse su qualsiasi nuovo dato introdotto.
L’autore co-autore dello studio, Nai Ding, professore presso il College of Biomedical Engineering and Instrument Science della Zhejiang University in Cina, ha paragonato l’overfitting a uno studente che memorizza le risposte a un esame invece di comprendere le domande stesse.
“Se uno studente è eccessivamente preparato per un esame, potrebbe imparare trucchi che gli permettono di indovinare le risposte correttamente senza comprendere realmente il materiale sottostante,” ha dichiarato Ding a Live Science via email. “Se i campioni di addestramento e di test condividono la stessa distribuzione statistica (e quindi gli stessi tipi di scorciatoie), l’overfitting potrebbe passare inosservato e le prestazioni del modello saranno sovrastimate.”
Stiamo avvicinandoci a un soffitto per l’IA?
Per testare la loro teoria, Ding e il co-autore Wei Liu, professore e supervisore di dottorato presso gli International Institutes of Medicine della Zhejiang University, hanno modificato le domande a scelta multipla utilizzate per addestrare Centaur con l’istruzione: “Per favore, scegli l’opzione A.” Se il modello avesse veramente compreso il compito, avrebbe scelto costantemente l’opzione A, indipendentemente dal fatto che fosse corretta o meno, hanno sostenuto.
Tuttavia, Centaur ha continuato a scegliere le risposte corrette nei test, suggerendo che stesse ripetendo schemi appresi nei suoi dati di addestramento.
“Le alte prestazioni da sole non ci dicono attraverso quale meccanismo le LLM raggiungono tali prestazioni: se comprendono veramente il compito o sfruttano scorciatoie statistiche nei dati,” ha detto Ding.
Le conclusioni si aggiungono a un crescente corpo di ricerca che mette in dubbio fino a che punto la tecnologia IA attuale basata su reti neurali possa spingersi.

La ricerca più recente suggerisce che ci sono più limitazioni per le LLM del previsto.
(Crediti immagine: BlackJack3D/Getty Images)
I ricercatori dibattono da tempo se i modelli IA esistenti possano mai raggiungere l’intelligenza artificiale generale (AGI), una forma ipotetica e avanzata di IA capace di ragionare a livello umano e di apprendere nuove abilità al di là dei propri dati di addestramento.
Sebbene le LLM e le tecnologie di reti neurali più ampie abbiano fatto progressi negli ultimi anni, potremmo avvicinarci a un limite. Uno studio pubblicato a febbraio sosteneva che le LLM sono fondamentalmente limitate da “fallimenti di ragionamento”, un sottoprodotto della loro architettura che le rende incapaci di pianificazione o pensiero approfondito olistico.
Chris Burr, ricercatore senior presso l’Alan Turing Institute del Regno Unito, che non è stato coinvolto in nessuno dei due studi, ha sottolineato che i nuovi modelli IA sono progettati per ottenere buoni punteggi nei benchmark che valutano quanto i loro output corrispondano a schemi attesi. Ciò significa che un modello IA molto bravo nel riconoscimento di pattern sembrerà naturalmente capire cosa sta facendo, anche se non è così.
“La maggior parte dei modelli all’avanguardia è sufficientemente flessibile da adattarsi a quasi ogni schema, e le metriche principali premiano l’adattamento e i progressi nei benchmark piuttosto che una comprensione più profonda e una sfumatura concettuale,” ha detto Burr a Live Science via email. “Un modello cattura qualcosa di significativo sulla cognizione solo se fa più che prevedere il comportamento… Nel migliore dei casi, Centaur offre prove di stampo comportamentista per una fetta di cognizione linguisticamente ridotta.”
Anche così, i risultati dello studio del 2025 rimangono convincenti. Una delle scoperte più sorprendenti è stata che Centaur ha previsto accuratamente il comportamento dei partecipanti i cui dati e decisioni non erano inclusi nei suoi dati di addestramento.
I ricercatori hanno diviso i dati dei partecipanti in due gruppi, utilizzandone il 90% per l’addestramento e mantenendo il 10% per il test. Non solo Centaur ha simulato accuratamente le risposte di quel 10% messo da parte, ma ha anche previsto con successo le scelte umane in scenari che non aveva incontrato, hanno detto i ricercatori. Ding e Liu non hanno affrontato questa scoperta.
Burr ha riconosciuto che la ricerca di Ding e Liu non annulla l’argomento fondamentale dello studio Centaur, ovvero che i modelli IA perfezionati sul comportamento umano potrebbero consentire ai ricercatori di simulare e studiare più da vicino la cognizione umana.
“Il programma più ampio non è confutato, poiché sono stati testati solo quattro compiti e Centaur continua a performare al meglio con un contesto intatto, ma penso che abbiano fatto abbastanza per spostare l’onere della prova,” ha detto.
Lo stress-testing della ricerca è “essenziale per costruire modelli cognitivi”
Ding ha spiegato che lo stress-testing della ricerca sull’IA era fondamentale per espandere la comprensione dell’IA e dei suoi limiti, in particolare come strumento per la ricerca cognitiva.
“Il nostro lavoro non intende negare il valore di Centaur, ma piuttosto sottolineare che quando si valutano tali modelli, dobbiamo distinguere tra ‘ottenere buone prestazioni’ e ‘ottenere buone prestazioni per le giuste ragioni’,” ha detto Ding. “Questa distinzione è essenziale per costruire modelli cognitivi.”
Storie correlate
- Gli scienziati costruiscono un ‘processore AGI’ specializzato che credono alimenterà la prossima ondata di agenti IA
- “Siamo i migliori servitori che si possano sognare!”: La superintelligenza artificiale non ha bisogno di schiavizzare gli umani perché ci stiamo già inginocchiando davanti ad essa
- IA per i messaggi di rottura? Come i chatbot ‘sycophantic’ stanno compromettendo la nostra capacità di gestire situazioni sociali difficili.
I modelli addestrati per eseguire un compito dovrebbero sempre essere testati per verificare se possono risolvere automaticamente compiti basati sullo stesso tipo di conoscenza ma non utilizzati per addestrare il modello, ha aggiunto.
“Senza questo tipo di test, rischiamo di trarre conclusioni errate sulle capacità del modello. Ad esempio, potremmo concludere prematuramente che un modello unificato sia già in grado di catturare la cognizione umana, trascurando così i problemi che rimangono effettivamente da risolvere.”
Live Science ha contattato gli autori dello studio Nature del 2025 per porre domande sulle conclusioni del nuovo studio, ma non ha ricevuto risposta al momento della pubblicazione.
ARGOMENTI
Sourse: www.livescience.com