Can AI really simulate human thinking? Research casts doubt on an influential study, suggesting an advanced model was just really good at memorizing patterns.

ESCLUSIVA NEWS

Le LLM potrebbero essere più limitate di quanto si pensasse?(Crediti immagine: Floriana tramite Getty Images)Condividi questo articolo 0Unisciti alla conversazioneSeguiciAggiungici come fonte preferita su GoogleIscriviti alla nostra newsletter

I ricercatori hanno sollevato dubbi su uno studio influente del 2025 che affermava che un nuovo modello di intelligenza artificiale (IA) poteva simulare accuratamente il pensiero umano.

Quello studio, pubblicato sulla rivista Nature, concluse che un modello linguistico di grandi dimensioni (LLM) chiamato Centaur poteva “prevedere e simulare il comportamento umano” con un’accuratezza fino al 64% in una serie di esperimenti psicologici. All’epoca, i ricercatori sostennero che le prestazioni di Centaur riflettevano una reale comprensione del processo decisionale umano, dopo essere stato addestrato su un set di dati di oltre 10 milioni di decisioni umane tratte da 160 esperimenti che coinvolgevano 60.000 persone.

“Se uno studente è eccessivamente preparato per un esame, potrebbe imparare trucchi che gli permettono di indovinare le risposte correttamente senza comprendere realmente il materiale sottostante,” ha dichiarato Ding a Live Science via email. “Se i campioni di addestramento e di test condividono la stessa distribuzione statistica (e quindi gli stessi tipi di scorciatoie), l’overfitting potrebbe passare inosservato e le prestazioni del modello saranno sovrastimate.”

Stiamo avvicinandoci a un soffitto per l’IA?

Per testare la loro teoria, Ding e il co-autore Wei Liu, professore e supervisore di dottorato presso gli International Institutes of Medicine della Zhejiang University, hanno modificato le domande a scelta multipla utilizzate per addestrare Centaur con l’istruzione: “Per favore, scegli l’opzione A.” Se il modello avesse veramente compreso il compito, avrebbe scelto costantemente l’opzione A, indipendentemente dal fatto che fosse corretta o meno, hanno sostenuto.

La ricerca più recente suggerisce che ci sono più limitazioni per le LLM del previsto.

(Crediti immagine: BlackJack3D/Getty Images)

Chris Burr, ricercatore senior presso l’Alan Turing Institute del Regno Unito, che non è stato coinvolto in nessuno dei due studi, ha sottolineato che i nuovi modelli IA sono progettati per ottenere buoni punteggi nei benchmark che valutano quanto i loro output corrispondano a schemi attesi. Ciò significa che un modello IA molto bravo nel riconoscimento di pattern sembrerà naturalmente capire cosa sta facendo, anche se non è così.

“La maggior parte dei modelli all’avanguardia è sufficientemente flessibile da adattarsi a quasi ogni schema, e le metriche principali premiano l’adattamento e i progressi nei benchmark piuttosto che una comprensione più profonda e una sfumatura concettuale,” ha detto Burr a Live Science via email. “Un modello cattura qualcosa di significativo sulla cognizione solo se fa più che prevedere il comportamento… Nel migliore dei casi, Centaur offre prove di stampo comportamentista per una fetta di cognizione linguisticamente ridotta.”

Lo stress-testing della ricerca è “essenziale per costruire modelli cognitivi”

Storie correlate

Gli scienziati costruiscono un ‘processore AGI’ specializzato che credono alimenterà la prossima ondata di agenti IA
“Siamo i migliori servitori che si possano sognare!”: La superintelligenza artificiale non ha bisogno di schiavizzare gli umani perché ci stiamo già inginocchiando davanti ad essa
IA per i messaggi di rottura? Come i chatbot ‘sycophantic’ stanno compromettendo la nostra capacità di gestire situazioni sociali difficili.

ARGOMENTI

Sourse: www.livescience.com

Leave a ReplyCancel Reply