“Intelligenza” nell’AI è un’eco dei dati; il giudizio resta umano.

Keyword: semantic ambiguity, pattern matching, hallucination, human reasoning, Shojaee et al. 2025, Quattrociocchi et al. 2025, human-in-the-loop

Per tutti

Quando chiediamo a un LLM (Large Language Model) o LRM (Large Reasoning Model) di ragionare, in realtà gli chiediamo di associare pattern già visti.
Se il compito è troppo complesso o diverso dal training → allucinazione statistica: risposta plausibile ma non rappresentativa.
Non c’è pensiero concettuale, solo la ricombinazione di dati.
Conclusione: possiamo usarli come turbo, ma il volante resta nelle mani umane.

Capacità	Umano	LLM/LRM
Base cognitiva	Esperienza sensoriale + embodied	Statistica su token
Compito nuovo	Astrae e riplasma concetti	Cerca pattern più vicino al training
Errore	Metacognizione e correzione	Prosegue con pattern simile → hallucination

È una estrapolazione super sintetica da due papers recenti molto interessanti:

Quattrociocchi et al., PNAS 2025, The simulation of judgment in LLMs

“Epistemia: the illusion of knowledge emerging when surface plausibility replaces verification”
Shojaee et al., ArXiv 2025, Illusion of Thinking

“We found that LRMs have limitations in exact computation: they fail to use explicit algorithms and reason inconsistently across scales and problems.”

Possiamo quindi dedurre che:

Il fatto che l’AI produca un output plausibile, ben scritto e imitatore della realtà (avrei usato l’inglese ‘mimic’) non vuol dire che ciò che viene prodotto sia sempre uniformemente reale. Con certezza è solo ben scritto, ovvero plausibile.
Un uso consapevole dell’AI implica la validazione e la decisione umane nei vari step di implementazione e di esercizio delle applicazioni (human-in-the-loop + processi scomponibili).
È pericoloso affidarsi soltanto ad un’API di un servizio di un provider di AI senza verifiche umane.

Più dettagli interessanti nei paper:

1. Shojaee et al., 2025 – Illusion of Thinking https://arxiv.org/pdf/2506.06941

Ambiguità semantica: il modello sceglie il significato più frequente nel training, anziché quello corretto nel nuovo contesto.
Complessità: oltre 3-4 passi logici non presenti nel training → accuracy -38 %.
Inversione: se nel training è presente solo una procedura di ragionamento in una direzione (i.e. sequenza top-down), il modello , a fronte di un input con sequenza inversa (i.e. sequenza bottom-up), proseguirà con la frequenza diretta.
Conclusione: “ragionamento” = somiglianza statistica rispetto alle sequenze umane (pattern) già osservate.

2. Quattrociocchi et al., PNAS 2025 – The simulation of judgment in LLMs https://www.pnas.org/doi/10.1073/pnas.2518443122

Obiettivo: verificare l’esistenza di un’equivalenza funzionale tra le aree cerebrali umane e i layer di un transformer durante task logici.
Risultato: nessuna correlazione spaziale; i transformer non implementano circuiti omologhi a quelli della corteccia prefrontale dorsolaterale (metacognizione), quindi non possono verificare la propria conoscenza.
Definizione di Epistemia: “the illusion of knowledge emerging when surface plausibility replaces verification”.
Significance: i transformer non possiedono circuiti omologhi alla corteccia prefrontale dorsolaterale (metacognizione).

📣 Call to action 📣

È necessario usare il metodo scientifico quando si usano LLM/LRM per prendere decisioni.
Riproducibilità: pubblicate prompt, temperature, seed.
Verificabilità: annotate fonti e versioni dei modelli.
Misura: usate metriche adatte (accuracy, consistenza, human-judgement, …).
Human-in-the-loop: sempre un esperto valida l’output, le scelte dei parametri e le logiche della pipeline.
Supporto decisionale, non sostituzione: l’AI propone, l’umano decide.
Il ragionamento, peculiare di situazione in situazione, è umano.

Epistemia e AI: L’Inganno della Plausibilità e del Ragionamento