“Intelligenza” nell’AI è un’eco dei dati; il giudizio resta umano.
Keyword: semantic ambiguity, pattern matching, hallucination, human reasoning, Shojaee et al. 2025, Quattrociocchi et al. 2025, human-in-the-loop
Per tutti
-
Quando chiediamo a un LLM (Large Language Model) o LRM (Large Reasoning Model) di ragionare, in realtà gli chiediamo di associare pattern già visti.
-
Se il compito è troppo complesso o diverso dal training → allucinazione statistica: risposta plausibile ma non rappresentativa.
-
Non c’è pensiero concettuale, solo la ricombinazione di dati.
-
Conclusione: possiamo usarli come turbo, ma il volante resta nelle mani umane.
| Capacità | Umano | LLM/LRM |
|---|---|---|
| Base cognitiva | Esperienza sensoriale + embodied | Statistica su token |
| Compito nuovo | Astrae e riplasma concetti | Cerca pattern più vicino al training |
| Errore | Metacognizione e correzione | Prosegue con pattern simile → hallucination |
È una estrapolazione super sintetica da due papers recenti molto interessanti:
- Quattrociocchi et al., PNAS 2025, The simulation of judgment in LLMs
“Epistemia: the illusion of knowledge emerging when surface plausibility replaces verification”
- Shojaee et al., ArXiv 2025, Illusion of Thinking
“We found that LRMs have limitations in exact computation: they fail to use explicit algorithms and reason inconsistently across scales and problems.”
Possiamo quindi dedurre che:
- Il fatto che l’AI produca un output plausibile, ben scritto e imitatore della realtà (avrei usato l’inglese ‘mimic’) non vuol dire che ciò che viene prodotto sia sempre uniformemente reale. Con certezza è solo ben scritto, ovvero plausibile.
- Un uso consapevole dell’AI implica la validazione e la decisione umane nei vari step di implementazione e di esercizio delle applicazioni (human-in-the-loop + processi scomponibili).
- È pericoloso affidarsi soltanto ad un’API di un servizio di un provider di AI senza verifiche umane.
Più dettagli interessanti nei paper:
1. Shojaee et al., 2025 – Illusion of Thinking https://arxiv.org/pdf/2506.06941
-
Ambiguità semantica: il modello sceglie il significato più frequente nel training, anziché quello corretto nel nuovo contesto.
-
Complessità: oltre 3-4 passi logici non presenti nel training → accuracy -38 %.
- Inversione: se nel training è presente solo una procedura di ragionamento in una direzione (i.e. sequenza top-down), il modello , a fronte di un input con sequenza inversa (i.e. sequenza bottom-up), proseguirà con la frequenza diretta.
-
Conclusione: “ragionamento” = somiglianza statistica rispetto alle sequenze umane (pattern) già osservate.
2. Quattrociocchi et al., PNAS 2025 – The simulation of judgment in LLMs https://www.pnas.org/doi/10.1073/pnas.2518443122
-
Obiettivo: verificare l’esistenza di un’equivalenza funzionale tra le aree cerebrali umane e i layer di un transformer durante task logici.
-
Risultato: nessuna correlazione spaziale; i transformer non implementano circuiti omologhi a quelli della corteccia prefrontale dorsolaterale (metacognizione), quindi non possono verificare la propria conoscenza.
-
Definizione di Epistemia: “the illusion of knowledge emerging when surface plausibility replaces verification”.
-
Significance: i transformer non possiedono circuiti omologhi alla corteccia prefrontale dorsolaterale (metacognizione).
📣 Call to action 📣
- È necessario usare il metodo scientifico quando si usano LLM/LRM per prendere decisioni.
- Riproducibilità: pubblicate prompt, temperature, seed.
- Verificabilità: annotate fonti e versioni dei modelli.
- Misura: usate metriche adatte (accuracy, consistenza, human-judgement, …).
- Human-in-the-loop: sempre un esperto valida l’output, le scelte dei parametri e le logiche della pipeline.
- Supporto decisionale, non sostituzione: l’AI propone, l’umano decide.
- Il ragionamento, peculiare di situazione in situazione, è umano.