The Illusion of Thinking, Shojaee et al., 2025Spesso vediamo “informazioni” sul thinking della GenAI che usiamo. Ma è davvero pensiero?
Uno studio recente (The Illusion of Thinking, Shojaee et al., 2025) indaga le capacità dei modelli di ragionamento, sfidando l’idea che generino un vero “pensiero”.
🔍 Cosa sono LLM vs LRM?
- LLM (Large Language Model):
Modelli linguistici standard che rispondono direttamente, senza mostrare passaggi intermedi.
- LRM (Large Reasoning Model):
Varianti specializzate (es. Claude 3.7 Thinking, DeepSeek-R1) che generano tracce di “ragionamento” (es. Chain-of-Thought) prima della risposta finale.
🧩 Scoperte chiave dallo studio
- Collasso oltre una certa complessità:
- Gli LRM falliscono completamente su problemi ad alta complessità (es. puzzle con >15 elementi).
- Esempio: Nel gioco della “Torre di Hanoi”, l’accuratezza crolla a zero con 10+ dischi.
- Andamento dello sforzo di ragionamento “controintuitivo”:
- Gli LRM aumentano l’uso di token (sforzo) all’aumentare della complessità…
- …ma lo riducono drasticamente oltre una soglia critica, anche con budget di token disponibili.
- Tre regimi di performance:
Complessità
|
Performance
|
Bassa
|
LLM standard vincono (più efficienti).
|
Media
|
LRM eccellono (il “ragionamento” aiuta).
|
Alta
|
Entrambi collassano (accuratezza ≈0%).
|
- Limiti fondamentali:
- Gli LRM non usano algoritmi espliciti anche se forniti (es. pseudocodice per risolvere puzzle).
- Mostrano incoerenza tra tipi di problemi: risolvono con 100 mosse in un contesto, ma falliscono con 5 in un altro.
💎 Conclusione
“Il ‘ragionamento’ degli LRM è un’illusione: non scalabile, incoerente e incapace di generalizzare oltre complessità moderate.”
Lo studio solleva dubbi cruciali: le tracce di thinking sono pattern appresi, non pensiero strutturato.
Paper: arXiv:2506.06941
Keyword: AI reasoning, scalability, illusion of thinking, LRM limitations.
Perché importa? Questi limiti hanno implicazioni pratiche:
- ✅ Bassa complessità: Usa LLM standard solo se non hai alternative più basiche e veloci. Risparmi risorse rispetto agli LRM ma monitora token e qualità risposta
- ⚠️ Media complessità: Gli LRM aiutano, ma monitora token (uso più intenso rispetto agli LLM) e qualità della risposta.
- ❌ Alta complessità: Cerca alternative (es. strumenti esterni, codice) oppure spacchetta il problema in step meno complessi e più controllabili.