Ma l'AI ragiona veramente? | Semanticase

A cura di Mario Santoro

The Illusion of Thinking, Shojaee et al., 2025Spesso vediamo “informazioni” sul thinking della GenAI che usiamo. Ma è davvero pensiero?

Uno studio recente (The Illusion of Thinking, Shojaee et al., 2025) indaga le capacità dei modelli di ragionamento, sfidando l’idea che generino un vero “pensiero”.

🔍 Cosa sono LLM vs LRM?

LLM (Large Language Model):

Modelli linguistici standard che rispondono direttamente, senza mostrare passaggi intermedi.

LRM (Large Reasoning Model):

Varianti specializzate (es. Claude 3.7 Thinking, DeepSeek-R1) che generano tracce di “ragionamento” (es. Chain-of-Thought) prima della risposta finale.

🧩 Scoperte chiave dallo studio

Collasso oltre una certa complessità:
- Gli LRM falliscono completamente su problemi ad alta complessità (es. puzzle con >15 elementi).
- Esempio: Nel gioco della “Torre di Hanoi”, l’accuratezza crolla a zero con 10+ dischi.
Andamento dello sforzo di ragionamento “controintuitivo”:
- Gli LRM aumentano l’uso di token (sforzo) all’aumentare della complessità…
- …ma lo riducono drasticamente oltre una soglia critica, anche con budget di token disponibili.
Tre regimi di performance:

Complessità	Performance
Bassa	LLM standard vincono (più efficienti).
Media	LRM eccellono (il “ragionamento” aiuta).
Alta	Entrambi collassano (accuratezza ≈0%).

Limiti fondamentali:
- Gli LRM non usano algoritmi espliciti anche se forniti (es. pseudocodice per risolvere puzzle).
- Mostrano incoerenza tra tipi di problemi: risolvono con 100 mosse in un contesto, ma falliscono con 5 in un altro.

💎 Conclusione

“Il ‘ragionamento’ degli LRM è un’illusione: non scalabile, incoerente e incapace di generalizzare oltre complessità moderate.”

Lo studio solleva dubbi cruciali: le tracce di thinking sono pattern appresi, non pensiero strutturato.

Paper: arXiv:2506.06941

Keyword: AI reasoning, scalability, illusion of thinking, LRM limitations.

Perché importa? Questi limiti hanno implicazioni pratiche:

✅ Bassa complessità: Usa LLM standard solo se non hai alternative più basiche e veloci. Risparmi risorse rispetto agli LRM ma monitora token e qualità risposta
⚠️ Media complessità: Gli LRM aiutano, ma monitora token (uso più intenso rispetto agli LLM) e qualità della risposta.
❌ Alta complessità: Cerca alternative (es. strumenti esterni, codice) oppure spacchetta il problema in step meno complessi e più controllabili.

Ma l’AI ragiona veramente?

A cura di Mario Santoro

The Illusion of Thinking, Shojaee et al., 2025Spesso vediamo “informazioni” sul thinking della GenAI che usiamo. Ma è davvero pensiero?

🔍 Cosa sono LLM vs LRM?

🧩 Scoperte chiave dallo studio

💎 Conclusione