Ma l'AI ragiona veramente? 1 mese ago

Modelli AI e ragionamento

The Illusion of Thinking, Shojaee et al., 2025Spesso vediamo “informazioni” sul thinking della GenAI che usiamo. Ma è davvero pensiero?

Uno studio recente (The Illusion of Thinking, Shojaee et al., 2025) indaga le capacità dei modelli di ragionamento, sfidando l’idea che generino un vero “pensiero”.

🔍 Cosa sono LLM vs LRM?

  • LLM (Large Language Model):
Modelli linguistici standard che rispondono direttamente, senza mostrare passaggi intermedi.
  • LRM (Large Reasoning Model):
Varianti specializzate (es. Claude 3.7 Thinking, DeepSeek-R1) che generano tracce di “ragionamento” (es. Chain-of-Thought) prima della risposta finale.

 

🧩 Scoperte chiave dallo studio

  1. Collasso oltre una certa complessità:
    • Gli LRM falliscono completamente su problemi ad alta complessità (es. puzzle con >15 elementi).
    • Esempio: Nel gioco della “Torre di Hanoi”, l’accuratezza crolla a zero con 10+ dischi.
  2. Andamento dello sforzo di ragionamento “controintuitivo”:
    • Gli LRM aumentano l’uso di token (sforzo) all’aumentare della complessità…
    • …ma lo riducono drasticamente oltre una soglia critica, anche con budget di token disponibili.
  3. Tre regimi di performance:
Complessità
Performance
Bassa
LLM standard vincono (più efficienti).
Media
LRM eccellono (il “ragionamento” aiuta).
Alta
Entrambi collassano (accuratezza ≈0%).
  1. Limiti fondamentali:
    • Gli LRM non usano algoritmi espliciti anche se forniti (es. pseudocodice per risolvere puzzle).
    • Mostrano incoerenza tra tipi di problemi: risolvono con 100 mosse in un contesto, ma falliscono con 5 in un altro.

💎 Conclusione

“Il ‘ragionamento’ degli LRM è un’illusione: non scalabile, incoerente e incapace di generalizzare oltre complessità moderate.”

Lo studio solleva dubbi cruciali: le tracce di thinking sono pattern appresi, non pensiero strutturato.
Keyword: AI reasoning, scalability, illusion of thinking, LRM limitations.

Perché importa? Questi limiti hanno implicazioni pratiche:
  • ✅ Bassa complessità: Usa LLM standard solo se non hai alternative più basiche e veloci. Risparmi risorse rispetto agli LRM ma monitora token e qualità risposta
  • ⚠️ Media complessità: Gli LRM aiutano, ma monitora token (uso più intenso rispetto agli LLM) e qualità della risposta.
  • ❌ Alta complessità: Cerca alternative (es. strumenti esterni, codice) oppure spacchetta il problema in step meno complessi e più controllabili.

Commenting is Disabled on Ma l’AI ragiona veramente?