“Uno stagista del primo anno pieno di sicurezza, con memoria fotografica e nessun discernimento.”
In cosa gli LLM sono davvero bravi
Tutto ciò che è in gran parte una trasformazione di testo da una forma a un'altra, dove essere all'incirca giusti è accettabile, gioca a favore dei punti di forza del modello. Riassunti. Bozze. Traduzioni. Riformulazioni. Estrazione di dati strutturati da prosa non strutturata. Brainstorming sotto forma di lista. Spiegazione di un paragrafo a un livello di lettura diverso. Non sono giochini. Sono alcuni dei compiti a maggior effetto leva nel lavoro della conoscenza, e il modello li fa bene.
La generazione è veloce, la plausibilità è alta, e il costo per compito tende a zero. Il modello mentale giusto non è «oracolo» ma «assistente paziente e infinito che produce bozze in pochi secondi».
Cosa possono fare, con l'impalcatura giusta
Ragionamento in più passi, generazione di codice, uso di strumenti, recupero di conoscenza. Nessuna di queste cose è affidabile con un modello da solo; tutte funzionano bene quando avvolgi il modello in una qualche struttura.
- Programmazione: accetta che la prima risposta sia una bozza. Abbina il modello a un vero type checker, una suite di test e un ciclo di feedback. Il modello è eccellente nel produrre codice plausibile; la correttezza viene dal ciclo.
- Matematica e aritmetica: dai al modello una calcolatrice o uno strumento Python. Da solo, si inventa i numeri.
- Recupero di conoscenza: abbinalo a un indice di ricerca o a un database vettoriale (RAG). Non aspettarti che il modello si ricordi fatti precisi oltre la sua data di taglio dell'addestramento.
- Compiti in più passi: scomponi il compito in prompt più piccoli, oppure usa un approccio esplicito di «catena di pensiero». Il ragionamento migliora notevolmente quando al modello è concesso di pensare ad alta voce.
Cosa non possono fare, qualunque prompt tu usi
Ci sono limiti che nessuna ingegneria del prompt può correggere. Riconoscerli fa la differenza tra un sistema funzionante e uno guasto.
Non sanno cosa non sanno. Il modello produrrà una risposta plausibile con la stessa sicurezza, sia che lo sappia davvero, sia che stia tirando a indovinare. È questo che «allucinazione» significa davvero: non malizia né errore, ma sicurezza non calibrata.
Non hanno alcuno stato persistente. Tra due chiamate API, il modello non ricorda nulla. L'illusione della memoria non è che la conversazione riprodotta nel prompt a ogni turno. Quando il contesto si riempie, le prime parti della conversazione cadono nel vuoto.
Non possono davvero pianificare su lunghi orizzonti. Tutto ciò che richiede una strategia sostenuta a più passi dove gli errori si accumulano (prenotare un viaggio complesso, eseguire un progetto non banale, fare il debug di un sistema dall'inizio alla fine) si degrada rapidamente. I framework «agent» aiutano ma non risolvono il problema.
Non sono calibrati. Le stime di probabilità che escono dal modello non sono vere probabilità. «Sono sicuro al 90%» significa pochissimo.
Non possono imparare dalla tua conversazione. Qualunque cosa abbiano sbagliato oggi, la sbaglieranno domani. Il fine-tuning avviene su un binario separato e costoso.
L'inganno della fluidità
La proprietà più pericolosa di un LLM è la sua fluidità. Un testo fluido sembra autorevole. Un fatto errato in un inglese maldestro desta sospetti; lo stesso fatto errato in prosa elegante non lo fa. Il tuo ruolo come utente, e soprattutto come operatore, è restare sospettoso *in proporzione alla posta in gioco*, qualunque sia la qualità della prosa.
Numeri per calibrare le aspettative
Finestra di contesto: i modelli di punta supportano da 100 mila a 2 M di token nel 2025. È qualcosa tra un romanzo e una piccola biblioteca. Il trucco: le prestazioni si degradano all'interno della finestra. Ciò che sta nel mezzo riceve meno attention di ciò che è all'inizio o alla fine (il «perso nel mezzo»).
Costo: una singola chiamata di inferenza varia da 0,0001 $ a 0,10 $ a seconda del modello e della lunghezza. Su scala applicativa questo conta; per un uso occasionale è trascurabile.
Latenza: da 0,5 a 10 secondi per una risposta tipica. Lo streaming maschera tutto ciò. Gli agenti che usano strumenti accumulano latenza in modo moltiplicativo: un agente in 10 passi a 2 s/passo sono 20 secondi.
Benchmark: non fidartene. Un modello che ottiene il 95% su un benchmark può fallire sul tuo compito preciso. Il divario tra «prestazioni sul benchmark» e «prestazioni in produzione» è la sfida ingegneristica centrale.
Recupero contro ragionamento
Una distinzione utile. Il recupero è «cosa ha visto il modello in addestramento, e può restituirlo?» Il ragionamento è «il modello può derivare qualcosa che non ha mai visto?» I modelli sono molto bravi nel recupero (a volte in modo inquietante) e disomogenei nel ragionamento.
La trappola: il ragionamento spesso *sembra* recupero. Un modello che risolve un rompicapo di logica potrebbe averlo risolto esattamente in addestramento. L'articolo del 2024 sulla «maledizione dell'inversione» ha mostrato che se un modello ha visto solo «A è il padre di B», non può rispondere in modo affidabile a «chi è il padre di B?». L'informazione c'è, ma il modello non può manipolarla. Tratta con prudenza le dimostrazioni di ragionamento impressionanti.
Una riga per ciascuno
- Punti forti: stesura, trasformazione di testo, riassunto, estrazione di struttura, brainstorming.
- Punti forti con impalcatura: programmazione (+ test), matematica (+ strumenti), fatti (+ recupero), ragionamento (+ passi).
- Non può: sapere cosa non sa, persistere lo stato, pianificare su lunghi orizzonti, imparare dalla conversazione.
- La fluidità crea falsa fiducia. I benchmark sono ingannevoli. Il tuo benchmark reale è l'unico che conta.
Dove andare ora