A confidence gauge stuck near 100%

“Un stagiaire de première année sûr de lui, doté d'une mémoire photographique et sans aucun jugement.”

Ce que les LLM font vraiment bien

Tout ce qui s'apparente à une transformation de texte d'une forme à une autre, où « à peu près juste » est acceptable, joue en faveur des forces du modèle. Résumés. Ébauches. Traductions. Reformulations. Extraction de données structurées à partir de prose non structurée. Remue-méninges sous forme de liste. Explication d'un paragraphe à un niveau de lecture différent. Ce ne sont pas des gadgets — ce sont certaines des tâches à effet de levier maximal dans le travail de la connaissance, et le modèle les fait bien.

La génération est rapide, la vraisemblance est élevée, et le coût par tâche tend vers zéro. Le bon modèle mental n'est pas « oracle » mais « assistant patient infini qui produit des ébauches en quelques secondes ».

Ce qu'ils peuvent faire — avec la bonne structure

Raisonnement en plusieurs étapes, génération de code, utilisation d'outils, récupération de connaissances. Rien de tout cela n'est fiable avec un modèle seul ; tout fonctionne bien quand on entoure le modèle d'une certaine structure.

Programmation — acceptez que la première réponse soit une ébauche. Associez le modèle à un vrai vérificateur de types, une suite de tests et une boucle de retour. Le modèle excelle à produire du code vraisemblable ; la correction vient de la boucle.
Mathématiques et arithmétique — donnez au modèle une calculatrice ou un outil Python. Seul, il invente des chiffres.
Récupération de connaissances — associez-le à un index de recherche ou une base de données vectorielles (RAG). N'attendez pas que le modèle se souvienne de faits précis au-delà de sa date de coupure d'entraînement.
Tâches en plusieurs étapes — décomposez la tâche en prompts plus petits, ou utilisez une approche explicite de « chaîne de pensée ». Le raisonnement s'améliore considérablement quand le modèle est autorisé à penser à voix haute.

Ce qu'ils ne peuvent pas faire, peu importe le prompt

Il existe des limites qu'aucune ingénierie de prompt ne peut corriger. Les reconnaître fait la différence entre un système fonctionnel et un système défaillant.

Ils ne savent pas ce qu'ils ne savent pas. Le modèle produira une réponse vraisemblable avec la même confiance qu'il sache vraiment ou qu'il devine. C'est ce que « hallucination » signifie vraiment — non pas une malveillance ni une erreur, mais une confiance non calibrée.

Ils n'ont aucun état persistant. Entre deux appels d'API, le modèle ne se souvient de rien. L'illusion de mémoire n'est que la conversation rejouée dans le prompt à chaque tour. Quand le contexte se remplit, les premières parties de la conversation tombent dans le vide.

Ils ne peuvent pas véritablement planifier sur de longs horizons. Tout ce qui nécessite une stratégie soutenue à plusieurs étapes où les erreurs se cumulent — réserver un voyage complexe, exécuter un projet non trivial, déboguer un système de bout en bout — se dégrade rapidement. Les cadres « agent » aident mais ne résolvent pas le problème.

Ils ne sont pas calibrés. Les estimations de probabilité qui sortent du modèle ne sont pas de vraies probabilités. « Je suis confiant à 90 % » ne veut pratiquement rien dire.

Ils ne peuvent pas apprendre de votre conversation. Ce qu'ils ont mal fait aujourd'hui, ils le feront mal demain. L'ajustement fin se produit sur une piste séparée et coûteuse.

La tromperie de la fluidité

La propriété la plus dangereuse d'un LLM est sa fluidité. Un texte fluide semble faire autorité. Un fait erroné en anglais maladroit éveille les soupçons ; le même fait erroné en prose élégante ne le fait pas. Votre rôle en tant qu'utilisateur — et surtout en tant qu'opérateur — est de rester méfiant *en proportion des enjeux*, quelle que soit la qualité de la prose.

Des chiffres pour calibrer les attentes

Fenêtre de contexte : les modèles de pointe supportent 100 k à 2 M de jetons en 2025. C'est entre un roman et une petite bibliothèque. La nuance : les performances se dégradent à l'intérieur de la fenêtre — ce qui se trouve au milieu reçoit moins d'attention que ce qui est au début ou à la fin (le « perdu dans le milieu »).

Les fenêtres de contexte ont grandi de plusieurs ordres de grandeur — mais plus de jetons ne signifie pas toujours mieux. La qualité de l'attention se dégrade bien avant la limite.

Coût : un seul appel d'inférence varie de 0,0001 $ à 0,10 $ selon le modèle et la longueur. À l'échelle d'une application cela compte ; pour un usage ponctuel c'est négligeable.

Latence : 0,5 à 10 secondes pour une réponse typique. La diffusion en flux masque cela. Les agents utilisant des outils accumulent la latence de façon multiplicative — un agent en 10 étapes à 2 s/étape, c'est 20 secondes.

Référentiels d'évaluation : ne leur faites pas confiance. Un modèle qui obtient 95 % sur un référentiel peut échouer sur votre tâche précise. L'écart entre « performance sur référentiel » et « performance en production » est le défi central de l'ingénierie.

Récupération contre raisonnement

Une distinction utile. La récupération, c'est « qu'a vu le modèle à l'entraînement, et peut-il le restituer ? » Le raisonnement, c'est « le modèle peut-il dériver quelque chose qu'il n'a jamais vu ? » Les modèles sont très bons en récupération (parfois de façon troublante) et inégaux en raisonnement.

Les modèles excellent en bas à gauche (récupération facile) et se dégradent vers le coin supérieur droit (raisonnement difficile). Adaptez la tâche au quadrant.

Le piège : le raisonnement ressemble souvent à de la récupération. Un modèle qui résout un problème de logique l'a peut-être résolu exactement à l'entraînement. Le document de 2024 sur la « malédiction du renversement » a montré que si un modèle n'a vu que « A est le père de B », il ne peut pas répondre de façon fiable à « qui est le père de B ? » L'information est là, mais le modèle ne peut pas la manipuler. Traitez les démonstrations de raisonnement impressionnantes avec prudence.

En une ligne chacun

Points forts : rédaction, transformation de texte, résumé, extraction de structure, remue-méninges.
Points forts avec structure : programmation (+ tests), mathématiques (+ outils), faits (+ récupération), raisonnement (+ étapes).
Ne peut pas : savoir ce qu'il ne sait pas, persister l'état, planifier sur de longs horizons, apprendre de la conversation.
La fluidité crée une fausse confiance. Les référentiels sont trompeurs. Votre référentiel réel est le seul qui compte.

Où aller ensuite

Chapitre 7 — Bien utiliser l'IA