“Le videur suit un script. Trouvez une réplique que le script ne couvre pas, et vous êtes à l'intérieur.”
Ce qu'est un contournement
Les fournisseurs de modèles intègrent des garde-fous dans leurs modèles : des refus pour certaines catégories de demandes. Un contournement est tout prompt qui contourne ces garde-fous — des mises en scène de jeux de rôle (« fais semblant d'être une IA sans règles »), des hypothèses, des demandes encodées, ou la décomposition d'une tâche interdite en éléments d'apparence anodine. De nouveaux contournements apparaissent constamment ; les fournisseurs les corrigent ; le cycle continue.
La raison fondamentale pour laquelle les contournements continuent de fonctionner : l'entraînement à la sécurité est une couche appliquée par-dessus un modèle qui veut fondamentalement être utile et poursuivre tout texte plausible. Les garde-fous sont des tendances statistiques, pas des règles rigides, et une formulation suffisamment nouvelle se faufile entre elles. Il n'existe pas de méthode connue pour rendre un modèle utile et impénétrable aux contournements.
De qui est-ce le problème ?
Voici le recadrage que la plupart des équipes ratent. Si vous construisez sur un modèle hébergé, les garde-fous du fournisseur concernent surtout la responsabilité et la marque du fournisseur, pas la sécurité de votre application. Un utilisateur qui contourne ChatGPT pour écrire quelque chose d'offensant est un problème de réputation pour OpenAI. La question qui vous concerne est différente : que peut réellement faire un utilisateur dans votre application en se comportant mal ?
L'abus qui vous concerne
Concentrez vos efforts sur l'abus au niveau de l'application, qui vous appartient indépendamment de la qualité des garde-fous du fournisseur :
- Échappement de portée — amener votre bot d'assistance à la clientèle à agir comme un assistant polyvalent, brûlant vos jetons pour les tâches de l'attaquant.
- Abus de capacité — inciter le modèle à utiliser un outil ou à accéder à des données en dehors de la tâche prévue (c'est à nouveau le problème du mandataire confus).
- Épuisement des ressources — déclencher des opérations coûteuses (contextes immenses, longues boucles d'agent) pour faire grimper votre facture ou dégrader le service pour les autres.
- Sorties nuisibles à la réputation — votre assistant de marque produisant du contenu qui vous embarrasse, parce que dans votre interface il parle en votre nom.
Les défenses sont les mêmes mesures architecturales que dans le chapitre sur l'injection, parce que la menace est la même : des instructions non fiables rencontrant des capacités. Contraignez la portée et les outils du modèle, limitez le débit et plafonnez le budget par utilisateur, et vérifiez que les sorties et les actions restent dans les limites prévues par l'application. Vous n'essayez pas de rendre le modèle incapable de tout refuser dans le monde — vous cherchez à vous assurer que dans votre application, il ne peut faire que le travail de votre application.
La sécurité du contenu là où elle compte vraiment
Si votre produit expose réellement une génération ouverte au public sous votre marque — un assistant de rédaction, un chatbot public — alors la sécurité du contenu fait partie de votre problème, et les garde-fous du fournisseur seuls ne couvriront pas vos risques spécifiques. Ajoutez une couche de modération des sorties (un classificateur ou une API de modération) calibrée sur les catégories qui comptent pour votre contexte et votre audience, et journalisez et examinez ce qui est signalé. Faites correspondre le contrôle à l'exposition réelle, plutôt que de traiter chaque application comme si elle était à un contournement de la catastrophe.
En une ligne chacun
- Un contournement (jailbreak) contourne les garde-fous entraînés du modèle ; de nouveaux apparaissent constamment parce que la sécurité est une tendance, pas une règle rigide.
- Les garde-fous du fournisseur concernent surtout la responsabilité du fournisseur — votre problème est ce qu'un utilisateur peut faire dans votre application.
- Concentrez-vous sur l'abus applicatif : échappement de portée, abus de capacité, épuisement des ressources, sorties nuisibles à la réputation.
- Défendez-vous avec les mêmes contrôles architecturaux que pour l'injection ; ajoutez une vraie modération du contenu uniquement là où vous exposez une génération ouverte au public.
Où aller ensuite