Qu'est-ce que Llama ?
Llama est la famille de grands modèles de langage à poids ouverts de Meta, parmi les bases les plus téléchargées pour construire et autohéberger de l'IA. Vous téléchargez les poids et les exécutez sur votre propre matériel ou infrastructure cloud, les affinez sur vos données, ou les appelez via l'un des nombreux fournisseurs d'hébergement.
La famille couvre de petits modèles fonctionnant sur un ordinateur portable ou un téléphone jusqu'à de grandes variantes avec instructions et multimodales, publiées sous la licence communautaire Llama (largement permissive, avec des conditions uniquement à très grande échelle). Un riche écosystème ouvert — llama.cpp, Ollama, vLLM et Hugging Face — a grandi autour d'elle, et Meta AI est l'assistant grand public construit dessus.
Si vous souhaitez posséder le modèle qui fait tourner votre produit — pour le coût, la latence, la confidentialité ou l'ajustement fin — Llama est le point de départ à poids ouverts par défaut.
Ce pour quoi il excelle
- L'autohébergement — exécutez le modèle entièrement sur votre propre infrastructure pour que rien ne quitte votre réseau.
- Sur appareil et en périphérie — les petits modèles Llama s'exécutent localement sur des ordinateurs portables et des téléphones via llama.cpp ou Ollama.
- L'ajustement fin — adaptez les poids ouverts à votre domaine, vos données et votre ton avec des techniques comme LoRA.
- Le contrôle des coûts à grande échelle — ne payez que vos propres ressources de calcul plutôt qu'une facture par jeton chez un fournisseur.
- Le plus large écosystème ouvert — outils, quantifications, guides et fournisseurs d'hébergement sont plus nombreux que pour toute autre famille ouverte.
- Les déploiements sensibles à la confidentialité et à la résidence des données où les données ne peuvent tout simplement pas quitter votre environnement.
Où il faiblit
- Le raisonnement absolu en tête des classements — les plus grands modèles fermés ont encore tendance à mener les benchmarks les plus difficiles.
- Les équipes sans appétit pour gérer une infrastructure — à moins qu'elles n'appellent Llama via un fournisseur d'hébergement géré.
- Un assistant grand public soigné et clé en main — Meta AI est orienté consommateur mais plus limité que ChatGPT ou Gemini, et varie selon la région.
- Les charges de travail nécessitant un niveau de service garanti d'emblée — l'autohébergement transfère la disponibilité et le soutien technique sur votre équipe.
Obtenir les poids
Téléchargez Llama depuis Hugging Face ou llama.com après avoir accepté la licence. Choisissez une taille adaptée à votre matériel et une variante ajustée avec instructions (« Instruct ») pour une utilisation de type chat plutôt que le modèle de base brut.
Les versions quantifiées (copies plus petites et moins précises) permettent aux modèles plus grands de fonctionner sur des GPU modestes voire sur CPU, en échangeant un peu de qualité pour beaucoup de portée.
L'exécuter : local ou en production
Pour une utilisation locale et sur appareil, llama.cpp et Ollama permettent de faire tourner un modèle quantifié en quelques minutes. Pour le déploiement en production, vLLM ou TGI fournissent le traitement par lots et un point de terminaison compatible OpenAI que votre code existant peut utiliser.
Si vous préférez ne pas gérer de GPU, des fournisseurs comme Together, Groq, Fireworks et les grands nuages servent Llama par API — des poids ouverts avec quelqu'un d'autre qui gère l'infrastructure.
Ajustement fin et récupération
LoRA et QLoRA rendent l'ajustement fin par domaine économique — vous entraînez un petit adaptateur plutôt que le modèle entier — pour apprendre à Llama votre ton, vos formats ou votre jargon.
Pour les connaissances qui évoluent, conservez le modèle de base et ajoutez plutôt de la récupération (RAG) au lieu de graver les faits par ajustement fin ; vous mettez à jour un index plutôt que de réentraîner.
Obtenir de meilleures réponses
Utilisez les variantes Instruct avec un prompt système clair, et choisissez la plus petite taille qui passe vos évaluations — sur-provisionner un grand modèle gaspille de l'argent et augmente la latence.
Adaptez la quantification au travail : une quantification agressive convient pour la classification ou l'extraction, moins pour le raisonnement complexe. Testez quelques configurations avant de vous engager.
Ce que coûte Llama
Approximatif, en USD, en date de janvier 2026. Les prix changent souvent — confirmez sur le site officiel avant de vous y fier.
Poids ouverts
$0 (autohébergement)
Gratuit à télécharger et à exécuter ; vous ne payez que vos propres ressources de calcul. La licence ajoute des conditions à très grande échelle.
API hébergée (tiers)
À l'usage
De nombreux fournisseurs servent Llama par jeton, souvent à faible coût, sans GPU à gérer.
Meta AI
$0
L'assistant grand public construit sur Llama, gratuit là où il est disponible.
Exemples de prompts
Copiez-les dans Llama comme points de départ, puis adaptez-les à votre tâche.
Choisir la bonne taille de modèle
Je veux exécuter un agent conversationnel sur un seul GPU de 24 Go. Quel modèle Llama et quelle quantification devrais-je utiliser, quelle longueur de fenêtre de contexte est réaliste, et quel débit devrais-je anticiper ?
Planifier un ajustement fin
Décrivez un plan d'ajustement fin LoRA pour adapter un modèle Llama Instruct au ton de notre soutien technique. Couvrez la taille du jeu de données, comment construire le jeu d'évaluation et les écueils courants à éviter.
Concevoir une pile d'autohébergement
Recommandez une pile de déploiement en production pour Llama sur notre propre grappe Kubernetes : moteur de service, traitement par lots, un point de terminaison compatible OpenAI, et comment dimensionner le parc de GPU.
Llama —
questions fréquentes.
Des réponses directes aux questions qu'on nous pose le plus souvent. Si la vôtre n'y est pas, écrivez à l'équipe.