Saltar al contenido
Aprende · Guía · Meta

Llama

La familia de modelos de pesos abiertos de Meta, la base más descargada para la IA autoalojada y en dispositivo, libre de ejecutar y de ajustar bajo una licencia comunitaria.

Meta8 min de lecturawww.llama.com

¿Qué es Llama?

Llama es la familia de grandes modelos de lenguaje de pesos abiertos de Meta, una de las bases más descargadas para construir y autoalojar IA. Descargas los pesos y los ejecutas en tu propio hardware o infraestructura en la nube, los ajustas con tus datos o los llamas a través de uno de los muchos proveedores de alojamiento.

La familia abarca desde modelos pequeños que funcionan en un portátil o un teléfono hasta grandes variantes con instrucciones y multimodales, publicadas bajo la licencia comunitaria Llama (ampliamente permisiva, con condiciones solo a muy gran escala). Un rico ecosistema abierto (llama.cpp, Ollama, vLLM y Hugging Face) ha crecido a su alrededor, y Meta AI es el asistente de consumo construido sobre ella.

Si quieres ser dueño del modelo que hace funcionar tu producto (por el coste, la latencia, la privacidad o el ajuste fino), Llama es el punto de partida de pesos abiertos por defecto.

Fortalezas

En lo que brilla

  • El autoalojamiento: ejecuta el modelo enteramente en tu propia infraestructura para que nada salga de tu red.
  • En dispositivo y en el borde: los modelos Llama pequeños se ejecutan localmente en portátiles y teléfonos a través de llama.cpp u Ollama.
  • El ajuste fino: adapta los pesos abiertos a tu dominio, tus datos y tu tono con técnicas como LoRA.
  • El control de costes a gran escala: solo pagas tus propios recursos de cómputo en lugar de una factura por token de un proveedor.
  • El mayor ecosistema abierto: herramientas, cuantizaciones, guías y proveedores de alojamiento son más numerosos que para cualquier otra familia abierta.
  • Los despliegues sensibles a la privacidad y a la residencia de datos donde los datos sencillamente no pueden salir de tu entorno.
Límites

Dónde se queda corto

  • El razonamiento absoluto a la cabeza de las clasificaciones: los mayores modelos cerrados todavía tienden a liderar los benchmarks más difíciles.
  • Los equipos sin ganas de gestionar infraestructura, a menos que llamen a Llama a través de un proveedor de alojamiento gestionado.
  • Un asistente de consumo pulido y llave en mano: Meta AI está orientado al consumidor pero es más limitado que ChatGPT o Gemini, y varía según la región.
  • Las cargas de trabajo que necesitan un nivel de servicio garantizado de entrada: el autoalojamiento traslada la disponibilidad y el soporte técnico a tu equipo.
Cómo usarlo

Obtener los pesos

Descarga Llama desde Hugging Face o llama.com tras aceptar la licencia. Elige un tamaño adaptado a tu hardware y una variante ajustada con instrucciones ("Instruct") para un uso de tipo chat en lugar del modelo base en bruto.

Las versiones cuantizadas (copias más pequeñas y menos precisas) permiten que los modelos más grandes funcionen en GPU modestas e incluso en CPU, cambiando un poco de calidad por mucho alcance.

Cómo usarlo

Ejecutarlo: local o en producción

Para un uso local y en dispositivo, llama.cpp y Ollama permiten poner en marcha un modelo cuantizado en unos minutos. Para el despliegue en producción, vLLM o TGI proporcionan el procesamiento por lotes y un endpoint compatible con OpenAI que tu código existente puede usar.

Si prefieres no gestionar GPU, proveedores como Together, Groq, Fireworks y las grandes nubes sirven Llama por API: pesos abiertos con otra persona gestionando la infraestructura.

Cómo usarlo

Ajuste fino y recuperación

LoRA y QLoRA hacen económico el ajuste fino por dominio: entrenas un pequeño adaptador en lugar del modelo entero, para enseñarle a Llama tu tono, tus formatos o tu jerga.

Para el conocimiento que evoluciona, conserva el modelo base y añade más bien recuperación (RAG) en lugar de grabar los hechos mediante ajuste fino; actualizas un índice en lugar de reentrenar.

Cómo usarlo

Obtener mejores respuestas

Usa las variantes Instruct con un prompt de sistema claro y elige el tamaño más pequeño que pase tus evaluaciones: sobredimensionar un modelo grande malgasta dinero y aumenta la latencia.

Adapta la cuantización al trabajo: una cuantización agresiva sirve para la clasificación o la extracción, menos para el razonamiento complejo. Prueba unas cuantas configuraciones antes de comprometerte.

Precios

Cuánto cuesta Llama

Aproximado, en USD, a fecha de enero de 2026. Los precios cambian a menudo. Confírmalos en el sitio oficial antes de fiarte de ellos.

Pesos abiertos

$0 (autoalojamiento)

Gratis de descargar y ejecutar; solo pagas tus propios recursos de cómputo. La licencia añade condiciones a muy gran escala.

API alojada (terceros)

Por uso

Numerosos proveedores sirven Llama por token, a menudo a bajo coste, sin GPU que gestionar.

Meta AI

$0

El asistente de consumo construido sobre Llama, gratuito allí donde está disponible.

Visita el sitio oficial de Llama
Pruébalo

Ejemplos de prompts

Cópialos en Llama como punto de partida y luego adáptalos a tu tarea.

Elegir el tamaño de modelo adecuado

Quiero ejecutar un agente conversacional en una sola GPU de 24 GB. ¿Qué modelo Llama y qué cuantización debería usar, qué longitud de ventana de contexto es realista y qué rendimiento debería anticipar?

Planificar un ajuste fino

Describe un plan de ajuste fino LoRA para adaptar un modelo Llama Instruct al tono de nuestro soporte técnico. Cubre el tamaño del conjunto de datos, cómo construir el conjunto de evaluación y los errores habituales que evitar.

Diseñar una pila de autoalojamiento

Recomienda una pila de despliegue en producción para Llama en nuestro propio clúster de Kubernetes: motor de servicio, procesamiento por lotes, un endpoint compatible con OpenAI y cómo dimensionar el parque de GPU.

FAQ

Llama
preguntas frecuentes.

Respuestas directas a las preguntas que más nos hacen. Si la tuya no está, escribe al equipo.

Trabaja con SDEN

¿Llevar la IA a producción?

Ayudamos a los equipos a elegir los modelos adecuados y a desplegarlos con seguridad, autoalojados cuando los datos lo exigen. Y te entregamos las llaves para pilotarlos con autonomía.

Llama guide · SDEN