Saltar al contenido
Capítulo 02 · 12 min

Cómo aprenden los modelos

Entrenar un modelo no es programar. Es un proceso largo, tonto y repetitivo que empuja miles de millones de números un poquito cada vez hasta que el sistema deja de equivocarse tan a menudo. Esto es lo que ocurre de verdad.

The training loop, as a metaphorA circular loop with four stations (example, prediction, compare, nudge) repeating endlessly. Each lap, the model gets a tiny bit less wrong.examplepredictioncomparenudge× 1 TRILLION

Enseñar con el ejemplo, con millones de ejemplos y un becario incansable.

La receta en tres pasos

Todo el entrenamiento de IA moderno se reduce a: (1) mostrarle un ejemplo al modelo, (2) medir cuánto se equivocó, (3) ajustar sus perillas para que se equivoque un poco menos la próxima vez. Luego repetir ese bucle entre mil millones y un billón de veces.

La medición de «cuánto se equivocó» se llama la pérdida. El paso de «ajustar las perillas» se llama descenso de gradiente. Juntos son todo el motor del aprendizaje automático. Todas las demás palabras (transformer, atención, fine-tuning, RLHF) son refinamientos de una de esas dos ideas.

The training loopA horizontal flow: input → prediction → loss (how wrong) → gradient → update, then a feedback arrow loops the updated parameters back to the input for the next example.inputpredictionlossgradientupdaterepeat ~1 trillion times“HOW WRONG?”
Los mismos cinco pasos, repetidos alrededor de un billón de veces. Todas las demás técnicas de este curso son un refinamiento de este bucle.

Tres tipos de «ejemplo»

Lo que cuenta como ejemplo depende de lo que quieras que el modelo aprenda. Hay tres configuraciones principales, y cualquier sistema de IA serio usa alguna combinación de las tres.

Aprendizaje supervisado. Cada ejemplo va emparejado con la respuesta correcta. «Esta foto → gato. Este correo → spam.» El modelo aprende la correspondencia. La mayoría del aprendizaje automático clásico (detección de fraude, imagen médica, recomendación) es supervisado. Necesita etiquetas, lo que implica humanos, lo que implica que es caro.

Aprendizaje autosupervisado. El modelo inventa sus propias etiquetas a partir de los propios datos. Dada una frase con una palabra que falta, predecir la palabra. Dada la primera mitad de un párrafo, predecir la segunda. Así es como se preentrena cada gran modelo de lenguaje moderno, y es la razón más importante de que escalen. Las etiquetas son gratis porque internet las escribe por ti.

Aprendizaje por refuerzo. El modelo realiza acciones en algún entorno y recibe una señal de recompensa: una puntuación alta, una victoria, un clic o un «me gusta». Ajusta su comportamiento para perseguir la recompensa. Así aprendió AlphaGo a vencer a los campeones de go, y así se pulen los modelos de chat tras el preentrenamiento.

Preentrenamiento frente a fine-tuning

Los LLM modernos se construyen en dos fases, y la distinción importa cuando lees anuncios.

El preentrenamiento es la pasada gigantesca, cara y autosupervisada: predecir la siguiente palabra sobre billones de palabras de internet, libros y código. Ahí va el 99 % del cómputo. Lo que sale es un modelo que conoce hechos y lenguaje pero no tiene modales; completará con gusto «Cómo fabrico una bo» como «estantería» o como algo mucho peor.

El fine-tuning es una pasada supervisada o por refuerzo mucho más corta y barata que moldea el modelo preentrenado para convertirlo en algo útil: un asistente de chat, un completador de código, un agente de atención al cliente. El fine-tuning enseña comportamiento, no conocimiento. Si el modelo base no sabe quién escribió *Anna Karénina*, el fine-tuning no lo arreglará.

Sobreajuste: el único modo de fallo que necesitas conocer

Todo el sentido del entrenamiento es que el modelo debe funcionar con ejemplos que *nunca ha visto*. Un modelo que memoriza a la perfección sus datos de entrenamiento pero suspende con entradas nuevas es inútil. Este modo de fallo se llama sobreajuste, y evitarlo es la mayor parte de lo que separa a un sistema de aprendizaje automático que funciona de uno roto.

Visualízalo: estás ajustando una curva a través de puntos dispersos. Una recta puede fallar muchos puntos pero captar la tendencia general. Una curva muy sinuosa puede pasar exactamente por cada punto y predecir disparates entre ellos. Los datos de entrenamiento reales tienen ruido. Tu trabajo es aprender la señal, no el ruido.

La defensa estándar es un conjunto de validación apartado: una porción de datos con la que el modelo nunca se entrena. Vigilas la pérdida de validación a medida que avanza el entrenamiento. En el instante en que empieza a subir mientras la pérdida de entrenamiento sigue bajando, paras. El modelo ha empezado a memorizar en lugar de generalizar.

Overfitting: training loss vs validation lossTwo curves over training steps. Training loss keeps falling smoothly. Validation loss falls, bottoms out, then rises. Stop training at the bottom of the validation curve; past that point the model is memorising, not learning.losstraining steps →stop heretraining lossvalidation loss
La pérdida de entrenamiento sigue bajando, pero la pérdida de validación toca fondo y empieza a subir. Detente en el fondo de la curva naranja.

Por qué el entrenamiento tarda meses y cuesta millones

Una ejecución de entrenamiento de un LLM puntero en 2025 cuesta entre decenas y cientos de millones de dólares y se ejecuta durante semanas en decenas de miles de GPU. El coste lo domina una sola cosa: el bucle se ejecuta billones de veces, y cada pasada toca cada parámetro.

La inferencia (usar de verdad el modelo entrenado) es mucho más barata por llamada, pero se acumula a escala. La economía de la IA es: el entrenamiento es un gasto de capital puntual; la inferencia es el gasto operativo continuo. Cada decisión de producto (tamaño del modelo, longitud del contexto, agrupación por lotes) deriva de esa separación.

Una línea por cada uno

  • Entrenamiento = mostrar un ejemplo, medir el error (pérdida), ajustar los parámetros (descenso de gradiente). Repetir un billón de veces.
  • El supervisado necesita etiquetas; el autosupervisado las inventa a partir de los datos; el refuerzo aprende a partir de la recompensa.
  • Los LLM se construyen en dos fases: un preentrenamiento autosupervisado masivo, y luego un fine-tuning corto que enseña comportamiento.
  • El enemigo del entrenamiento es el sobreajuste, que significa memorizar los datos en lugar de aprender el patrón.