En artículos anteriores de SecDevOops, exploramos las entrañas del Machine Learning (ML) tradicional. Vimos cómo los algoritmos devoraban datos históricos para encontrar patrones y predecir el futuro. Le dábamos a una IA un millón de correos electrónicos y aprendía a poner una etiqueta: Spam o No Spam. Le dábamos datos de viviendas y nos predecía el precio de una casa.
Pero hoy, el mundo ha cambiado. Ya no solo queremos que las máquinas clasifiquen o predigan etiquetas; queremos que creen. Bienvenidos al fascinante mundo de la Inteligencia Artificial Generativa y la Ingeniería de IA.
Si quieres pasar de ser un espectador que usa ChatGPT a un verdadero Ingeniero de IA capaz de construir arquitecturas en producción, el primer paso es desaprender un mito: la IA no es solo un chatbot.
Vamos a cruzar el puente hacia la IA moderna.
1. El Cambio de Paradigma: Modelos Discriminativos vs. Generativos
Para entender dónde estamos, hay que entender la diferencia matemática fundamental en cómo las IAs procesan la realidad.
IA Clásica (Modelos Discriminativos): Su trabajo es dibujar una frontera. Imagina un plano lleno de puntos azules (gatos) y puntos rojos (perros). La IA clásica traza una línea matemática para separar ambos. Cuando le das una foto nueva, mira de qué lado de la línea cae y «discrimina» (decide) qué es. Es analítica, rígida y muy útil para la ciberseguridad (detectar anomalías) o los negocios (predecir ventas).
IA Moderna (Modelos Generativos): Su trabajo no es separar, es entender las «reglas de creación» de esos puntos. Aprende cómo está construido matemáticamente un «gato». Una vez que entiende esa distribución probabilística, puede generar el píxel 1, luego el píxel 2, hasta crear la imagen de un gato que jamás ha existido.
En el mundo del texto, esto se traduce en predecir el siguiente elemento (Token). Un modelo generativo de lenguaje (LLM) ha leído tanto texto humano que, si le das la frase «En un lugar de la…», calcula matemáticamente que la siguiente palabra más probable es «Mancha». Al repetir este proceso miles de veces por segundo, crea respuestas completas y coherentes.
2. La Revolución «Transformer»: El secreto de la memoria
Si predecir la siguiente palabra es tan simple, ¿por qué la IA no explotó hasta hace un par de años? Porque a los modelos antiguos les faltaba algo crucial: el contexto a largo plazo.
Antes de 2017, si le dabas a una IA un texto largo, para cuando llegaba al final del párrafo, ya había olvidado de qué trataba la primera línea. Esto cambió radicalmente cuando los investigadores de Google publicaron un documento científico llamado «Attention is All You Need», presentando la arquitectura Transformer.
El gran avance del Transformer es un mecanismo llamado Auto-Atención (Self-Attention). En lugar de leer palabra por palabra de izquierda a derecha, el Transformer mira todas las palabras de una frase a la vez y calcula una «puntuación de atención» entre ellas.
Si en un texto aparece la frase: «El banco del parque estaba roto, así que no pude sentarme», el modelo de atención conecta matemáticamente la palabra «banco» con «parque» y «sentarme», descartando por completo el significado de entidad financiera. Esta capacidad de entender el contexto profundo es lo que hace que los modelos actuales parezcan «inteligentes».
3. El Síndrome del «Martillo de Oro» y el Zoológico de Modelos
El mayor error de un desarrollador novato en IA es pensar que «ChatGPT sirve para todo». Como el modelo es tan bueno, intentan usar un Modelo de Lenguaje Grande (LLM) gigantesco y costoso para tareas simples. Es como usar un Ferrari para ir a comprar el pan a la esquina.
Un Ingeniero de IA real conoce el Zoológico de Modelos. Si entras en plataformas como Hugging Face (el equivalente a GitHub para la Inteligencia Artificial), verás que existen cientos de miles de modelos open-source hiper-especializados, gratuitos y que puedes ejecutar en tu propio ordenador:
Modelos de Procesamiento de Lenguaje Natural (NLP):
LLMs Generativos (Ej: Llama 3, Mistral): Los «escritores». Ideales para redactar, resumir o razonar. Son grandes y pesados.
Modelos de Embeddings (Ej: MiniLM, BERT): Los «bibliotecarios». No saben hablar, pero son increíblemente rápidos leyendo textos masivos y convirtiéndolos en coordenadas matemáticas para poder hacer búsquedas semánticas.
Modelos de Visión por Computador:
Generativos (Ej: Stable Diffusion): Crean imágenes a partir de texto.
Clasificadores y Detectores (Ej: YOLO): Rápidos como un rayo. Pueden procesar vídeo en tiempo real para contar cuántos coches cruzan un semáforo.
Modelos de Audio:
Speech-to-Text (Ej: Whisper de OpenAI): Escuchan un audio y lo transcriben a texto con precisión casi humana, incluyendo puntuación.
Text-to-Speech (TTS): Generan voces hiperrealistas a partir de un texto.
El arte de la arquitectura AI: Si quieres crear un sistema de atención telefónica, no usas solo un LLM. Usas Whisper para entender lo que dice el cliente (audio a texto) -> un LLM para pensar la respuesta (texto a texto) -> un TTS para hablarle de vuelta (texto a audio). Ensamblar estas piezas de forma eficiente es tu verdadero trabajo.
4. El Secreto de Producción: Modelo Base vs. Modelo Instructivo (Chat)
Si alguna vez te descargas un LLM puro desde Hugging Face y tratas de hablar con él, es muy probable que te lleves una decepción brutal. ¿Por qué? Porque debes entender la diferencia entre un modelo Base y un modelo Instructivo.
El Modelo Base (Pre-entrenado): Es un autocompletador puro. Ha leído todo internet, pero no sabe que quieres conversar con él. Si a un modelo base le mandas este prompt: «¿Cuál es la capital de España?», el modelo base no te responderá «Madrid». Probablemente autocompletará diciendo: «¿Cuál es la capital de Francia? ¿Cuál es la capital de Italia?». Simplemente detectó el patrón de un cuestionario de geografía y siguió generando preguntas.
El Modelo Instructivo (Fine-Tuned / Chat): Es un modelo base que ha pasado por un entrenamiento adicional llamado RLHF (Aprendizaje por Refuerzo a partir de Retroalimentación Humana). Básicamente, miles de humanos han jugado a hacerle preguntas y premiar las respuestas que tenían formato de «Asistente útil». Estos son los modelos que usamos hoy en día (como
Llama-3-Instructogpt-4o). Entienden órdenes, formatos y saben cuándo deben dejar de escribir.
Entender qué modelo elegir, para qué tarea específica, y qué formato requiere, es el cimiento sobre el que construiremos nuestras propias aplicaciones RAG y Agentes autónomos en los próximos artículos.
🚧 Road to Senior: Tareas AI para profundizar
No te quedes solo con la teoría. Un ingeniero se ensucia las manos. Abre tu instancia local de Ollama (con Llama 3) o usa tu cuenta gratuita de ChatGPT, y pégale estos prompts exactos para obligar a la IA a darte una clase magistral avanzada:
TODO 1 (Arquitectura de Redes): «Actúa como un profesor universitario de ciencias de la computación. Hazme una tabla comparativa técnica explicando las diferencias entre la arquitectura Transformer (usada en LLMs para texto) y la arquitectura de Difusión (usada en modelos como Midjourney para crear imágenes). Explícalo con analogías para que lo entienda fácilmente.»
TODO 2 (Diseño de Sistemas): «Actúa como un Arquitecto de Software en la nube. Tengo un requerimiento de negocio para transcribir las grabaciones de llamadas de un call center, detectar si el cliente estaba enfadado, y guardar un resumen en la base de datos. Diseña una arquitectura por pasos indicando qué tipo específico de modelo de IA open-source usarías en cada fase de la tubería y por qué no usarías simplemente ChatGPT para todo.»

