En nuestro post anterior construimos al «Bibliotecario» (la base de datos vectorial que encuentra la información). Ahora necesitamos al «Escritor»: el Modelo de Lenguaje (LLM) que leerá esa información y redactará una respuesta brillante.
Llegados a este punto, como Arquitectos de Software (y especialmente con la mentalidad SecDevOops), nos enfrentamos a la decisión más crítica de todo el proyecto: ¿Dónde va a vivir ese cerebro?
Tenemos dos caminos: alquilar un cerebro en la nube (Cloud APIs) o descargar un cerebro de código abierto para que viva en nuestro propio hierro (Local). Vamos a diseccionar ambas opciones.
1. La Nube (APIs Comerciales): Potencia sin límites
La vía más rápida para construir IA hoy es usar las APIs de gigantes como OpenAI (ChatGPT), Anthropic (Claude) o Google (Gemini).
¿Cómo funciona por dentro? A diferencia de un chat web, cuando conectas tu código a una API, no envías una simple cadena de texto. Envías un JSON estructurado con un array de mensajes y roles:
JSON
{
"model": "gpt-4o",
"messages": [
{"role": "system", "content": "Eres un asistente de ciberseguridad. Responde solo con datos del contexto."},
{"role": "user", "content": "¿Qué es un ataque de Phishing?"}
],
"temperature": 0.2
}
Pros: Tienes acceso a los modelos más inteligentes del planeta. No necesitas comprar hardware. Te cobran por «Token» (fracciones de palabras) consumido.
Contras (El dilema SecDevOops): Estás enviando los datos privados de tu empresa a un servidor de terceros. Además, si tu aplicación tiene mucho tráfico, la factura mensual puede dispararse a miles de euros. Tienes Vendor Lock-in (dependencia total del proveedor).
2. El Camino Open Source: Modelos Locales y Privacidad Absoluta
Si tu empresa maneja datos médicos, financieros o contraseñas, la nube no es una opción. Necesitas un modelo que se ejecute 100% offline en tus servidores. Aquí entran los héroes del código abierto como Meta (Llama 3) o Mistral.
Para ejecutar esto sin volvernos locos instalando librerías de Python, usamos herramientas como Ollama, que empaquetan el modelo y te lo levantan como un microservicio en tu máquina en cuestión de segundos.
Sin embargo, ejecutar IA localmente tiene un enemigo mortal: El Hardware.
3. El Cuello de Botella de la IA: La VRAM
Los LLMs son redes neuronales gigantescas compuestas por miles de millones de «Parámetros» (pesos matemáticos). Un modelo «pequeño» como Llama 3 (8B) tiene 8 mil millones de parámetros.
Cuando intentas arrancar este modelo, el ordenador tiene que cargar todos esos números en la memoria. Y no sirve la memoria RAM normal o el Disco Duro (son demasiado lentos para multiplicar miles de millones de números por segundo). Se necesita VRAM (Video RAM), la memoria de las Tarjetas Gráficas (GPUs) de NVIDIA.
Si tienes GPU: El modelo «escupirá» texto a 60 palabras por segundo.
Si no tienes GPU: Ollama usará tu procesador (CPU) y la RAM normal. Funcionará, pero escribirá a unas lentas 5-10 palabras por segundo.
4. La Magia de la Cuantización (GGUF)
Si un modelo de 8B parámetros pesa unos 16 GB en su formato original de alta precisión matemática (FP16 o Flotante de 16 bits), ¿cómo es posible que lo hayamos ejecutado en un portátil normal?
Gracias a un truco de ingeniería llamado Cuantización. Imagina que un parámetro matemático del modelo original es 3.14159265 (muy preciso, pero ocupa mucha memoria). La cuantización lo redondea a 3.14. Pierdes una pequeñísima fracción de «inteligencia», pero a cambio, el número ocupa 4 veces menos espacio.
El formato estándar actual se llama GGUF. Nos permite comprimir modelos a versiones de 4 bits (INT4). Gracias a esto, el Llama 3 que ocupaba 16 GB, ahora cabe en 4.7 GB, permitiendo democratizar la Inteligencia Artificial para que corra en tu portátil de desarrollo.
Road to Senior: Tareas AI para profundizar
TODO 1 (FinOps): «Calcula una estimación de costes mensuales: Si tengo una aplicación con 10.000 usuarios activos diarios haciendo 5 peticiones (de unos 1000 tokens entre pregunta y respuesta) al día. Compara el coste mensual de usar la API de gpt-4o-mini frente al coste de alquilar un servidor en AWS (EC2 tipo g5.xlarge) para ejecutar Llama 3 en local.»
TODO 2 (Seguridad): «Explícame qué son los Acuerdos de Procesamiento de Datos (DPA) y la política de ‘Zero Data Retention’ cuando se usan APIs de IA comerciales en entornos empresariales europeos sujetos al RGPD.»

