El Cerebro y el Hierro. Cloud APIs vs. Modelos Locales (Ollama) y la Magia de la Cuantización

En nuestro post anterior construimos al «Bibliotecario» (la base de datos vectorial que encuentra la información). Ahora necesitamos al «Escritor»: el Modelo de Lenguaje (LLM) que leerá esa información y redactará una respuesta brillante.

Llegados a este punto, como Arquitectos de Software (y especialmente con la mentalidad SecDevOops), nos enfrentamos a la decisión más crítica de todo el proyecto: ¿Dónde va a vivir ese cerebro?

Tenemos dos caminos: alquilar un cerebro en la nube (Cloud APIs) o descargar un cerebro de código abierto para que viva en nuestro propio hierro (Local). Vamos a diseccionar ambas opciones.

 


1. La Nube (APIs Comerciales): Potencia sin límites

La vía más rápida para construir IA hoy es usar las APIs de gigantes como OpenAI (ChatGPT), Anthropic (Claude) o Google (Gemini).

¿Cómo funciona por dentro? A diferencia de un chat web, cuando conectas tu código a una API, no envías una simple cadena de texto. Envías un JSON estructurado con un array de mensajes y roles:

JSON

 
{
  "model": "gpt-4o",
  "messages": [
    {"role": "system", "content": "Eres un asistente de ciberseguridad. Responde solo con datos del contexto."},
    {"role": "user", "content": "¿Qué es un ataque de Phishing?"}
  ],
  "temperature": 0.2
}
  • Pros: Tienes acceso a los modelos más inteligentes del planeta. No necesitas comprar hardware. Te cobran por «Token» (fracciones de palabras) consumido.

  • Contras (El dilema SecDevOops): Estás enviando los datos privados de tu empresa a un servidor de terceros. Además, si tu aplicación tiene mucho tráfico, la factura mensual puede dispararse a miles de euros. Tienes Vendor Lock-in (dependencia total del proveedor).


2. El Camino Open Source: Modelos Locales y Privacidad Absoluta

Si tu empresa maneja datos médicos, financieros o contraseñas, la nube no es una opción. Necesitas un modelo que se ejecute 100% offline en tus servidores. Aquí entran los héroes del código abierto como Meta (Llama 3) o Mistral.

Para ejecutar esto sin volvernos locos instalando librerías de Python, usamos herramientas como Ollama, que empaquetan el modelo y te lo levantan como un microservicio en tu máquina en cuestión de segundos.

Sin embargo, ejecutar IA localmente tiene un enemigo mortal: El Hardware.


3. El Cuello de Botella de la IA: La VRAM

Los LLMs son redes neuronales gigantescas compuestas por miles de millones de «Parámetros» (pesos matemáticos). Un modelo «pequeño» como Llama 3 (8B) tiene 8 mil millones de parámetros.

Cuando intentas arrancar este modelo, el ordenador tiene que cargar todos esos números en la memoria. Y no sirve la memoria RAM normal o el Disco Duro (son demasiado lentos para multiplicar miles de millones de números por segundo). Se necesita VRAM (Video RAM), la memoria de las Tarjetas Gráficas (GPUs) de NVIDIA.

  • Si tienes GPU: El modelo «escupirá» texto a 60 palabras por segundo.

  • Si no tienes GPU: Ollama usará tu procesador (CPU) y la RAM normal. Funcionará, pero escribirá a unas lentas 5-10 palabras por segundo.


4. La Magia de la Cuantización (GGUF)

Si un modelo de 8B parámetros pesa unos 16 GB en su formato original de alta precisión matemática (FP16 o Flotante de 16 bits), ¿cómo es posible que lo hayamos ejecutado en un portátil normal?

Gracias a un truco de ingeniería llamado Cuantización. Imagina que un parámetro matemático del modelo original es 3.14159265 (muy preciso, pero ocupa mucha memoria). La cuantización lo redondea a 3.14. Pierdes una pequeñísima fracción de «inteligencia», pero a cambio, el número ocupa 4 veces menos espacio.

El formato estándar actual se llama GGUF. Nos permite comprimir modelos a versiones de 4 bits (INT4). Gracias a esto, el Llama 3 que ocupaba 16 GB, ahora cabe en 4.7 GB, permitiendo democratizar la Inteligencia Artificial para que corra en tu portátil de desarrollo.


🚧 Road to Senior: Tareas AI para profundizar

TODO 1 (FinOps): «Calcula una estimación de costes mensuales: Si tengo una aplicación con 10.000 usuarios activos diarios haciendo 5 peticiones (de unos 1000 tokens entre pregunta y respuesta) al día. Compara el coste mensual de usar la API de gpt-4o-mini frente al coste de alquilar un servidor en AWS (EC2 tipo g5.xlarge) para ejecutar Llama 3 en local.»

TODO 2 (Seguridad): «Explícame qué son los Acuerdos de Procesamiento de Datos (DPA) y la política de ‘Zero Data Retention’ cuando se usan APIs de IA comerciales en entornos empresariales europeos sujetos al RGPD.»

Categorías