Más allá del texto. Multimodalidad y la IA que Ve y Escucha

Hasta ahora hemos tratado a la Inteligencia Artificial como un ratón de biblioteca: le pasamos texto y nos devuelve texto. Pero el mundo real, el de los humanos, está lleno de sonidos, voces e imágenes.

Si queremos construir aplicaciones de última generación (como un asistente de voz en el coche, o un analizador de tickets de soporte técnico que entienda fotografías), necesitamos adentrarnos en la Multimodalidad.

1. ¿Qué significa Multimodal?

Un modelo es unimodal cuando solo entiende un tipo de dato (por ejemplo, ChatGPT en sus inicios solo entendía texto). Un sistema multimodal es capaz de procesar e interrelacionar diferentes tipos de datos (texto, audio, imagen, vídeo).

Hoy en día, el zoológico de modelos open-source nos permite encadenar distintos modelos especializados para crear un pipeline humanoide.


2. El Pipeline de Audio (De Voz a Voz)

Imagina que quieres replicar a «Siri» pero usando IA generativa. No existe un modelo mágico que lo haga todo; es una coreografía de 3 pasos:

  1. Las Orejas (Speech-to-Text / STT): Cuando hablas por el micrófono, el audio (ondas sonoras) llega a un modelo STT. El rey absoluto del open-source aquí es Whisper (creado por OpenAI pero liberado gratuitamente). Whisper escucha el audio, elimina el ruido de fondo y lo transcribe a texto plano con una ortografía perfecta.

  2. El Cerebro (LLM): Ese texto se lo enviamos a nuestro viejo amigo Llama 3 (vía Ollama). El LLM lee tu pregunta transcrita, piensa, y genera una respuesta en texto.

  3. La Boca (Text-to-Speech / TTS): El texto generado se envía a un modelo de síntesis de voz (como ElevenLabs en la nube, o XTTS en local). Este modelo convierte las letras de nuevo en un archivo de audio WAV con una voz natural, entonaciones y pausas, que se reproduce por el altavoz.


3. La IA que Observa (Computer Vision)

La visión ha dado un salto generacional. Ya no solo usamos IA para reconocer si en una foto hay una matrícula de coche; ahora le pedimos a la IA que nos razone sobre lo que está viendo.

  • Image-to-Text (VLM – Vision Language Models): Modelos como LLaVA (Large Language-and-Vision Assistant) son una mezcla de un modelo de visión acoplado a un LLM. Le puedes pasar la foto de la pantalla de tu ordenador con un error azul de Windows y preguntarle: «¿Por qué ha crasheado mi equipo y cómo lo arreglo?». El modelo «lee» los píxeles, extrae el contexto visual y usa su cerebro LLM para darte la solución técnica.

  • Text-to-Image (Difusión): El camino inverso. Modelos como Stable Diffusion toman un prompt de texto y utilizan un proceso llamado «Denoising» (Eliminación de ruido). Empiezan con una imagen llena de «niebla» de píxeles aleatorios y, paso a paso, van limpiando la imagen guiados por las matemáticas hasta revelar la foto hiperrealista que pediste.

4. La llegada de los Modelos Nativos Multimodales

La gran tendencia actual (liderada por GPT-4o o Gemini) es dejar de encadenar modelos distintos y crear Modelos Nativos. Estos modelos han sido entrenados desde el día 1 viendo fotos, escuchando audios y leyendo texto al mismo tiempo en la misma red neuronal. Esto reduce drásticamente la latencia (retraso en responder) y les permite entender el sarcasmo en tu tono de voz, algo que un sistema transcrito a texto siempre perdía.

En nuestro próximo artículo, volveremos a ponernos el sombrero de desarrolladores de backend. Conectaremos todo lo que hemos aprendido sobre vectores y LLMs utilizando el framework que gobierna la industria actual: LangChain.


🚧 Road to Senior: Tareas AI para profundizar

TODO 1 (Arquitectura de Visión): «Explícame cómo funciona internamente el proceso de ‘Denoising’ (Difusión latente) en un modelo como Stable Diffusion para generar imágenes desde cero a partir de texto.»

TODO 2 (Diseño de Producto): «Quiero montar un sistema local con Python que procese un ticket de soporte técnico. El empleado manda un audio explicando el problema y adjunta una foto de un router con la luz en rojo. Diseña el pipeline exacto detallando qué modelos open-source específicos usarías en cada paso de la cadena.»

Categorías