🧐¿Qué es la IA Generativa (IAG)?

La IA Generativa (IAG) es un tipo de inteligencia artificial que utiliza modelos de aprendizaje basados en redes neuronales. Estos modelos imitan la forma en que los humanos piensan y aprenden, identificando patrones y estructuras dentro de un conjunto de datos. El objetivo es generar contenido nuevo a través de cálculos matemáticos de probabilidad. La IAG es ampliamente utilizada para la generación de texto e imágenes, como es el caso de OpenAI y Midjourney.

🦾¿Cómo funciona?

El modelo que más utilizan las IAG para generar imágenes es el de difusión progresiva. El modelo se entrena con datos (bancos de imágenes) y de forma progresiva va añadiendo ruido a las imágenes degradando por completo las mismas en ruido de píxeles aleatorios. Posteriormente cuando le pedimos que genera una imagen hace el proceso inverso, añadiendo ruido al conjunto de datos de aquellos patrones o conceptos que cumplen con las características solicitadas.

🏋️¿Cómo se entrena para generar imágenes tan realistas?

Para que la IA pueda generar imágenes realistas, necesita ser entrenada con grandes cantidades de datos, tanto de texto como de imágenes. Cuantas más imágenes y texto tenga el modelo, más precisos serán los resultados. Al inicio, las IA solían generar imágenes con errores, como fallos en los dedos. Sin embargo, con más datos y entrenamiento, los resultados han mejorado significativamente.

El proceso de aprendizaje de la IA incluye un fenómeno llamado pareidolia, donde uno ve figuras u objetos familiares en patrones no estructurados, como ver formas de animales en las nubes. Esto es una razón por la cual la IA puede cometer errores. Cuantos más datos e imágenes tenga la IA, mejor podrá reconocer y generar resultados precisos, minimizando estos errores.

Fuente Imagen: La Vanguardia

Las creaciones generadas con IA han mejorado muchísimo en poco tiempo como vemos en este ejemplo:

Fuente Imágenes: Evolución Aprendizaje Midjourney. Quarentineandesign vía Reddit

🎨¿Cómo genera los outputs la IA?

El output que proporciona la IA es el resultado de un proceso matemático y algorítmico. No genera imágenes idénticas a las utilizadas para su entrenamiento. En función de la solicitud del usuario, la IA calcula el resultado más ajustado basado en su conocimiento previo. Aunque pueda parecer que una IA copia imágenes, en realidad está generando nuevas imágenes basadas en patrones y estilos aprendidos.

Por ejemplo, si le pides a la IA que genere un coche de carrera de color rojo, el modelo analizará conceptos como coche, coche de carrera y rojo. Dentro del concepto de coche, considerará una multitud de formas y marcas. Cuantas más imágenes tenga, más probable es que los resultados se ajusten a los patrones habituales del ser humano.

Fuente Propia: Ejemplo coche rojo de carrera

📲Plataformas

Casi todas las plataformas que generan imágenes con IA utilizan el mismo modelo y estructura de entrenamiento y generación de outputs. Sin embargo, existen diferencias entre ellas en cuanto al control que pueda tener el usuario sobre el dataset, el algoritmo y el output generado. Plataformas como Stable Diffusion, que son de código abierto, permiten no solo entrenar con datos de origen propio o selectivo, sino también entender el proceso que hay detrás de lo que genera la IA. En el ámbito artístico, esto se traduce en un control creativo muy distinto entre plataformas, dependiendo también del conocimiento técnico de la persona en la ingeniería de prompting.