rmbit - La bitácora personal de Ricardo Martín
La bitácora personal de Ricardo Martín
Comentando cosas desde 2004
23 de mayo de 2024

Probando Stable Diffusion 3

Hace ya unos pocos años que la inteligencia artificial entró en nuestras vidas. Recuerdo cuando durante la carrera, hace ya casi veinticinco años, teníamos una asignatura llamada Sistemas Expertos donde tocábamos muy de pasada el asunto de las redes neuronales, uno de los fundamentos teóricos del aprendizaje artificial. Desde entonces hemos visto un desarrollo que ha ido parejo al crecimiento de la potencia de computación hasta el punto de que hoy día cualquier interacción con esta inteligencia nos parezca magia. Primero se popularizaron los chats de texto y después los llamados text to image. Tres son los sistemas que pugnan entre sí para conseguir que nuestro texto se convierta en una imagen: Dall-E que puede utilizarse gratuitamente en Microsoft Copilot Designer, Midjourney, usable a través de Discord, y Stable Diffusion, un sistema de código abierto basado en modelos especializados en diferentes tipos de tratamiento de imágenes.

Aunque Dall-E a través de Copilot da unos resultados muy buenos, no termina de convencerme. Midjourney me resulta demasiado complejo y apenas lo he utilizado. Me he centrado en Stable Diffusion 3 para hacer mis pruebas de generación de imágenes, tanto por la calidad de resultados (permite realizar imágenes bastante grandes y fotorrealistas) como por su versatilidad a la hora de redactar un texto indicativo de como ha de ser la imagen (o prompt en el argot). Existen multitud de sitios en internet donde probar Stable Diffusion con sus diferentes modelos, aunque quizás Civitai sea la principal, donde además podemos descargar los modelos gratuitamente. Para aprender lo básico yo he seguido los estupendos tutoriales para principiantes de Stable Diffusion Art.

He instalado Stable Diffusion junto con el interfaz web AUTOMATIC1111 en uno de mis Macs en cuestión de unos pocos minutos. En realidad, lo complejo de su uso se basa en su versatilidad. Recomiendo leer mucho sobre como escribir prompts correctamente, entender los conceptos de como funciona SD para poder sacarle todo el partido, ya que en un principio la tentación de poder escribir cualquier cosa de cualquier manera nos lleva a textos desordenados, confusos también para la inteligencia artificial y por tanto con resultados decepcionantes.

Lo más interesante es que con un ordenador de potencia media (o incluso baja sin tarjeta gráfica dedicada) se puede empezar a trabajar. Eso sí, el método de prueba-error hace que haya que armarse de paciencia hasta depurar el prompt y conseguir lo que queremos. Es muy recomendable echar un ojo a las webs de prompts (como PromptHero) para orientarse de como organizar nuestras instrucciones.

No hay duda de que estamos aún en la prehistoria de este tipo de aplicaciones, y ahora nos parecen sorprendentes, pero se incorporarán a nuestras vidas en poco tiempo para ayudarnos en los procesos creativos, tanto a los que nos gusta la fotografía o el diseño gráfico como a los que simplemente son curiosos y quieren generar imágenes a medida por el simple hecho de generarlas…



rmbit está bajo una licencia de Creative Commons.
Plantilla de diseño propio en constante evolución.
Página servida en 0,070 segundos.
Gestionado con WordPress