Autor Tema: La revolución que suponen las IA generativas de imágenes a partir de texto  (Leído 5421 veces)

0 Usuarios y 1 Visitante están viendo este tema.

Desconectado empardopo

  • Admin
  • *
  • Mensajes: 21746
  • Gracias 761
  • Espero mejorar al KungFu Master!
    • Mi canal de Youtube
  • Ciudad: Norte de África
  • Pais: Escoña
  • Iniciales nick: EPP
Re: La revolución que suponen las IA generativas de imágenes a partir de texto
« Respuesta #60 en: Abril 27, 2023, 09:13:05 pm »
Advertisement
Lo del pixel art estaría chulo que pudiera crear un spritesheet; ya sabes, hacer alguna animación para poder usar en juegos... :-)

De hecho se puede... Algunos modelos lo permiten y luego está la posibilidad de usar ControlNet con Openpose (el que permite clonar poses de imágenes previas o de una imagen con unos monigotes a base de líneas de colores). Los usuarios descubrieron que la forma de generar un mismo personaje en varias poses diferentes y mantener la consistencia (es decir, que aparezca con el mismo aspecto y ropa en todas ellas) era crear una imagen con varios muñecos de estos de poses en la misma imagen y que todas fueran el mismo personaje. De esta forma, puedes hacer una matriz de imágenes con el monigote de las poses con los distintos fotogramas de una animación y generar la animación de un personaje o una hoja de concept art. Aquí tienes varios ejemplos creados de dicha manera:






Jolín, pues esto sí que lo veo muy muy interesante!

Desconectado sirdrak

  • VIP
  • *
  • Mensajes: 1327
  • Gracias 60
  • Ciudad: Sevilla
Voy a comentar algunas novedades muy interesantes que aumentan aún más el potencial de Stable Diffusion. Anteriormente ya os hablé de la extensión ControlNet, que tiene varios modelos que añaden una capa extra de control a la generación de imágenes usando como referencia una imagen de partida, con modelos que permiten clonar posturas de personajes, hacer un mapa de profundidad de la imagen de partida para aplicarlo a la imagen final y muchas cosas más. Hace poco, la extensión se actualizó a su versión 1.1 e introdujo varios nuevos tipos de modelos con nuevas funcionalidades, algunas de ellas muy interesantes. De todas ellas yo destacaría la siguiente:

- Modelos que permiten colorear un lineart de un dibujo sin modificar dicho dibujo. Esto es el sueño de todo artista, porque ahorra muchísimo trabajo, todo el paso que va desde el trazado del dibujo hasta el coloreado, añadir sombras, luces, un fondo y efectos especiales al dibujo final, como podéis ver en los siguientes ejemplos del Github de la extensión:





Incluso se pueden recolorear y cambiar los colores de una ilustración completa con colores y todo:




Pero además de lo anterior, la última novedad es de ayer, y se trata de un modo llamado 'Reference only', que no necesita ni siquiera de un modelo de ControlNet específico, sino sólo de una imagen de partida como referencia y un prompt, y que lo que hace básicamente es crear imágenes similares a la original pero haciendo lo que le indiques en el prompt. De esta forma parece que por fin será posible hacer que una persona o personaje, partiendo únicamente de una imagen suya inicial, salga en varias posiciones o con diferentes expresiones de manera consistente sin necesidad de entrenar un LoRA para ello.... Lo mejor es ver un ejemplo en el siguiente video:

« Última modificación: Mayo 14, 2023, 02:41:19 pm por sirdrak »

Desconectado sirdrak

  • VIP
  • *
  • Mensajes: 1327
  • Gracias 60
  • Ciudad: Sevilla
Bueno, pues para celebrar la salida de Zelda Tears of the Kingdom (y en especial que en sólo 3 días ha vendido 10 millones de unidades), he hecho algunas imágenes de Zelda y de ese nuevo personaje femenino misterioso que ha hecho furor desde que apareció en los trailers cuyo nombre no diré para no hacer spoilers:




























Tengo que felicitar al que ha hecho el LoRA del personaje misterioso porque le ha salido genial usando tan sólo 15 imágenes para el entrenamiento. El modelo que he usado, en mi opinion uno de los mejores para ilustraciones semirrealistas, es revAnimated1.22, que se está convirtiendo en uno de mis favoritos...


Desconectado empardopo

  • Admin
  • *
  • Mensajes: 21746
  • Gracias 761
  • Espero mejorar al KungFu Master!
    • Mi canal de Youtube
  • Ciudad: Norte de África
  • Pais: Escoña
  • Iniciales nick: EPP
Bueno, pues para celebrar la salida de Zelda Tears of the Kingdom (y en especial que en sólo 3 días ha vendido 10 millones de unidades), he hecho algunas imágenes de Zelda y de ese nuevo personaje femenino misterioso que ha hecho furor desde que apareció en los trailers cuyo nombre no diré para no hacer spoilers:




























Tengo que felicitar al que ha hecho el LoRA del personaje misterioso porque le ha salido genial usando tan sólo 15 imágenes para el entrenamiento. El modelo que he usado, en mi opinion uno de los mejores para ilustraciones semirrealistas, es revAnimated1.22, que se está convirtiendo en uno de mis favoritos...



Sin tenerlo ni haberlo usado estoy viendo que también se va a convertir en uno de mis favoritos! Madre mía!

Desconectado sirdrak

  • VIP
  • *
  • Mensajes: 1327
  • Gracias 60
  • Ciudad: Sevilla
Re: La revolución que suponen las IA generativas de imágenes a partir de texto
« Respuesta #64 en: Julio 15, 2023, 12:37:04 am »
Pues ahora, en mis experimentos con la IA, he dado accidentalmente con una combinación de modelos que me generan imágenes de un estilo que recuerdan a las espectaculares portadas de Dinamic de Luis Royo... Básicamente estaba probando el mini-modelo que entrené yo con el estilo de Azpiri sobre un modelo para generar imágenes semirrealistas muy popular que se llama RevAnimated (el que usé para crear las imágenes anteriores de los personajes de Zelda TOTK), junto con otro mini-modelo experimental que descargué que lo que hace es añadir mayor detalle a las imágenes, tal que así:

De esto:


A esto:


Sin embargo, en la combinación que hice el resultado fue no sólo que añadía más detalle sino que cambiaba de forma espectacular el estilo con imágenes que bien podrían ser directamente portada de algún juego de la época (sin edición de ningún tipo, directamente). El ejemplo más claro es este:



Como véis, tiene esa gran cantidad de detalles, cuerpo femenino espectacular y contrastes rojo/naranja y azules, fuego/explosiones/agua y similares que se veían en carátulas como las de Navy Moves o Satán de Luis Royo. Y ahora pondré algunos otros ejemplos de temáticas variadas para que podáis ver:




















« Última modificación: Julio 15, 2023, 12:39:01 am por sirdrak »

Desconectado sirdrak

  • VIP
  • *
  • Mensajes: 1327
  • Gracias 60
  • Ciudad: Sevilla
Re: La revolución que suponen las IA generativas de imágenes a partir de texto
« Respuesta #65 en: Julio 20, 2023, 10:19:02 pm »
Voy aquí hoy con las últimas novedades interesantes, ya que hay dos muy importantes... La primera es la aparición de una extensión llamada Roop que permite poner la cara de una persona de una imagen previa a la imagen que estés generando, con una sola foto y sin necesidad de entrenar un LoRA, que funciona muy bién, y la segunda, y más importante, es que está a punto de salir la siguiente versión de Stable Diffusion, Stable Diffusion XL, que es un paso adelante muy importante que rivaliza literalmente con la calidad de las imágenes de la última versión de Midjourney pero sin censura y por supuesto gratis al ser opensource. Estos días Stability.Ai (la empresa responsable de Stable Diffusion) puso a disposición del público SDXL 0.9 una versión cercana a la final, para que la gente la pudiera probar accediento a su web oficial. Después se filtró el modelo y la misma Stability.Ai decidió ponerlo oficialmente para descarga debido a ello, aunque la versión final tenía previsto salir el día 18 de este mes, pero al final han decidido retrasarlo.

La versión 0.9 de SD XL es bastante impresionante, simplemente probándola en la web oficial (que sólo puedes poner prompt positivo y nada más, no hay ni prompt negativo) ya salen resultados espectaculares:

















Incluso es un filón para hacer memes, como estos de mi cosecha del Papa jugando a una recreativa en un pub:




O estos de Donald Trump en la marcha del Orgullo:





Además de todo esto, estos dos últimos días me he entretenido en volver a hacer una prueba que recordaréis de cuando llevaba poco tiempo experimentando con Stable Diffusion: Crear imágenes de los personajes de Gauntlet usando Stable Diffusion y la extensión ControlNET a partir de los bocetos que dibujé hace unos años. Sin embargo, esta vez lo he hecho con la última versión de la extensión, y con el estilo con el que he creado las últimas imágenes, con el siguiente espectacular resultado:






En cuanto a SD XL 0.9, se puede probar gratis en la web oficial de Stability.ai, aquí: https://clipdrop.co/stable-diffusion
« Última modificación: Julio 20, 2023, 10:21:55 pm por sirdrak »

Desconectado sirdrak

  • VIP
  • *
  • Mensajes: 1327
  • Gracias 60
  • Ciudad: Sevilla
Re: La revolución que suponen las IA generativas de imágenes a partir de texto
« Respuesta #66 en: Agosto 12, 2023, 01:42:23 pm »
Bueno, pues finalmente salió hace un mes la versión definitiva oficial de Stable Diffusion XL, que ya de primeras dá unos resultados interesantes en sus imágenes aunque a costa de necesitar algo más de potencia. Aquí podéis ver algunos ejemplos generados de mi cosecha (con el modelo oficial tal cual, sin usar LoRAs ni nada):















































Con guiños a 'Expediente X' y al artista nórdico Simon Stålenhag. Muy prometedor, y ya con la comunidad empezando a entrenar cosas en dicho modelo...

Y ahora algo muy interesante... Al principio, posteé un video tutorial de creación de LoRAs del youtuber Aitrepreneur, pues bién... Ayer publicó otro para el que, en esta ocasión, ha hecho muchísimas pruebas, se ha documentado bien y hasta ha tenido asesoramiento directo de nada menos que los creadores de Stable Diffusion, Stability.Ai, por lo que es el vídeo más interesante que he visto de entrenamiento. Aunque en principio está orientado a hacer LoRAs para SD XL, lo que explica se puede aplicar de forma general para mejorar bastante la calidad de los LoRAs. Muy recomendable verlo:



Además, en la descripción del vídeo, aporta archivos preconfigurados para el entrenamiento según el tipo de LoRA y sets de imágenes de regularización, lo que es muy interesante.

Desconectado Zael

  • VIP
  • *
  • Mensajes: 1819
  • Gracias 9
    • Ancient Bits
  • Iniciales nick: ZAE
Re: La revolución que suponen las IA generativas de imágenes a partir de texto
« Respuesta #67 en: Agosto 26, 2023, 01:53:05 pm »
¡Ja, ja, la de los animales tomando café y unas birras son buenísimas! Y la de la moza de las primeras imágenes... sin comentarios, la pone como un tanque apuntando a un campanario.

Sin embargo, la de la chica que sale con los auriculares produce el efecto contrario, cierto desasosiego, inquietud, como si hubiera algo que no termina de estar del todo bien ahí.

Pero vamos, brutal lo de la IA estas. Seguro que nos la estarán metiendo hasta en la sopa en muchos videojuegos, anuncios, películas, etc. y ni nos enteramos ya.







Desconectado empardopo

  • Admin
  • *
  • Mensajes: 21746
  • Gracias 761
  • Espero mejorar al KungFu Master!
    • Mi canal de Youtube
  • Ciudad: Norte de África
  • Pais: Escoña
  • Iniciales nick: EPP
Re: La revolución que suponen las IA generativas de imágenes a partir de texto
« Respuesta #68 en: Septiembre 01, 2023, 07:56:31 pm »
Son brutales! La lástima es que hace falta mucho equipo o al menos mucha gráfica para poder crear...

Desconectado sirdrak

  • VIP
  • *
  • Mensajes: 1327
  • Gracias 60
  • Ciudad: Sevilla
Re: La revolución que suponen las IA generativas de imágenes a partir de texto
« Respuesta #69 en: Septiembre 02, 2023, 01:09:50 pm »
Son brutales! La lástima es que hace falta mucho equipo o al menos mucha gráfica para poder crear...

Para hacer algunas pruebas básicas siempre puedes usar el servicio online de Stability.Ai, que es gratuíto (aunque también tiene servicio de pago para reducir las esperas, pero tampoco son muy largas) y con el que puedes usar SD XL, usar estilos, con prompt negativo, diferentes resoluciones e incluso puedes hacer upscaling de las imágenes, con sólo ir aquí:

https://clipdrop.co/stable-diffusion

Se puede usar hasta desde el navegador del móvil, de hecho con él creé algunas imágenes de Nicholas Cage como Thor, Aquaman o Wonder Woman jejeje

Y ahora os voy a mostrar algo inesperado que me hizo mucha gracia... Cuando estuve generando las imágenes anteriores esas con el granjero con sombrero de paja, con un campo de trigo, tractores, algunas granjas y una enorme nave espacial alienígena en el cielo, una de las veces la IA 'decidió ser creativa' y me generó esto:



Un alienígena granjero con un tractor en un campo de trigo llevando el platillo volante de sombrero  ;D
« Última modificación: Septiembre 02, 2023, 01:11:39 pm por sirdrak »

Desconectado Josepzin

  • VIP
  • *
  • Mensajes: 2219
  • Gracias 38
  • Habitacus!
    • Blog
  • Ciudad: Carthago Miriya
  • Pais: Argentina
Re: La revolución que suponen las IA generativas de imágenes a partir de texto
« Respuesta #70 en: Septiembre 02, 2023, 02:02:24 pm »
Esta última imagen claramente muestra el inicio de la rebelión de las IAs!

Desconectado empardopo

  • Admin
  • *
  • Mensajes: 21746
  • Gracias 761
  • Espero mejorar al KungFu Master!
    • Mi canal de Youtube
  • Ciudad: Norte de África
  • Pais: Escoña
  • Iniciales nick: EPP
Re: La revolución que suponen las IA generativas de imágenes a partir de texto
« Respuesta #71 en: Septiembre 09, 2023, 12:06:35 pm »
Son brutales! La lástima es que hace falta mucho equipo o al menos mucha gráfica para poder crear...

Para hacer algunas pruebas básicas siempre puedes usar el servicio online de Stability.Ai, que es gratuíto (aunque también tiene servicio de pago para reducir las esperas, pero tampoco son muy largas) y con el que puedes usar SD XL, usar estilos, con prompt negativo, diferentes resoluciones e incluso puedes hacer upscaling de las imágenes, con sólo ir aquí:

https://clipdrop.co/stable-diffusion

Se puede usar hasta desde el navegador del móvil, de hecho con él creé algunas imágenes de Nicholas Cage como Thor, Aquaman o Wonder Woman jejeje

Y ahora os voy a mostrar algo inesperado que me hizo mucha gracia... Cuando estuve generando las imágenes anteriores esas con el granjero con sombrero de paja, con un campo de trigo, tractores, algunas granjas y una enorme nave espacial alienígena en el cielo, una de las veces la IA 'decidió ser creativa' y me generó esto:



Un alienígena granjero con un tractor en un campo de trigo llevando el platillo volante de sombrero  ;D
Algo es algo, probaré a ver porque quería hacer un logo para una web y canal de YouTube... A ver que mojonaco me sale jajaja


Enviado desde mi MI MAX 2 mediante Tapatalk


Desconectado sirdrak

  • VIP
  • *
  • Mensajes: 1327
  • Gracias 60
  • Ciudad: Sevilla
Re: La revolución que suponen las IA generativas de imágenes a partir de texto
« Respuesta #72 en: Septiembre 24, 2023, 02:42:35 pm »
Bueno, pues llevaba un tiempo sin postear novedades interesantes, así que comentaré algunas de los últimos meses... La mayoría de los que usamos Stable Diffusion en local, como sabéis, usamos Automatic1111 como interfaz a través del navegador para generar las imágenes, al ser la más completa y que más opciones tiene (los modos img2img, inpaint, las extensiones, los script para hacer upscaling, matrices de imágenes, etc...), pero no es la única, algo que se ha hecho patente y más notorio desde la silida de SD XL, debido a las mayores exigencias de esta versión de Stable Diffusion. La pega de Automatic1111 es que es la menos eficiente, de forma que requiere más potencia que las otras opciones para generar las mismas imágenes con la misma configuración de hardware. Por ello hoy voy a hablar de las otras opciones existentes para generar imágenes en local...

Las otras opciones actuales son las siguientes:

- ComfyUI: Es una interfaz muy versátil y rápida para generar imágenes con Stable Diffusion, y de hecho es la que utilizan directamente y recomiendan Stability.ai, la empresa creadora de Stable Diffusion. Tiene todas las posibilidades que tiene Automatic1111 e incluso algunas que no tiene aún a día de hoy relacionadas con las novedades de SD XL, como la posibilidad de usar simultáneamente dos prompts diferentes para el positivo y dos prompt diferentes para el negativo usando los dos 'Clips' que soporta nativamente XL al mismo tiempo (los Clips son básicamente el intérprete que hace que la IA entienda lo que le pedimos en lenguaje natural). Además fué la primera en tener soporte completo de los modelos base y refiner de XL (soporte que no llegó a Automatic1111 hasta su versión 1.6.0, la actual). Sus ventajas son que requiere mucho menos hardware para generar imágenes y además es extremadamente rápido, incluso a la hora de hacer reescalados, es muy fácil de instalar (es simplemente descomprimir una carpeta, ejecutar la primera vez un actualizador y luego sólo un .bat y a funcionar) y las imágenes que genera son de muy buena calidad. Otra característica que tiene, es que basta con arrastrar una imagen generada previamente con él al espacio de trabajo para que ya salga todo configurado incluído su prompt como cuando se generó dicha imagen, cosa que también se puede hacer con un archivo de configuración .json. Las pegas son que su interfaz es completamente antiintuitiva y compleja... De hecho casi se podría decir que no tiene interfaz, pues funciona a base de un sistema de módulos interconectados entre sí que recuerda a los lenguajes de programación visuales por objetos como los que usan Blender o Unreal Engine, lo que puede echar a muchísima gente para atrás por su aparente complejidad. En la siguiente imagen podéis ver un ejemplo:



Eso sí, si se tiene una máquina más limitada, es mucho mejor que Automatic1111... Por ejemplo, con ComfyUI es mucho más rápido generar imágenes en buena calidad de SD XL con una gráfica de sólo 6GB de VRAM o menos, de forma que la diferencia puede ser de hacer en menos de 30 segundos lo que en Automatic1111 puede llevar varios minutos. Se puede descargar aquí, de su Github: https://github.com/comfyanonymous/ComfyUI

- Fooocus y Fooocus-MRE: Llegamos a las dos opciones más recientes, esta vez enfocadas de forma exclusiva en generar imágenes de SD XL y hacerlo de la forma más sencilla posible, ideal para las personas que sólo quieren generar imágenes de la forma más sencilla posible sin usar opciones avanzadas. Ha sido creada nada menos que por los responsables de la extensión más importante y revolucionaria existente hasta la fecha de Stable Diffusion, ControlNET, de la que ya os he hablado en ocasiones anteriores. Tiene las ventajas de ser extremadamente fácil de instalar (al igual que con ComfyUI, es descargar y descomprimir un archivo, y en la carpeta resultante ejecutar un archivo .bat y a funcionar). Ni siquiera es necesario buscar aparte los modelos básicos para empezar porque los descarga automáticamente en el primer inicio (SD XL base y el refiner). Además, es también muy rápido y también consume menos recursos que Automatic1111, muy cerca de lo que hace ComfyUI en este sentido. Respecto a la interfaz y opciones, primero hablaré de Foocus y luego de las opciones extras que tiene Fooocus-MRE, que es un fork del primero.

En Fooocus, la mayor parte de la interfaz la ocupa la parte donde aparecen las imágenes generadas, y debajo simplemente un espacio para escribir el prompt. Luego hay una casilla para mostrar las opciones avanzadas de forma que nos permite escribir también prompt negativo, elegir entre una buena cantidad de resoluciones pero todas ellas fijas (esto es así porque son las resoluciones de las imágenes con las que se realizó el entrenamiento de SD XL, que lo que hace es que el resultado tenga la mejor calidad posible) y elegir entre priorizar calidad o rapidez en la generación de las imágenes. Todas estas opciones se muestran en un panel en el lateral derecho, que tiene tres pestañas con más opciones extra: La mencionada, una para elegir un estilo para las imágenes (otra de las novedades de SD XL) y otra que nos permite elegir el checkpoint a usar como modelo base, y el que se va a usar como Refiner, y además varias casillas para elegir y usar LoRAs y seleccionar su fuerza. Nada más... Como se puede ver, todo enfocado a una sencillez extrema y obtener buenos resultados sin complicaciones.

En Fooocus-MRE, que como comenté es un fork creado a partir del código fuente del Fooocus original con el objeto de añadir más opciones a la generación de imágenes, se incorporan opciones propias de Automatic1111 para las personas que quieren hacer cosas más avanzadas manteniendo la sencillez de uso y la interfaz de Fooocus y con las ventajas de su buen rendimiento. Las opciones que se incorporan nuevas son las siguientes:

    * Modo img2img
    * Posibilidad de configurar los mismos parámetros avanzados en la creación de las imágenes que en Automatic1111 (número de pasos, sampler, punto en el que se pasa del modelo Base al Refiner durante el proceso de generación, CFG, Clip Skip, etc...)
    * Soporte de los LoRA especiales de Stability.ai que dan soporte de ControlNET a SD XL
    * Posibilidad de usar resoluciones 'custom' en la generación de imágenes.
    * Posibilidad de hacer Upscaling en el modo img2img.
    * Posibilidad de usar estilos personalizados.
    * Soporte de inpainting y outpainting.

Aquí podéis ver el aspecto que tiene la interfaz:



Y se pueden descargar desde sus respectivos Githubs:

    * Fooocus: https://github.com/lllyasviel/Fooocus
    * Fooocus-MRE: https://github.com/MoonRide303/Fooocus-MRE

Por último, os quiero recomendar también un modelo fotográfico de Stable Diffusion 1.5 que me ha sorprendido por su realismo y sus espectaculares texturas de la piel, dando resultado imágenes como esta:



Y aquí un recorte de la cara para que podáis apreciar mejor el realismo de la piel:


Como podéis ver, totalmente indistinguible de la realidad 100%... El modelo se llama epiCRealism, concretamente su última versión, llamada Natural Sin, que ha sido entrenada con imágenes de personas normales y no de modelos fotográficos, por eso consigue ese realismo. Se puede descargar de aquí: https://civitai.com/models/25694/epicrealism

Para obtener resultados como los de mi imagen, os recomiendo la siguiente configuración a la hora de generar imágenes con él:

- Resolución de 512x512, 512x768 o 768x512, de 20 a 30 pasos, CFG scale de 5 y de sampler Euler A o SDE 2M ++ Karras.
- Usar prompts simples evitando términos como masterpiece, best quality, 8k, intricate, high detail, (extremely detailed face), (extremely detailed hands), (extremely detailed hair) y similares ya que no son necesarios.
- En el prompt negativo usar cartoon, painting, illustration, (worst quality, low quality, normal quality:2)
- Al usar la opción Hires.fix, seleccionar 1'5x o 2x upscale, como upscaler 4x_NMKD-Superscale-SP_178000_G (luego pongo dónde se descarga) y un denoise de 0'35
- Si luego se hace upscaling en img2img con el script de SD Upscale, usar el mismo upscaler mencionado antes (basta con descargarlo y meterlo en la carpeta models/ESRGAN para que aparezca disponible en ambos modos).

El mencionado upscaler se puede descargar de aquí: https://huggingface.co/gemasai/4x_NMKD-Superscale-SP_178000_G/tree/main

Desconectado empardopo

  • Admin
  • *
  • Mensajes: 21746
  • Gracias 761
  • Espero mejorar al KungFu Master!
    • Mi canal de Youtube
  • Ciudad: Norte de África
  • Pais: Escoña
  • Iniciales nick: EPP
Re: La revolución que suponen las IA generativas de imágenes a partir de texto
« Respuesta #73 en: Septiembre 25, 2023, 04:11:08 pm »
Bueno, pues llevaba un tiempo sin postear novedades interesantes, así que comentaré algunas de los últimos meses... La mayoría de los que usamos Stable Diffusion en local, como sabéis, usamos Automatic1111 como interfaz a través del navegador para generar las imágenes, al ser la más completa y que más opciones tiene (los modos img2img, inpaint, las extensiones, los script para hacer upscaling, matrices de imágenes, etc...), pero no es la única, algo que se ha hecho patente y más notorio desde la silida de SD XL, debido a las mayores exigencias de esta versión de Stable Diffusion. La pega de Automatic1111 es que es la menos eficiente, de forma que requiere más potencia que las otras opciones para generar las mismas imágenes con la misma configuración de hardware. Por ello hoy voy a hablar de las otras opciones existentes para generar imágenes en local...

Las otras opciones actuales son las siguientes:

- ComfyUI: Es una interfaz muy versátil y rápida para generar imágenes con Stable Diffusion, y de hecho es la que utilizan directamente y recomiendan Stability.ai, la empresa creadora de Stable Diffusion. Tiene todas las posibilidades que tiene Automatic1111 e incluso algunas que no tiene aún a día de hoy relacionadas con las novedades de SD XL, como la posibilidad de usar simultáneamente dos prompts diferentes para el positivo y dos prompt diferentes para el negativo usando los dos 'Clips' que soporta nativamente XL al mismo tiempo (los Clips son básicamente el intérprete que hace que la IA entienda lo que le pedimos en lenguaje natural). Además fué la primera en tener soporte completo de los modelos base y refiner de XL (soporte que no llegó a Automatic1111 hasta su versión 1.6.0, la actual). Sus ventajas son que requiere mucho menos hardware para generar imágenes y además es extremadamente rápido, incluso a la hora de hacer reescalados, es muy fácil de instalar (es simplemente descomprimir una carpeta, ejecutar la primera vez un actualizador y luego sólo un .bat y a funcionar) y las imágenes que genera son de muy buena calidad. Otra característica que tiene, es que basta con arrastrar una imagen generada previamente con él al espacio de trabajo para que ya salga todo configurado incluído su prompt como cuando se generó dicha imagen, cosa que también se puede hacer con un archivo de configuración .json. Las pegas son que su interfaz es completamente antiintuitiva y compleja... De hecho casi se podría decir que no tiene interfaz, pues funciona a base de un sistema de módulos interconectados entre sí que recuerda a los lenguajes de programación visuales por objetos como los que usan Blender o Unreal Engine, lo que puede echar a muchísima gente para atrás por su aparente complejidad. En la siguiente imagen podéis ver un ejemplo:



Eso sí, si se tiene una máquina más limitada, es mucho mejor que Automatic1111... Por ejemplo, con ComfyUI es mucho más rápido generar imágenes en buena calidad de SD XL con una gráfica de sólo 6GB de VRAM o menos, de forma que la diferencia puede ser de hacer en menos de 30 segundos lo que en Automatic1111 puede llevar varios minutos. Se puede descargar aquí, de su Github: https://github.com/comfyanonymous/ComfyUI

- Fooocus y Fooocus-MRE: Llegamos a las dos opciones más recientes, esta vez enfocadas de forma exclusiva en generar imágenes de SD XL y hacerlo de la forma más sencilla posible, ideal para las personas que sólo quieren generar imágenes de la forma más sencilla posible sin usar opciones avanzadas. Ha sido creada nada menos que por los responsables de la extensión más importante y revolucionaria existente hasta la fecha de Stable Diffusion, ControlNET, de la que ya os he hablado en ocasiones anteriores. Tiene las ventajas de ser extremadamente fácil de instalar (al igual que con ComfyUI, es descargar y descomprimir un archivo, y en la carpeta resultante ejecutar un archivo .bat y a funcionar). Ni siquiera es necesario buscar aparte los modelos básicos para empezar porque los descarga automáticamente en el primer inicio (SD XL base y el refiner). Además, es también muy rápido y también consume menos recursos que Automatic1111, muy cerca de lo que hace ComfyUI en este sentido. Respecto a la interfaz y opciones, primero hablaré de Foocus y luego de las opciones extras que tiene Fooocus-MRE, que es un fork del primero.

En Fooocus, la mayor parte de la interfaz la ocupa la parte donde aparecen las imágenes generadas, y debajo simplemente un espacio para escribir el prompt. Luego hay una casilla para mostrar las opciones avanzadas de forma que nos permite escribir también prompt negativo, elegir entre una buena cantidad de resoluciones pero todas ellas fijas (esto es así porque son las resoluciones de las imágenes con las que se realizó el entrenamiento de SD XL, que lo que hace es que el resultado tenga la mejor calidad posible) y elegir entre priorizar calidad o rapidez en la generación de las imágenes. Todas estas opciones se muestran en un panel en el lateral derecho, que tiene tres pestañas con más opciones extra: La mencionada, una para elegir un estilo para las imágenes (otra de las novedades de SD XL) y otra que nos permite elegir el checkpoint a usar como modelo base, y el que se va a usar como Refiner, y además varias casillas para elegir y usar LoRAs y seleccionar su fuerza. Nada más... Como se puede ver, todo enfocado a una sencillez extrema y obtener buenos resultados sin complicaciones.

En Fooocus-MRE, que como comenté es un fork creado a partir del código fuente del Fooocus original con el objeto de añadir más opciones a la generación de imágenes, se incorporan opciones propias de Automatic1111 para las personas que quieren hacer cosas más avanzadas manteniendo la sencillez de uso y la interfaz de Fooocus y con las ventajas de su buen rendimiento. Las opciones que se incorporan nuevas son las siguientes:

    * Modo img2img
    * Posibilidad de configurar los mismos parámetros avanzados en la creación de las imágenes que en Automatic1111 (número de pasos, sampler, punto en el que se pasa del modelo Base al Refiner durante el proceso de generación, CFG, Clip Skip, etc...)
    * Soporte de los LoRA especiales de Stability.ai que dan soporte de ControlNET a SD XL
    * Posibilidad de usar resoluciones 'custom' en la generación de imágenes.
    * Posibilidad de hacer Upscaling en el modo img2img.
    * Posibilidad de usar estilos personalizados.
    * Soporte de inpainting y outpainting.

Aquí podéis ver el aspecto que tiene la interfaz:



Y se pueden descargar desde sus respectivos Githubs:

    * Fooocus: https://github.com/lllyasviel/Fooocus
    * Fooocus-MRE: https://github.com/MoonRide303/Fooocus-MRE

Por último, os quiero recomendar también un modelo fotográfico de Stable Diffusion 1.5 que me ha sorprendido por su realismo y sus espectaculares texturas de la piel, dando resultado imágenes como esta:



Y aquí un recorte de la cara para que podáis apreciar mejor el realismo de la piel:


Como podéis ver, totalmente indistinguible de la realidad 100%... El modelo se llama epiCRealism, concretamente su última versión, llamada Natural Sin, que ha sido entrenada con imágenes de personas normales y no de modelos fotográficos, por eso consigue ese realismo. Se puede descargar de aquí: https://civitai.com/models/25694/epicrealism

Para obtener resultados como los de mi imagen, os recomiendo la siguiente configuración a la hora de generar imágenes con él:

- Resolución de 512x512, 512x768 o 768x512, de 20 a 30 pasos, CFG scale de 5 y de sampler Euler A o SDE 2M ++ Karras.
- Usar prompts simples evitando términos como masterpiece, best quality, 8k, intricate, high detail, (extremely detailed face), (extremely detailed hands), (extremely detailed hair) y similares ya que no son necesarios.
- En el prompt negativo usar cartoon, painting, illustration, (worst quality, low quality, normal quality:2)
- Al usar la opción Hires.fix, seleccionar 1'5x o 2x upscale, como upscaler 4x_NMKD-Superscale-SP_178000_G (luego pongo dónde se descarga) y un denoise de 0'35
- Si luego se hace upscaling en img2img con el script de SD Upscale, usar el mismo upscaler mencionado antes (basta con descargarlo y meterlo en la carpeta models/ESRGAN para que aparezca disponible en ambos modos).

El mencionado upscaler se puede descargar de aquí: https://huggingface.co/gemasai/4x_NMKD-Superscale-SP_178000_G/tree/main

Cómo pilotas compañero!!!!

Desconectado sirdrak

  • VIP
  • *
  • Mensajes: 1327
  • Gracias 60
  • Ciudad: Sevilla
Re: La revolución que suponen las IA generativas de imágenes a partir de texto
« Respuesta #74 en: Octubre 01, 2023, 06:31:08 pm »
Bueno, pues esto es un no parar de novedades de IA últimamente... Voy a comentar las más importantes.

Primero, os voy a compartir un vídeo de Olivio que explica un técnica muy sencilla usando el modo img2img para hacer más realista una imagen y mejorar el detalle de la piel usando el modelo con el que hice a la chica ultrarrealista, epiCRealism, pero también funciona con otros modelos realistas como Photon o Realistic Visions. Básicamente consiste en cargar la imagen que queremos mejorar o usar como referencia en el modo img2img, seleccionar como sampler DPM ++ SDE Karras (muy importante este paso), poner 30 pasos en la generación de la imagen y usar un denoise entre 0.3 y 0.4 (dependerá de la imagen). Con esto, y con un prompt que describa la imagen (ya que se puede hacer incluso con imágenes normales no IA) y sin reescalar, generamos la nueva imagen, que veremos que tiene una piel con más detalle. Tras esto, la podemos mejorar aún más pulsando el botón que hay bajo la imagen con el icono de una escuadra, que la enviará a la pestaña de extras para hacer un reescalado, donde podremos aumentar la resolución de la imagen x2, x3, x4, etc... y de paso añadiendo más detalle, usando como reescalador un modelo opcional que indican en el vídeo, que sólo hay que descargar y meter en la carpeta models/ESRGAN. El modelo es 8x_NMKD-Superscale_150000_G.pth y se descarga aqui: https://huggingface.co/uwg/upscaler/tree/main/ESRGAN

Y aquí el vídeo de Olivio en el que se pueden ver los resultas y lo explica... Decir que también sirve para cambiar una imagen de un estilo a otro, por ejemplo, una imagen de anime convertirla en una con personas reales o viceversa, con resultados espectaculares (mostraré un par de ejemplo más abajo):



Los ejemplos que comento...

Original:



Pasada a 'carne y hueso realista IA':



Otro ejemplo:

Original:



A imagen realista:



Y ahora vamos con 'el plato principal'... Open.ai, la empresa creadora del famosísima ChatGPT, fué la empresa pionera en IAs generativas de imágenes, creando su IA Dall-E antes de la aparición de todas las demás. Esta semana pasada presentó la última versión de dicha IA, Dall-E 3, que tiene varios aspectos revolucionarios y está integrada tanto en ChatGPT 4 como en el chat de Bing. Debido a que usa como base dicho modelo de lenguaje, su comprensión de lo que le pedimos en el prompt supera con mucha diferencia lo que son capaces de hacer todas las demás. Desde ayer, casi por sorpresa, ya se puede probar y usar gratis, tanto a través del chat de Bing integrado con el navegador Edge como con Copilot (siempre que no vivas en Europa, como es nuestro caso, que no nos ha llegado aún dicha funcionalidad a Windows 11 por cuestiones de legislación europea) integrado en Windows 11 desde la actualización 'Momento 4' de esta semana.
La otra forma de utilizarla, y que es la que yo he usado, es visitar la página oficial de Bing para crear imágenes, visitando esta dirección: https://www.bing.com/create
Tan sólo hay que loguearse con una cuenta Microsoft (Outlook, Xbox, etc...) y ya se pueden crear imágenes de forma ilimitada y gratuíta. Puede ser que se acceda la primera vez a la página y que en vez de Dall-E 3, salga la versión anterior. Esto se comprueba pidiéndole que nos genere una imagen en la que aparezca un texto, pues una de las novedades de Dall-E 3 es que hace el texto prácticamente perfecto. Si no lo hace, se trata de Dall-E 2. En ese caso basta con probar con otro navegador, aunque indican que las mayores posibilidades de éxito se dan con Firefox y con Brave. Yo lo hice ayer con Firefox y me salió bién a la primera.

Ahora vamos con las novedades y mi experiencia con las pruebas que le hice ayer (me pase todo el día haciendo pruebas tratando de llevar sus posibilidades al límite):

- Entiende perfectamente lo que le escribes en lenguaje natural mucho mejor que cualquier otra IA de este tipo, por lo que ya no hay que hacer apenas 'ingeniería de prompt', ni usar prompt negativo ni nada, para que te muestre en la imagen todo lo que le pides por complejo que sea, incluyendo varios personajes diferentes en una misma imagen, elementos con varios colores sin que se mezclen o confundan, etc...
- Hace las manos casi perfectas la gran mayoría de las veces, muy por encima del resto. También los ojos, sin necesidad de hacer nada.
- Es capaz de generar imágenes en una cantidad de estilos y tipos abrumador, es muy raro que salga alguna imagen 'que no sirva'.
- La calidad de las imágenes es muy buena, por encima de Stable Diffusion XL sin ninguna duda.
- Ya no es necesario escribir el prompt en inglés... En Español lo entiende igual de bien.
- Es capaz de sacar de forma perfecta personajes haciendo acciones complejas de representar en las otras IA sin usar modelos extra u otras opciones complejas, como un personaje montando correctamente en bicicleta o en moto, o tensando la cuerda de un arco con una flecha.
- Es capaz de hacer imágenes en que aparezcan varios personajes juntos en contacto directo sin que se mezclen sus extremidades o salgan cosas aberrantes, o al menos pasa mucho mucho menos con una gran diferencia.
- Conoce perfectamente una gran cantidad de personajes populares, de videojuegos etc... Y también los juegos, por lo que hasta es capaz de representar 'pantallazos' de los mismos. Lo mismo con las consolas. Por poner un ejemplo, le pedí una imagen de Link jugando con una Super Nintendo al Super Mario World, y en la imagen sale Link con el mando en la mano reproducido perfectamente, y en el cartucho la etiqueta (aunque debido a su pequeño tamaño en la imagen ya no está muy definida) se nota perfectamente que es la de Mario sobre Yoshi que lleva precisamente el cartucho de dicho juego... Algo increíble.
- Es capaz de hacer pixelart (y hojas de sprites usables) perfectamente.
- Lo ya mencionado del texto... Escribe las frases perfectamente la gran mayoría de las veces.
- Es capaz de generar las imágenes como si fueran capturas de pantalla de un juego real perfectamente (por ejemplo un link en bicicleta en el Zelda BOTW o un juego imaginario de PS2 o de Nintendo 64).

Ahora las cosas malas... Lógicas dado que es un servicio online de una empresa privada de EEUU y dueña ademas de ChatGPT:

- Hay censura, esta vez más notable que otras veces. Se censura todo lo que es minimamente relativo a sexo (simplemente proniendo 'breasts', poniendo 'vestido con transparencias', etc... te censura las imágenes), palabras o actitudes conflictivas (por ejemplo si pones 'drunk', aunque puedes luego representar a una persona en ese estado e incluso fumando porros si describes su actitud y apariencia sin mencionar esa palabra o similares)
- Se han censurado también muchas figuras públicas de la actualidad, sobre todo políticos, de forma que ya no se pueden hacer 'memes' con el Papa o Donald Trump por ejemplo (tampoco con políticos españoles). Es más, cuando incluyes sus nombres en el prompt incluso te dice que te pueden suspender el servicio si vuelves a reincidir (en este caso ni siquiera se procesa el prompt, o sea, las imágenes no se generan). Sin embargo, otros muchos actores y personalidades conocidas sí que salen perfectamente, como Albert Einstein o Michael Jackson.
- Todas las imágenes parecen llevar una marca de agua interna que las identifica claramente como generadas por IA. A veces este tipo de marcas comparten datos personales del usuario que las ha generado, por lo que son un problema para la privacidad, aunque por otro lado, no creo que sea complicado modificar las imágenes fácilmente para que no aparezcan como generadas por IA.

Respecto al tema de la censura, y por lo que he podido observar, curiosamente no me parece que sea el modelo el que tiene la censura, sino que es el servicio online el que la aplica, ya que las imágenes censuradas sí se llegan a generar, y se ha visto por algún vídeo que, a diferencia de las otras IA de este tipo, la violencia y el gore no están censuradas y las genera sin problemas (ya se sabe, aquello de la doble moral de escandalizarse por mostrar algo de piel pero no por la violencia, la sangre y las cosas repulsivas). Yo no he probado a generar imágenes de este tipo (ya que no me gustan) pero he visto que lo comentaban en Youtube.

Ahora voy con varios ejemplos de las pruebas que he hecho... Primero, se me ocurrió intentar generar a los personajes del Gauntlet sólo con un prompt a ver qué calidad de imágenes conseguía (empiezo por estas imágenes porque son ideales a la temática del foro), y la verdad es que el resultado es bastante espectacular... Empecemos con la valkiria:











Ahora vamos con Merlin el mago:








Vamos con Thor el bárbaro... Curiosamente no había forma de que me lo sacase afeitado, sin barba, pero los resultados son espectaculares...











Y por último, con Questor el elfo... Este me sorprendió por el tema antes comentado del arco y las flechas, y también me resultó curioso que con el primer prompt que usé me lo generaba siempre como si fuera una figura de acción realista, así que tuve que indicar que era una ilustración al estilo de Advanced Dungeons & Dragons:










El anime también lo hace muy bién y en muchos estilos:








Y haciendo cosas complejas, le pedí una imagen con el siguiente prompt:

A drawing of a thin man wearing a top hat and holding an umbrella followed by a cat and an elephant crossing on a rope, as if they were tightrope walkers, between two buildings. A certain magical and nostalgic air.

Bastante complejo seguir todo lo que pide para cualquier IA generadora de imágenes... Pues vamos a ver el resultado:





Impresionante, sin duda... Y ahora vamos con lo que mencioné de crear a varios personajes diferentes en una misma imagen, montando en bicicleta, personajes juntos en contacto directo que no se mezclan, etc...:

Link y Zelda celebrando el fin de Ganon:






Zelda de fiesta con varias amigas (para comprobar lo del contacto directo):







Link en bicicleta en varios estilos:










Ahora vamos a ver qué pasa si mezclamos a Link, a Michael Jackson, a los juegos de Super Mario y la Super Nintendo:














Y ya que estamos... Qué tal un Einstein resucitado en la forma de un androide karateka en una ciudad estilo Cyberpunk?







Ahora pasamos a otra prueba que hice en su día con SD XL: Intentar generar imágenes del estilo de 'Tales of the loop', de Simon Stålenhag:












Y ahora unos ejemplos de hojas de sprites de pixelart:







Para acabar otras imágenes más:






















 


* Salón Recreativo #55 (27-04-2024 / 26-05-2024)  Autor: periko Foro: Salón Recreativo FaseBonus 18/05/2024 (00:54)
* [Recomendacion] Series para ver  Autor: arquillos Foro: Offtopic 17/05/2024 (19:50)
* El megapost del ZX Spectrum  Autor: arquillos Foro: Offtopic 17/05/2024 (08:14)
* MPAGD (Multi Platform Arcade Game Designer)  Autor: empardopo Foro: Creación de juegos 16/05/2024 (20:53)
* Van dos y se cae el del medio - Hilo de cachondeo general  Autor: joselopez Foro: Offtopic 16/05/2024 (00:56)
* ¿A qué estáis jugando ahora mismo?  Autor: joselopez Foro: Offtopic 16/05/2024 (00:35)
* Amiga Games + 1.9.3  Autor: empardopo Foro: Emuladores 15/05/2024 (20:48)
* Retro 320 - Wizard of wor  Autor: empardopo Foro: Competiciones y concursos 15/05/2024 (20:39)
* Ofertas Amazon  Autor: empardopo Foro: Offtopic 15/05/2024 (20:33)
* [N3DS] Red Viper - Emulando Virtual Boy como Dios manda  Autor: sirdrak Foro: Noticias de emuladores 13/05/2024 (00:53)
* La inteligencia artificial ha llegado a la música  Autor: Zael Foro: Offtopic 12/05/2024 (20:24)
* Info sobre MARP  Autor: empardopo Foro: Records y wolfmame 12/05/2024 (20:09)
* Stop the express  Autor: empardopo Foro: ZX Spectrum 12/05/2024 (20:05)
* Retro Portable Maker ArcadeSpain (RPMA)  Autor: empardopo Foro: Otros programas 12/05/2024 (17:37)
* Recopilatorio Retos: Desde el 1 hasta .....  Autor: montypepa Foro: Competiciones y concursos 05/05/2024 (21:30)
* iojukebox Theme, un JukeBox para Attract-Mode  Autor: gucaza Foro: Themes AM 04/05/2024 (02:47)
* Nuevo miniPc para mi vieja recre y juegos Windows compatibles formato 4:3  Autor: jmpuk Foro: Offtopic 02/05/2024 (23:31)
* Homenaje a Locomalito  Autor: beaches Foro: Otros programas 02/05/2024 (23:03)
* [Recomendación] Cine para los findes en casa (bueno, bonito y barato)  Autor: arquillos Foro: Offtopic 02/05/2024 (09:39)
* Etpa8: El Reino Subterráneo  Autor: jmpuk Foro: ZX Spectrum 01/05/2024 (21:49)
* West Bank para ZX Spectrum  Autor: empardopo Foro: ZX Spectrum 01/05/2024 (20:07)
* Patrocinador para el foro ArcadeSpain  Autor: empardopo Foro: Noticias 29/04/2024 (19:37)
* Aprende a hacerte un PORTABLE de tu juego arcade favorito  Autor: empardopo Foro: Records y wolfmame 29/04/2024 (19:27)
* Screenshot de empardopo  Autor: empardopo Foro: Otros programas 24/04/2024 (19:42)

Reto 320: Wizard of Wor
Buscaunchollo.click