Autor Tema: La revolución que suponen las IA generativas de imágenes a partir de texto  (Leído 9542 veces)

0 Usuarios y 1 Visitante están viendo este tema.

Desconectado sirdrak

  • VIP
  • *
  • Mensajes: 1349
  • Gracias 60
  • Ciudad: Sevilla
Re: La revolución que suponen las IA generativas de imágenes a partir de texto
« Respuesta #90 en: Agosto 13, 2024, 01:35:29 pm »
Advertisement
Bueno pues el tema de Flux está que arde... La comunidad se ha volcado por completo con él y ya están saliendo avances y cosas interesantes... Vamos a comentar algunas de ellas:

- Como sabéis, Flux, al ser tan grande, de inicio para ser usado al 100% en fp16 pedía una gráfica con 24 GB de VRAM (es decir una RTX 3090 o una RTX 4090). Después salieron versiones en fp8, que permitían ejecutar los modelos en equipos con gráficas con 12 GB de VRAM con una pérdida de calidad mínima. Pues bién, resulta que Illyasviel, nada menos que el creador de ControlNET, de Fooocus y de Forge, tras estar durante 7 días picando código 14 horas diarias, ha dado un paso más en la optimización de modelos para generación de imágenes aplicando técnicas de optimización que hasta ahora se usaban exclusivamente en LLMs, de forma que no sólo ha dado soporte a Flux en Forge, sino que ha hecho posible ejecutarlo en másquinas con 6/8 GB de VRAM e incluso menos, tanto la variante Dev como la variante Schnell. Para ello ha sacado una versión optimizada BNB FN4 de ambos modelos con muy buenos resultados y siendo incluso más rápidas que usando ComfyUI, lo que supone una proeza.

- A pesar de la dificultad que en principio parecía suponer el gran tamaño de Flux a la hora de entrenarlo para crear LoRas o nuevos Checkpoints (que parecían requerir ya de gráficas profesionales para entrenar), finalmente están empezando a aparecer LoRas y técnicas para entrenarlos con 24 GB de VRAM. Ya hay LoRas para conseguir más realismo en fotos, otro para generar más imágenes de tipo 'no-profesional', etc...

Desconectado zzgus

  • VIP
  • *
  • Mensajes: 352
  • Gracias 39
  • Ciudad: Barcelona
Re: La revolución que suponen las IA generativas de imágenes a partir de texto
« Respuesta #91 en: Agosto 21, 2024, 12:36:09 pm »
Bueno pues el tema de Flux está que arde...

Vale justo he empezado a usar SD y sale Flux !!! :-)

Si me permites un par de preguntas SR. Sirdrak por favor...

1- ¿Hay algún canal discord/telegram para poder preguntar en caso de dudas sobre SD?

2- ¿Puedes decirme los servicios o programas que usas para entrenar los LoRas para SD?

3- Estoy usando COMFY UI en local y quería crear las "miniaturas pintadas" que pusiste en uno de los primeros post.
https://civitai.com/models/7718/painted-miniature
Según la descripción el LoRA es este "Pmini_v3.5.18.safetensors" (144MB) pero leyendo veo que pone que además utiliza "Clarity" (3.97GB) y "Protogen x5.3" (3.97GB)

¿Como se cuece todo esto en COMFY UI?

Muchas gracias.

Saludos
Gus





Desconectado sirdrak

  • VIP
  • *
  • Mensajes: 1349
  • Gracias 60
  • Ciudad: Sevilla
Re: La revolución que suponen las IA generativas de imágenes a partir de texto
« Respuesta #92 en: Agosto 22, 2024, 01:20:14 am »
Bueno pues el tema de Flux está que arde...

Vale justo he empezado a usar SD y sale Flux !!! :-)

Si me permites un par de preguntas SR. Sirdrak por favor...

1- ¿Hay algún canal discord/telegram para poder preguntar en caso de dudas sobre SD?

2- ¿Puedes decirme los servicios o programas que usas para entrenar los LoRas para SD?

3- Estoy usando COMFY UI en local y quería crear las "miniaturas pintadas" que pusiste en uno de los primeros post.
https://civitai.com/models/7718/painted-miniature
Según la descripción el LoRA es este "Pmini_v3.5.18.safetensors" (144MB) pero leyendo veo que pone que además utiliza "Clarity" (3.97GB) y "Protogen x5.3" (3.97GB)

¿Como se cuece todo esto en COMFY UI?

Muchas gracias.

Saludos
Gus

Bueno es que veo que has empezado por lo más complicado jejeje Lo más sencillo sería empezar usando Forge en vez de ComfyUI... Pero bueno vamos con las dudas. En Telegram hay un grupo de español en que estoy yo y está muy bien para estas cosas... Es este: https://t.me/inteligenciaartificialparatodos

Para entrenar LoRas en local suelo usar Kohya-ss, que es una utilidad dedicada para ello y que da muy buenos resultados. Hay otra muy popular que se llama OneTrainer que es algo más sencilla de usar, pero nunca la he usado. Y online, la que sí que he probado y me ha dado resultados muy buenos es la de la web de Civitai (https://civitai.com/). Aviso que entrenar un LoRa es algo bastante complejo con multitud de parámetros de configuración y además no hay un método exacto, por lo que es un proceso iterativo de 'prueba y error'.

En lo referente al LoRa de las minis eso a lo que hace referencia son los Checkpoints que se han usado para generar las imágenes... Imagino que ya sabrás que un checkpoint es el modelo completo, la IA en sí que genera la imagen. En el caso de Stable Diffusion y el resto de modelos opensource, hay muchos porque al tener los usuarios acceso al modelo original de la empresa responsable de su creación, los pueden personalizar y reentrenar para hacer un tipo específico de imágenes, mejoran notablemente la calidad de las mismas... Hay literalmente miles de ellos, y esos dos en particular son modelos de fotorrealismo basados en SD 1.5, pero puedes usar el modelo que más te guste. Obviamente el resultado será mejor con unos que con otros, para este caso lo mejor son modelos de fotorrealismo o tipo RPG (especializados en hacer personajes de fantasía y esas cosas). Para usarlos en ComfyUI sólo tienes que descargarlos a la carpeta models/checkpoints y luego en el nodo de carga del modelo te saldrán en la lista para elegir.
« Última modificación: Agosto 22, 2024, 01:24:18 am por sirdrak »

Desconectado sirdrak

  • VIP
  • *
  • Mensajes: 1349
  • Gracias 60
  • Ciudad: Sevilla
Re: La revolución que suponen las IA generativas de imágenes a partir de texto
« Respuesta #93 en: Septiembre 01, 2024, 07:52:50 pm »
Bueno, pues parece ser que el que Flux tenga como text encoder un LLM completo (el T5), beneficia y facilita bastante el entrenar LoRas... Parece ser que dan mejor resultado usando pocas imágenes de entrenamiento (entre 10 y 30) e incluso sin etiquetar dichas imágenes porque el LLM ya entiende perfectamente lo que está viendo sin que nosotros se lo expliquemos... Como primera prueba me he entretenido en entrenar uno de la Bruja Avería con sólo 11 imágenes y poniendo únicamente como etiqueta la palabra para invocar al personaje, que en mi caso es 'b-averia'... El resultado es bastante bueno, como podéis ver en estas imágenes:









Mi LoRa se puede descargar de aquí: https://civitai.com/models/710616

Desconectado Zael

  • VIP
  • *
  • Mensajes: 1983
  • Gracias 10
    • Ancient Bits
  • Iniciales nick: ZAE
Re: La revolución que suponen las IA generativas de imágenes a partir de texto
« Respuesta #94 en: Septiembre 02, 2024, 10:42:41 am »



No me digas más... ¡Mercadona a las 19h! Ja, ja, sólo te ha faltado ponerle la piña al revés!  ;D ;D

P.D.: La de "Avería for President" brutal también, ja ja! Muy buenas las imágenes esas, está claro que para generación de imágenes las I.A. estas lo están petando.






Desconectado empardopo

  • Admin
  • *
  • Mensajes: 21929
  • Gracias 763
  • Espero mejorar al KungFu Master!
    • Mi canal de Youtube
  • Ciudad: Norte de África
  • Pais: Escoña
  • Iniciales nick: EPP
Re: La revolución que suponen las IA generativas de imágenes a partir de texto
« Respuesta #95 en: Septiembre 03, 2024, 07:26:58 pm »



No me digas más... ¡Mercadona a las 19h! Ja, ja, sólo te ha faltado ponerle la piña al revés!  ;D ;D

P.D.: La de "Avería for President" brutal también, ja ja! Muy buenas las imágenes esas, está claro que para generación de imágenes las I.A. estas lo están petando.

Joder! Menuda publicidad para el puto Mercadona de las pelotas que menudos precios llevan ya tiempo poniendo!!!!

Desconectado sirdrak

  • VIP
  • *
  • Mensajes: 1349
  • Gracias 60
  • Ciudad: Sevilla
Re: La revolución que suponen las IA generativas de imágenes a partir de texto
« Respuesta #96 en: Octubre 14, 2024, 12:05:56 pm »
Bueno, pues he hecho un pequeño experimento y me ha salido bastante bién... Si recordáis, hace un tiempo, las imágenes que yo creaba en Stable Diffusion usaban una especie de estilo que descubrí por casualidad a combinar varios modelos (entre ellos mi versión del modelo del estilo de Azpiri de Stable Diffusion 1.5) de una determinada forma, básicamente el de estas imágenes:





Es decir, que no era un modelo concreto sino una combinación de varios... Pues bién, ya llevaba un tiempo pensando en entrenar un modelo con imágenes generadas de esta forma para convertirlo en un estilo normal, en modelos más modernos como Pony y Flux, con la intención de conservar la estética y tener las ventajas de dichos modelos. Así que me puse manos a la obra y entrené un LoRa con un set de imágenes de entrenamiento formado por unas 73 imágenes de las mejores generadas por mí mismo con dicho estilo (y con menos fallos de los típicos como en las manos y tal) en Flux, y bueno, pues parece que lo he clavado y a la primera. La ventaja es que ya no me salen las manos mal y puedo controlar mucho mucho mejor lo que quiero que salga en las imágenes gracias al mejor entendimiento de Flux. Unas cuantas imágenes de ejemplo:

















Como podéis ver, el estilo clavado al 100% pero con mejores manos y anatomía. Lo he puesto en Civitai y parece que está teniendo buena aceptación (más de 80 descargas en 2 días). Para el que lo quiera probar, se puede descargar aquí:

https://civitai.com/models/844159/western-comic-semirealistic-25d-style-for-flux

Mi siguiente idea es entrenarlo en Pony y así se podrán hacer cosas 'más subidillas de tono' con dicho estilo  ;D

Desconectado sirdrak

  • VIP
  • *
  • Mensajes: 1349
  • Gracias 60
  • Ciudad: Sevilla
Re: La revolución que suponen las IA generativas de imágenes a partir de texto
« Respuesta #97 en: Octubre 31, 2024, 01:35:46 pm »
He mejorado mi modelo anterior y hoy he publicado una nueva versión con las siguientes mejoras:

- Más detalle de texturas y pequeños detalles.
- Mejor textura de piel y ropa, especialmente de piel de 'tios cachas'.
- Notable mejora en los efectos de luz e iluminación.

Unos ejemplos:



















Se puede descargar aquí: https://civitai.com/models/844159/western-comic-semirealistic-25d-style-for-flux

 


* Van dos y se cae el del medio - Hilo de cachondeo general  Autor: joselopez Foro: Offtopic 05/11/2024 (01:35)
* Salón Recreativo #57 (28-09-2024 / 27-10-2024)  Autor: Zael Foro: Salón Recreativo FaseBonus 04/11/2024 (16:35)
* [Recomendación] Cine para los findes en casa (bueno, bonito y barato)  Autor: treme Foro: Offtopic 31/10/2024 (23:59)
* La revolución que suponen las IA generativas de imágenes a partir de texto  Autor: sirdrak Foro: Offtopic 31/10/2024 (13:35)
* ¿A qué estáis jugando ahora mismo?  Autor: joselopez Foro: Offtopic 31/10/2024 (00:12)
* Están muy callados los culerdos, no?  Autor: daninuyusio Foro: Offtopic 28/10/2024 (02:02)
* [Recomendacion] Series y películas anime  Autor: Zael Foro: Offtopic 26/10/2024 (21:06)
* Ofertas Amazon  Autor: empardopo Foro: Offtopic 24/10/2024 (07:22)
* ArcadeSpain forever!  Autor: empardopo Foro: Noticias 23/10/2024 (07:22)
* Hello.app 100Gb free  Autor: arquillos Foro: Offtopic 20/10/2024 (11:13)
* [Tutorial] Vectrex en la recre  Autor: Zael Foro: Emuladores 19/10/2024 (12:24)
* Chollos para todos!!!!  Autor: Zael Foro: Links interesantes 19/10/2024 (12:23)
* [ZX Spectrum] The Blond  Autor: jmpuk Foro: Recomendaciones de juegos 12/10/2024 (15:23)
* El Aventurero Feliz  Autor: treme Foro: Offtopic 09/10/2024 (22:08)
* ¿Cerramos el foro Arcadespain? - ¿Cambios?  Autor: empardopo Foro: Noticias 09/10/2024 (07:30)
* Reto 323 - Plotting  Autor: Zael Foro: Competiciones y concursos 06/10/2024 (22:58)
* [ZX Spectrum] La daga Oscura  Autor: empardopo Foro: Recomendaciones de juegos 05/10/2024 (10:53)

Reto 222: Hard Times
Buscaunchollo.click