Autor Tema: La revolución que suponen las IA generativas de imágenes a partir de texto (Leído 9542 veces)

sirdrak · « **Respuesta #90 en:** Agosto 13, 2024, 01:35:29 pm »

Bueno pues el tema de Flux está que arde... La comunidad se ha volcado por completo con él y ya están saliendo avances y cosas interesantes... Vamos a comentar algunas de ellas:

- Como sabéis, Flux, al ser tan grande, de inicio para ser usado al 100% en fp16 pedía una gráfica con 24 GB de VRAM (es decir una RTX 3090 o una RTX 4090). Después salieron versiones en fp8, que permitían ejecutar los modelos en equipos con gráficas con 12 GB de VRAM con una pérdida de calidad mínima. Pues bién, resulta que Illyasviel, nada menos que el creador de ControlNET, de Fooocus y de Forge, tras estar durante 7 días picando código 14 horas diarias, ha dado un paso más en la optimización de modelos para generación de imágenes aplicando técnicas de optimización que hasta ahora se usaban exclusivamente en LLMs, de forma que no sólo ha dado soporte a Flux en Forge, sino que ha hecho posible ejecutarlo en másquinas con 6/8 GB de VRAM e incluso menos, tanto la variante Dev como la variante Schnell. Para ello ha sacado una versión optimizada BNB FN4 de ambos modelos con muy buenos resultados y siendo incluso más rápidas que usando ComfyUI, lo que supone una proeza.

- A pesar de la dificultad que en principio parecía suponer el gran tamaño de Flux a la hora de entrenarlo para crear LoRas o nuevos Checkpoints (que parecían requerir ya de gráficas profesionales para entrenar), finalmente están empezando a aparecer LoRas y técnicas para entrenarlos con 24 GB de VRAM. Ya hay LoRas para conseguir más realismo en fotos, otro para generar más imágenes de tipo 'no-profesional', etc...

zzgus · « **Respuesta #91 en:** Agosto 21, 2024, 12:36:09 pm »

Cita de: sirdrak en Agosto 13, 2024, 01:35:29 pm

Bueno pues el tema de Flux está que arde...

Vale justo he empezado a usar SD y sale Flux !!! :-)

Si me permites un par de preguntas SR. Sirdrak por favor...

1- ¿Hay algún canal discord/telegram para poder preguntar en caso de dudas sobre SD?

2- ¿Puedes decirme los servicios o programas que usas para entrenar los LoRas para SD?

3- Estoy usando COMFY UI en local y quería crear las "miniaturas pintadas" que pusiste en uno de los primeros post.
https://civitai.com/models/7718/painted-miniature
Según la descripción el LoRA es este "Pmini_v3.5.18.safetensors" (144MB) pero leyendo veo que pone que además utiliza "Clarity" (3.97GB) y "Protogen x5.3" (3.97GB)

¿Como se cuece todo esto en COMFY UI?

Muchas gracias.

Saludos
Gus

sirdrak · « **Respuesta #92 en:** Agosto 22, 2024, 01:20:14 am »

Cita de: zzgus en Agosto 21, 2024, 12:36:09 pm

Cita de: sirdrak en Agosto 13, 2024, 01:35:29 pm
Bueno pues el tema de Flux está que arde...

Vale justo he empezado a usar SD y sale Flux !!! :-)

Si me permites un par de preguntas SR. Sirdrak por favor...

1- ¿Hay algún canal discord/telegram para poder preguntar en caso de dudas sobre SD?

2- ¿Puedes decirme los servicios o programas que usas para entrenar los LoRas para SD?

3- Estoy usando COMFY UI en local y quería crear las "miniaturas pintadas" que pusiste en uno de los primeros post.
https://civitai.com/models/7718/painted-miniature
Según la descripción el LoRA es este "Pmini_v3.5.18.safetensors" (144MB) pero leyendo veo que pone que además utiliza "Clarity" (3.97GB) y "Protogen x5.3" (3.97GB)

¿Como se cuece todo esto en COMFY UI?

Muchas gracias.

Saludos
Gus

Bueno es que veo que has empezado por lo más complicado jejeje Lo más sencillo sería empezar usando Forge en vez de ComfyUI... Pero bueno vamos con las dudas. En Telegram hay un grupo de español en que estoy yo y está muy bien para estas cosas... Es este: https://t.me/inteligenciaartificialparatodos

Para entrenar LoRas en local suelo usar Kohya-ss, que es una utilidad dedicada para ello y que da muy buenos resultados. Hay otra muy popular que se llama OneTrainer que es algo más sencilla de usar, pero nunca la he usado. Y online, la que sí que he probado y me ha dado resultados muy buenos es la de la web de Civitai (https://civitai.com/). Aviso que entrenar un LoRa es algo bastante complejo con multitud de parámetros de configuración y además no hay un método exacto, por lo que es un proceso iterativo de 'prueba y error'.

En lo referente al LoRa de las minis eso a lo que hace referencia son los Checkpoints que se han usado para generar las imágenes... Imagino que ya sabrás que un checkpoint es el modelo completo, la IA en sí que genera la imagen. En el caso de Stable Diffusion y el resto de modelos opensource, hay muchos porque al tener los usuarios acceso al modelo original de la empresa responsable de su creación, los pueden personalizar y reentrenar para hacer un tipo específico de imágenes, mejoran notablemente la calidad de las mismas... Hay literalmente miles de ellos, y esos dos en particular son modelos de fotorrealismo basados en SD 1.5, pero puedes usar el modelo que más te guste. Obviamente el resultado será mejor con unos que con otros, para este caso lo mejor son modelos de fotorrealismo o tipo RPG (especializados en hacer personajes de fantasía y esas cosas). Para usarlos en ComfyUI sólo tienes que descargarlos a la carpeta models/checkpoints y luego en el nodo de carga del modelo te saldrán en la lista para elegir.

sirdrak · « **Respuesta #93 en:** Septiembre 01, 2024, 07:52:50 pm »

Bueno, pues parece ser que el que Flux tenga como text encoder un LLM completo (el T5), beneficia y facilita bastante el entrenar LoRas... Parece ser que dan mejor resultado usando pocas imágenes de entrenamiento (entre 10 y 30) e incluso sin etiquetar dichas imágenes porque el LLM ya entiende perfectamente lo que está viendo sin que nosotros se lo expliquemos... Como primera prueba me he entretenido en entrenar uno de la Bruja Avería con sólo 11 imágenes y poniendo únicamente como etiqueta la palabra para invocar al personaje, que en mi caso es 'b-averia'... El resultado es bastante bueno, como podéis ver en estas imágenes:

Mi LoRa se puede descargar de aquí: https://civitai.com/models/710616

Zael · « **Respuesta #94 en:** Septiembre 02, 2024, 10:42:41 am »

Cita de: sirdrak en Septiembre 01, 2024, 07:52:50 pm

No me digas más... ¡Mercadona a las 19h! Ja, ja, sólo te ha faltado ponerle la piña al revés!

P.D.: La de "Avería for President" brutal también, ja ja! Muy buenas las imágenes esas, está claro que para generación de imágenes las I.A. estas lo están petando.

empardopo · « **Respuesta #95 en:** Septiembre 03, 2024, 07:26:58 pm »

Cita de: Zael en Septiembre 02, 2024, 10:42:41 am

Cita de: sirdrak en Septiembre 01, 2024, 07:52:50 pm

No me digas más... ¡Mercadona a las 19h! Ja, ja, sólo te ha faltado ponerle la piña al revés!

P.D.: La de "Avería for President" brutal también, ja ja! Muy buenas las imágenes esas, está claro que para generación de imágenes las I.A. estas lo están petando.

Joder! Menuda publicidad para el puto Mercadona de las pelotas que menudos precios llevan ya tiempo poniendo!!!!

sirdrak · « **Respuesta #96 en:** Octubre 14, 2024, 12:05:56 pm »

Bueno, pues he hecho un pequeño experimento y me ha salido bastante bién... Si recordáis, hace un tiempo, las imágenes que yo creaba en Stable Diffusion usaban una especie de estilo que descubrí por casualidad a combinar varios modelos (entre ellos mi versión del modelo del estilo de Azpiri de Stable Diffusion 1.5) de una determinada forma, básicamente el de estas imágenes:

Es decir, que no era un modelo concreto sino una combinación de varios... Pues bién, ya llevaba un tiempo pensando en entrenar un modelo con imágenes generadas de esta forma para convertirlo en un estilo normal, en modelos más modernos como Pony y Flux, con la intención de conservar la estética y tener las ventajas de dichos modelos. Así que me puse manos a la obra y entrené un LoRa con un set de imágenes de entrenamiento formado por unas 73 imágenes de las mejores generadas por mí mismo con dicho estilo (y con menos fallos de los típicos como en las manos y tal) en Flux, y bueno, pues parece que lo he clavado y a la primera. La ventaja es que ya no me salen las manos mal y puedo controlar mucho mucho mejor lo que quiero que salga en las imágenes gracias al mejor entendimiento de Flux. Unas cuantas imágenes de ejemplo:

Como podéis ver, el estilo clavado al 100% pero con mejores manos y anatomía. Lo he puesto en Civitai y parece que está teniendo buena aceptación (más de 80 descargas en 2 días). Para el que lo quiera probar, se puede descargar aquí:

https://civitai.com/models/844159/western-comic-semirealistic-25d-style-for-flux

Mi siguiente idea es entrenarlo en Pony y así se podrán hacer cosas 'más subidillas de tono' con dicho estilo

sirdrak · « **Respuesta #97 en:** Octubre 31, 2024, 01:35:46 pm »

He mejorado mi modelo anterior y hoy he publicado una nueva versión con las siguientes mejoras:

- Más detalle de texturas y pequeños detalles.
- Mejor textura de piel y ropa, especialmente de piel de 'tios cachas'.
- Notable mejora en los efectos de luz e iluminación.

Unos ejemplos:

Se puede descargar aquí: https://civitai.com/models/844159/western-comic-semirealistic-25d-style-for-flux

Van dos y se cae el del medio - Hilo de cachondeo general	Autor: joselopez	Foro: Offtopic	05/11/2024 (01:35)
Salón Recreativo #57 (28-09-2024 / 27-10-2024)	Autor: Zael	Foro: Salón Recreativo FaseBonus	04/11/2024 (16:35)
[Recomendación] Cine para los findes en casa (bueno, bonito y barato)	Autor: treme	Foro: Offtopic	31/10/2024 (23:59)
La revolución que suponen las IA generativas de imágenes a partir de texto	Autor: sirdrak	Foro: Offtopic	31/10/2024 (13:35)
¿A qué estáis jugando ahora mismo?	Autor: joselopez	Foro: Offtopic	31/10/2024 (00:12)
Están muy callados los culerdos, no?	Autor: daninuyusio	Foro: Offtopic	28/10/2024 (02:02)
[Recomendacion] Series y películas anime	Autor: Zael	Foro: Offtopic	26/10/2024 (21:06)
Ofertas Amazon	Autor: empardopo	Foro: Offtopic	24/10/2024 (07:22)
ArcadeSpain forever!	Autor: empardopo	Foro: Noticias	23/10/2024 (07:22)
Hello.app 100Gb free	Autor: arquillos	Foro: Offtopic	20/10/2024 (11:13)
[Tutorial] Vectrex en la recre	Autor: Zael	Foro: Emuladores	19/10/2024 (12:24)
Chollos para todos!!!!	Autor: Zael	Foro: Links interesantes	19/10/2024 (12:23)
[ZX Spectrum] The Blond	Autor: jmpuk	Foro: Recomendaciones de juegos	12/10/2024 (15:23)
El Aventurero Feliz	Autor: treme	Foro: Offtopic	09/10/2024 (22:08)
¿Cerramos el foro Arcadespain? - ¿Cambios?	Autor: empardopo	Foro: Noticias	09/10/2024 (07:30)
Reto 323 - Plotting	Autor: Zael	Foro: Competiciones y concursos	06/10/2024 (22:58)
[ZX Spectrum] La daga Oscura	Autor: empardopo	Foro: Recomendaciones de juegos	05/10/2024 (10:53)

Arcadespain

Autor Tema: La revolución que suponen las IA generativas de imágenes a partir de texto (Leído 9542 veces)

sirdrak

Re: La revolución que suponen las IA generativas de imágenes a partir de texto

zzgus

Re: La revolución que suponen las IA generativas de imágenes a partir de texto

sirdrak

Re: La revolución que suponen las IA generativas de imágenes a partir de texto

sirdrak

Re: La revolución que suponen las IA generativas de imágenes a partir de texto

Zael

Re: La revolución que suponen las IA generativas de imágenes a partir de texto

empardopo

Re: La revolución que suponen las IA generativas de imágenes a partir de texto

sirdrak

Re: La revolución que suponen las IA generativas de imágenes a partir de texto

sirdrak

Re: La revolución que suponen las IA generativas de imágenes a partir de texto

Temas recientes