Imprimir Página - La revolución que suponen las IA generativas de imágenes a partir de texto

Arcadespain => Offtopic => Mensaje iniciado por: sirdrak en Febrero 03, 2023, 01:01:05 pm

Título: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: sirdrak en Febrero 03, 2023, 01:01:05 pm

Buenos días compañeros! Hoy os vengo a hablar de un tema que está de actualidad y con el que he estado experimentando esta semana... Seguro que habéis oido hablar de la generación de imágenes usando inteligencia artificial con tan sólo describir en una frase escrita lo que quieres que tenga la imagen, que ha creado mucha polémica ya que muchos artistas creen que les puede quitar el trabajo (yo no lo pienso así, de hecho creo que es una herramienta muy útil). Algunos han llegado a demandar a las empresas que investigan dichas IA argumentando que al ser entrenadas a partir de imágenes de artistas humanos, las nuevas imágenes que crea la IA infringirían sus derechos de autor (algo absurdo, porque la IA no hace otra cosa diferente que cualquier artista humano cuando aprende a dibujar o pintar en algún estilo... todos nosotros nos basamos en el trabajo previo y la observación de creaciones anteriores, y adoptamos el estilo o mezcla de estilos de artistas anteriores a nosotros). También ha ocurrido que algunos bancos de imágenes se han negado a aceptar imágenes creadas de esta manera alineándose con ese grupo de artistas a los que no les gusta la IA.

De igual forma, otra polémica tiene que ver con temas eticos, ya que se pueden usar para crear deepfakes y porno, temas siempre espinosos.

Lo mejor que tienen es que son de uso muy sencillo y se pueden conseguir resultados espectaculares y cosas que parecen increíbles en cuestión de segundos. Las más famosas son Dall-E, Midjourney y Stable Diffusion. Yo las he probado las tres, aunque ahora sólo uso esta última. La más espectacular y avanzada es Midjourney, ya que con frases de por ejemplo cuatro o 5 palabras ya arroja resultados espectaculares, y es la más sencilla de usar. La pega es que tanto esta como Dall-E te ofrecen un número de usos gratis, y a partir de ahí tienes que pagar o suscribirte a un plan de pago.

Sin embargo, la que me tiene entusiasmado es Stable Diffusion, que a diferencia de las otras es open source, de uso gratuíto sin limitaciones, y sin censurar ningún tipo de contenido. Además de poderla usar online, se puede instalar localmente y tiene una enorme comunidad detrás creando modelos para ella para hacer todo tipo de imágenes y contenido (por ejemplo imágenes con el estilo artístico de los juegos de Vanillaware). Yo la tengo instalada tanto en mi ordenador de sobremesa como en mi portátil y la uso asiduamente.

Su uso es bastante sencillo como comenté antes... Veréis que aparece un formulario con dos líneas de texto, una para la frase 'positiva' y otra para la frase 'negativa'. En la primera escribimos bien la descripción, bien las palabras que definen los elementos que queremos que aparezcan en la imagen a generar (por ejemplo, mujer sueca de 21 años, pelo rubio, alta, bikini verde, atlética, observando atardecer en la playa), pudiendo marcar algunas palabras como más relevantes poniéndolas entre paréntesis (a más paréntesis, más relevancia) o entre corchetes (menos relevancia) para que se tenga en cuenta en el resultado. En la segunda línea, se hace lo mismo pero con todo lo que NO queremos que tenga o sea la imagen, y nos sirve no sólo para excluir elementos sino para acotar la calidad de la imagen y descartar imágenes que tengan defectos de generación (por ejemplo cuerpos deformes, menos dedos, más dedos, piernas faltantes, personajes fusionados, imágenes borrosas, etc...).

Y después tenemos una sección (esto sólo disponible usando la IA en local o con versiones online no oficiales de Stable Diffusion) en la que podemos indicar la resolución de la imagen, el número de iteraciones que queremos que haga la IA para generar la imagen final y un indicador en el que asignamos con un valor la fidelidad que queremos que tenga la IA con el texto que le hemos escrito a la hora de generar la imagen (que sea más o menos literal o estricta al tener en cuenta los elementos del texto).

Además tenemos un desplegable en el que podemos seleccionar otros modelos diferentes del oficial, que es donde salen los modelos descargados de la comunidad para cosas concretas, por ejemplo para generar anime, personas realistas, etc...

Por si fuera poco, además se nos ofrece un pequeño editor que permite importar una imagen (bien una imagen real, bien una previamente generada con la propia IA) y hacer la generación de la imagen basándose en el contenido de la imagen previa, e incluso podemos señalar con un marcador partes de la imagen para que sólo se modifique eso y deje el resto sin tocar, lo que nos dá posibilidades infinitas (por ejemplo cambiar de escenario en segundos sin tirarte horas en Photoshop). Además, es sencillísimo entrenar a la IA para incluir en la generación objetos, personas o nuevas características... Por ejemplo, para incluirme yo mismo en la generación de las imágenes sólo necesitaría unas 20 fotos mías, tres de cuerpo entero en varios ángulos, 5 o 6 del torso, y el resto de mi cara con diferentes expresiones. Con esas imágenes pones a la IA a entrenar y le asignas una eitiqueta, y para usar lo que has hecho en la imagen tan sólo tienes que escribir la etiqueta en la descripción.

Pero ahora vamos a lo interesante, los resultados... Y estos generados en cuestión de segundos, como comento. Se pueden generar personas indistinguibles de las reales (esto va a gustar a compañero @daninuyusio) como estas:

(https://i.imgur.com/ZNbVu0d.png)
(https://i.imgur.com/nBeintL.png)
(https://i.imgur.com/8ruIQfF.png)
(https://i.imgur.com/Q5LyOTP.png)
(https://i.imgur.com/CmoDL1P.png)
(https://i.imgur.com/kUdq5Se.png)
(https://i.imgur.com/bw1XZG5.png)

O imágenes en cualquier estilo artístico, por ejemplo unas waifus:

(https://i.imgur.com/TmWbNHl.png)
(https://i.imgur.com/wlQVvZY.png)
(https://i.imgur.com/EfCIAUt.png)
(https://i.imgur.com/YdS7Iby.png)
(https://i.imgur.com/AcgPCgJ.png)
(https://i.imgur.com/7xg7oSo.png)
(https://i.imgur.com/34ZhbD2.png)

Luego, se puede guardar la 'semilla' de una imagen generada y que haga variaciones a partir de ella, para obtener imágenes similares en las que los personajes cambian menos y son más parecidos de unas a otras, además de controlar el grado de variación, por ejemplo con estas:

(https://i.imgur.com/7aIBHBw.png)
(https://i.imgur.com/uWBdEIv.png)
(https://i.imgur.com/kUs2he5.png)
(https://i.imgur.com/CRQBhVH.png)

En fin, que aún estoy alucinando con todo esto y tiene muchas posibilidades de todo tipo... De hecho en el siguiente vídeo podéis ver cómo un diseñador usa Stable Diffusion para generar un personaje y luego animarlo haciendo uso de Photoshop y After Effects:

¿Qué os parece? Si os interesa el tema y queréis probar a instalar la IA y generar imágenes, sólo tenéis que seguir el siguiente tutorial:

https://rentry.co/UnofficialUnstableGuide (https://rentry.co/UnofficialUnstableGuide)

No es complicado de hacer pero hay que seguir paso a paso lo que dice la guía y dedicarle un par de horas... También que necesitaréis una gráfica más o menos potente, aunque la misma guía ya lo explica.

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: jmpuk en Febrero 03, 2023, 09:45:55 pm

Que interesante, gracias!!!!!

Enviado desde mi ZX-82 en 1985

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: jose365 en Febrero 04, 2023, 08:53:23 am

Es espectacular lo que puede hacer la IA. Recuerdo que hice un fotomontaje gracioso con una foto de Internet y pegando encima los avatares algunos compañeros del Salón recreativo, y la calidad era mucho mucho peor.
Eso sí, era tan cutre que resultaba gracioso.

Enviado desde mi Redmi Note 8 Pro mediante Tapatalk

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: empardopo en Febrero 04, 2023, 11:14:00 am

Cita de: sirdrak en Febrero 03, 2023, 01:01:05 pm

Buenos días compañeros! Hoy os vengo a hablar de un tema que está de actualidad y con el que he estado experimentando esta semana... Seguro que habéis oido hablar de la generación de imágenes usando inteligencia artificial con tan sólo describir en una frase escrita lo que quieres que tenga la imagen, que ha creado mucha polémica ya que muchos artistas creen que les puede quitar el trabajo (yo no lo pienso así, de hecho creo que es una herramienta muy útil). Algunos han llegado a demandar a las empresas que investigan dichas IA argumentando que al ser entrenadas a partir de imágenes de artistas humanos, las nuevas imágenes que crea la IA infringirían sus derechos de autor (algo absurdo, porque la IA no hace otra cosa diferente que cualquier artista humano cuando aprende a dibujar o pintar en algún estilo... todos nosotros nos basamos en el trabajo previo y la observación de creaciones anteriores, y adoptamos el estilo o mezcla de estilos de artistas anteriores a nosotros). También ha ocurrido que algunos bancos de imágenes se han negado a aceptar imágenes creadas de esta manera alineándose con ese grupo de artistas a los que no les gusta la IA.

De igual forma, otra polémica tiene que ver con temas eticos, ya que se pueden usar para crear deepfakes y porno, temas siempre espinosos.

Lo mejor que tienen es que son de uso muy sencillo y se pueden conseguir resultados espectaculares y cosas que parecen increíbles en cuestión de segundos. Las más famosas son Dall-E, Midjourney y Stable Diffusion. Yo las he probado las tres, aunque ahora sólo uso esta última. La más espectacular y avanzada es Midjourney, ya que con frases de por ejemplo cuatro o 5 palabras ya arroja resultados espectaculares, y es la más sencilla de usar. La pega es que tanto esta como Dall-E te ofrecen un número de usos gratis, y a partir de ahí tienes que pagar o suscribirte a un plan de pago.

Sin embargo, la que me tiene entusiasmado es Stable Diffusion, que a diferencia de las otras es open source, de uso gratuíto sin limitaciones, y sin censurar ningún tipo de contenido. Además de poderla usar online, se puede instalar localmente y tiene una enorme comunidad detrás creando modelos para ella para hacer todo tipo de imágenes y contenido (por ejemplo imágenes con el estilo artístico de los juegos de Vanillaware). Yo la tengo instalada tanto en mi ordenador de sobremesa como en mi portátil y la uso asiduamente.

Su uso es bastante sencillo como comenté antes... Veréis que aparece un formulario con dos líneas de texto, una para la frase 'positiva' y otra para la frase 'negativa'. En la primera escribimos bien la descripción, bien las palabras que definen los elementos que queremos que aparezcan en la imagen a generar (por ejemplo, mujer sueca de 21 años, pelo rubio, alta, bikini verde, atlética, observando atardecer en la playa), pudiendo marcar algunas palabras como más relevantes poniéndolas entre paréntesis (a más paréntesis, más relevancia) o entre corchetes (menos relevancia) para que se tenga en cuenta en el resultado. En la segunda línea, se hace lo mismo pero con todo lo que NO queremos que tenga o sea la imagen, y nos sirve no sólo para excluir elementos sino para acotar la calidad de la imagen y descartar imágenes que tengan defectos de generación (por ejemplo cuerpos deformes, menos dedos, más dedos, piernas faltantes, personajes fusionados, imágenes borrosas, etc...).

Y después tenemos una sección (esto sólo disponible usando la IA en local o con versiones online no oficiales de Stable Diffusion) en la que podemos indicar la resolución de la imagen, el número de iteraciones que queremos que haga la IA para generar la imagen final y un indicador en el que asignamos con un valor la fidelidad que queremos que tenga la IA con el texto que le hemos escrito a la hora de generar la imagen (que sea más o menos literal o estricta al tener en cuenta los elementos del texto).

Además tenemos un desplegable en el que podemos seleccionar otros modelos diferentes del oficial, que es donde salen los modelos descargados de la comunidad para cosas concretas, por ejemplo para generar anime, personas realistas, etc...

Por si fuera poco, además se nos ofrece un pequeño editor que permite importar una imagen (bien una imagen real, bien una previamente generada con la propia IA) y hacer la generación de la imagen basándose en el contenido de la imagen previa, e incluso podemos señalar con un marcador partes de la imagen para que sólo se modifique eso y deje el resto sin tocar, lo que nos dá posibilidades infinitas (por ejemplo cambiar de escenario en segundos sin tirarte horas en Photoshop). Además, es sencillísimo entrenar a la IA para incluir en la generación objetos, personas o nuevas características... Por ejemplo, para incluirme yo mismo en la generación de las imágenes sólo necesitaría unas 20 fotos mías, tres de cuerpo entero en varios ángulos, 5 o 6 del torso, y el resto de mi cara con diferentes expresiones. Con esas imágenes pones a la IA a entrenar y le asignas una eitiqueta, y para usar lo que has hecho en la imagen tan sólo tienes que escribir la etiqueta en la descripción.

Pero ahora vamos a lo interesante, los resultados... Y estos generados en cuestión de segundos, como comento. Se pueden generar personas indistinguibles de las reales (esto va a gustar a compañero @daninuyusio) como estas:

(https://i.imgur.com/ZNbVu0d.png)
(https://i.imgur.com/nBeintL.png)
(https://i.imgur.com/8ruIQfF.png)
(https://i.imgur.com/Q5LyOTP.png)
(https://i.imgur.com/CmoDL1P.png)
(https://i.imgur.com/kUdq5Se.png)
(https://i.imgur.com/bw1XZG5.png)

O imágenes en cualquier estilo artístico, por ejemplo unas waifus:

(https://i.imgur.com/TmWbNHl.png)
(https://i.imgur.com/wlQVvZY.png)
(https://i.imgur.com/EfCIAUt.png)
(https://i.imgur.com/YdS7Iby.png)
(https://i.imgur.com/AcgPCgJ.png)
(https://i.imgur.com/7xg7oSo.png)
(https://i.imgur.com/34ZhbD2.png)

Luego, se puede guardar la 'semilla' de una imagen generada y que haga variaciones a partir de ella, para obtener imágenes similares en las que los personajes cambian menos y son más parecidos de unas a otras, además de controlar el grado de variación, por ejemplo con estas:

(https://i.imgur.com/7aIBHBw.png)
(https://i.imgur.com/uWBdEIv.png)
(https://i.imgur.com/kUs2he5.png)
(https://i.imgur.com/CRQBhVH.png)

En fin, que aún estoy alucinando con todo esto y tiene muchas posibilidades de todo tipo... De hecho en el siguiente vídeo podéis ver cómo un diseñador usa Stable Diffusion para generar un personaje y luego animarlo haciendo uso de Photoshop y After Effects:

¿Qué os parece? Si os interesa el tema y queréis probar a instalar la IA y generar imágenes, sólo tenéis que seguir el siguiente tutorial:

https://rentry.co/UnofficialUnstableGuide (https://rentry.co/UnofficialUnstableGuide)

No es complicado de hacer pero hay que seguir paso a paso lo que dice la guía y dedicarle un par de horas... También que necesitaréis una gráfica más o menos potente, aunque la misma guía ya lo explica.

Madre mía compi, deberías poner que texto has puesto para conseguir esas chicas que no sólo le llaman la atención a Dani, jajaja.

Oye, todo lo que comentas se podría hacer sin instalar nada en el ordenador? Es que en mi caso por enfermo, no tengo tarjeta potente...

Enviado desde mi MI MAX 2 mediante Tapatalk

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: Zael en Febrero 04, 2023, 07:42:10 pm

¡Jo... der! Esto podría ser muy útil para ilustrar libros con dibujos de los personajes, o para crear gráficos para aventuras (de hecho, creo que le iría como anillo al dedo para aventuras picantes como aquellas que hizo @iOtero), cómics, etc. Pero imagino que todos esos "modelos" que generan las IA acabarán siendo muy "clónicos" y se notará que falta la "mano del artista".

De todos modos, ¿no os da la sensación de estar los últimos años inundados de tecnología del ocio (smartphones ultra-potentes en la palma de la mano, TVs con resoluciones casi obscenas, criptomonedas que nadie sabe para que sirven, que si IAs bailando sardanas...), mientras que en cosas realmente importantes (salud, educación, problemas sociales, guerras) parece que todo avance a paso de tortuga por no decir que llevamos décadas estancados? ¿Qué opinaría una IA de todo esto? ;D :P

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: sirdrak en Febrero 05, 2023, 11:47:23 am

Cita de: Zael en Febrero 04, 2023, 07:42:10 pm

¡Jo... der! Esto podría ser muy útil para ilustrar libros con dibujos de los personajes, o para crear gráficos para aventuras (de hecho, creo que le iría como anillo al dedo para aventuras picantes como aquellas que hizo @iOtero), cómics, etc. Pero imagino que todos esos "modelos" que generan las IA acabarán siendo muy "clónicos" y se notará que falta la "mano del artista".

De todos modos, ¿no os da la sensación de estar los últimos años inundados de tecnología del ocio (smartphones ultra-potentes en la palma de la mano, TVs con resoluciones casi obscenas, criptomonedas que nadie sabe para que sirven, que si IAs bailando sardanas...), mientras que en cosas realmente importantes (salud, educación, problemas sociales, guerras) parece que todo avance a paso de tortuga por no decir que llevamos décadas estancados? ¿Qué opinaría una IA de todo esto? ;D :P

Para nada, además es facilísimo entrenar tú mismo a la IA para añadir nuevos estilos, incluir personas o personajes reales, etc... Por ejemplo: Si quiero crear imágenes en las que salga yo mismo, me basta con tener entre unas 20 o 30 fotos: unas 3 o 4 de cuerpo entero en varios ángulos, 5 o 6 del torso, y el resto de mi cara poniendo diferentes expresiones. Las fotos han de cumplir tan sólo el tener una resolución de 512x512 o 768x768, y llamarse todas con el mismo nombre y un número detrás entre paréntesis.

Luego ese nombre será el que invoques cuando generas la imagen para decirle a la IA que use lo aprendido. Lo pones a entrenar y te crea un archivo de modelo que tan sólo tienes que meter en la carpeta correspondiente con el resto y ya lo puedes usar.

Además la comunidad está contínuamente sacando nuevos modelos con más estilos y funcionalidades (es lo grande de Stable Diffusion, ser opensouerce y de libre uso), como podéis ver si visitáis por ejemplo https://civitai.com/ (https://civitai.com/) (allí veréis las cosas alucinantes que se pueden lograr... y hasta porno también, ojo).

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: Josepzin en Febrero 05, 2023, 02:42:38 pm

Toda una revolución esto de las IAs...

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: NuBus en Febrero 05, 2023, 02:49:47 pm

A mí, como dibujante me parece inmoral. lo mismo pensaría un taxista si se inventasen las cápsulas de teletransporte ;D

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: Zael en Febrero 05, 2023, 06:08:35 pm

Cita de: NuBus en Febrero 05, 2023, 02:49:47 pm

A mí, como dibujante me parece inmoral. lo mismo pensaría un taxista si se inventasen las cápsulas de teletransporte ;D

Pues parece que ya está pasando, justo esta mañana leía esta noticia sobre un corto de animación estrenado en Netflix (The Dog & The Boy) que ha sido hecha íntegramente con el uso de una IA...

https://computerhoy.com/entretenimiento/nuevo-anime-netflix-causa-indignacion-incorporar-arte-generado-ia-dejar-lado-humano-1193916

... ¡la madre que parió a las IA estas! ??? ???

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: sirdrak en Febrero 06, 2023, 02:30:23 pm

Cita de: Zael en Febrero 05, 2023, 06:08:35 pm

Cita de: NuBus en Febrero 05, 2023, 02:49:47 pm
A mí, como dibujante me parece inmoral. lo mismo pensaría un taxista si se inventasen las cápsulas de teletransporte ;D

Pues parece que ya está pasando, justo esta mañana leía esta noticia sobre un corto de animación estrenado en Netflix (The Dog & The Boy) que ha sido hecha íntegramente con el uso de una IA...

https://computerhoy.com/entretenimiento/nuevo-anime-netflix-causa-indignacion-incorporar-arte-generado-ia-dejar-lado-humano-1193916

... ¡la madre que parió a las IA estas! ??? ???

Yo tambien dibujo y sin embargo creo que es una herramienta muy útil incluso con el propio material de uno. Hay que verlo como la llegada en su día de programas de retoque fotográfico como el Photoshop.

En cuanto a la película de Netflix no es cierto que esté integramente hecha mediante una IA. La IA sólo la han usado para generar los fondos, todo lo demás ha sido realizado por ilustradores humanos como siempre. Además, ha habido una razón de peso para hacerlo: Desde después de la pandemia, muchos estudios de animación se están viendo con problemas para continuar las series debido a que hay una gran demanda de ilustradores, y los que hay tienen las agendas completas. Esto ha provocado que se hayan paralizado algunas series, algunas al poco de empezar, como ha pasado con la Nier Autómata, o con la de Isekai Ojisan, y en general con varias series de Aniplex. Por lo visto la situación es bastante grave de hecho...

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: empardopo en Febrero 06, 2023, 05:01:16 pm

Cita de: sirdrak en Febrero 06, 2023, 02:30:23 pm

Cita de: Zael en Febrero 05, 2023, 06:08:35 pm
Cita de: NuBus en Febrero 05, 2023, 02:49:47 pm
A mí, como dibujante me parece inmoral. lo mismo pensaría un taxista si se inventasen las cápsulas de teletransporte ;D

Pues parece que ya está pasando, justo esta mañana leía esta noticia sobre un corto de animación estrenado en Netflix (The Dog & The Boy) que ha sido hecha íntegramente con el uso de una IA...

https://computerhoy.com/entretenimiento/nuevo-anime-netflix-causa-indignacion-incorporar-arte-generado-ia-dejar-lado-humano-1193916

... ¡la madre que parió a las IA estas! ??? ???

Yo tambien dibujo y sin embargo creo que es una herramienta muy útil incluso con el propio material de uno. Hay que verlo como la llegada en su día de programas de retoque fotográfico como el Photoshop.

En cuanto a la película de Netflix no es cierto que esté integramente hecha mediante una IA. La IA sólo la han usado para generar los fondos, todo lo demás ha sido realizado por ilustradores humanos como siempre. Además, ha habido una razón de peso para hacerlo: Desde después de la pandemia, muchos estudios de animación se están viendo con problemas para continuar las series debido a que hay una gran demanda de ilustradores, y los que hay tienen las agendas completas. Esto ha provocado que se hayan paralizado algunas series, algunas al poco de empezar, como ha pasado con la Nier Autómata, o con la de Isekai Ojisan, y en general con varias series de Aniplex. Por lo visto la situación es bastante grave de hecho...

Al final la evolución en este tipo de cosas, "máquinas" en particular ya sabemos que trae paro puesto que las máquinas empiezan a hacer el trabajo de los humanos... Ya veremos donde llega, porque si el ChatGPT este es capaz de hacer libros, la IA está dibujos y videos, ya mismo tendremos las que también hagan canciones... ¿Para cuando una robot tetona que haga...?

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: sirdrak en Febrero 16, 2023, 01:02:24 pm

Bueno, pues no dejan de aparecer cosas nuevas todos los días para sacar más partido todavía a 'Stable Diffusion'... Con esto que estuve probando ayer estoy alucinando todavía. El mayor problema que encontraba a esta IA hasta ahora era que tenía un alto grado de imprevisibilidad, lo que hace que tengas que ser muy bueno dando las descripciones y hacer muchos intentos hasta conseguir lo que quieres, y aún así muchas veces puede ser impredecible el resultado (pudiendo sorprendente para bien o no, como cuando encargas a un artista un trabajo, que tendrá su propia visión de lo que le pides y se puede acercar o no a la imagen que tienes en tu cabeza). Pues bien, han salido un nuevo tipo de modelos, llamados ControlNet, que lo que hacen es 'controlar' que la salida que da la IA a lo que le pides sea lo más similar posible a la entrada... Esto lo que hace es que en suma, puedas darle a la IA una imagen de partida, y 'clonar', por ejemplo la pose de una persona o dibujo aunque sean 'cuatro palitroques' pintados con Paint, generar una imagen fotorrealista de un edificio a partir de un boceto o plano con todo lujo de detalles respetando el original (con un potencial muy grande en arquitectura), identificar el volumen en los personajes y escenarios de una imagen para generar la nueva imagen respetando el mismo, y hasta colorear como un profesional un dibujo a partir tan sólo de su lineart (muy útil para cualquier ilustrador).

Lo explican en el siguiente enlace muy bien, con varios ejemplos gráficos: https://github.com/lllyasviel/ControlNet (https://github.com/lllyasviel/ControlNet)

Voy a poner algunas de las imágenes para que se vea lo que hace, y después os muestro el sorprendente resultado de unas pruebas que hice ayer a partir de un boceto propio:

(https://raw.githubusercontent.com/lllyasviel/ControlNet/main/github_page/p2.png)
(https://github.com/lllyasviel/ControlNet/raw/main/github_page/p3.png)
(https://github.com/lllyasviel/ControlNet/raw/main/github_page/p7.png)
(https://github.com/lllyasviel/ControlNet/raw/main/github_page/p8.png)
(https://github.com/lllyasviel/ControlNet/raw/main/github_page/p9.png)
(https://github.com/lllyasviel/ControlNet/raw/main/github_page/p11.png)
(https://github.com/lllyasviel/ControlNet/raw/main/github_page/p17.png)
(https://github.com/lllyasviel/ControlNet/raw/main/github_page/p18.png)
(https://github.com/lllyasviel/ControlNet/raw/main/github_page/p21.png)

Y ahora mis pruebas... Para ello, usé un boceto a lápiz que hice hace algunos años de los personajes del Gauntlet, en concreto el de Thyra la Valkiria, y como veréis el resultado es espectacular:

Boceto:

(https://i.imgur.com/drekm52.png)

Resultados usando un modelo para imágenes fotorrealistas:

(https://i.imgur.com/V7PxLTB.png)
(https://i.imgur.com/Qw5O2xA.png)
(https://i.imgur.com/5AyrmLe.png)
(https://i.imgur.com/72xn4RT.png)
(https://i.imgur.com/qGZ78BD.png)

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: zzgus en Febrero 16, 2023, 06:24:44 pm

Esto es un no parar ya... lo que no entiendo es el reciente boom que han experimentado casi de golpe todas las variantes.

Justo ayer estuve probando Midjourney.

https://midjourney.com/

y debo decir que quedé alucinado.
Se basa en pasarle una descripción y la IA te crea lo que le digas.

Super fácil de utilizar, dedicarle cinco minutos. Creo que será una herramienta muy útil pasa sacar bocetos, ideas, etc.

Saludos
Gus

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: sirdrak en Febrero 16, 2023, 11:49:28 pm

Cita de: zzgus en Febrero 16, 2023, 06:24:44 pm

Esto es un no parar ya... lo que no entiendo es el reciente boom que han experimentado casi de golpe todas las variantes.

Justo ayer estuve probando Midjourney.

https://midjourney.com/

y debo decir que quedé alucinado.
Se basa en pasarle una descripción y la IA te crea lo que le digas.

Super fácil de utilizar, dedicarle cinco minutos. Creo que será una herramienta muy útil pasa sacar bocetos, ideas, etc.

Saludos
Gus

Yo también la probé, pero te recomiendo que pruebes esta, porque es brutal... Y sin limitaciones de ningún tipo (ni censura). Al ser opensource tiene muchísima comunidad detrás y te la puedes instalar en local, no dependes de ningún servicio online para usarla... Las posibilidades son inmensas... Esta tarde me he puesto a terminar de hacer lo mismo que con la valkiria con el resto del grupo de héroes del Gauntlet... Primero los bocetos:

(https://i.imgur.com/5hfzrMH.png)
(https://i.imgur.com/3K2kFmt.png)
(https://i.imgur.com/2w47Dmc.png)

Y después el resultado:

(https://i.imgur.com/yncjGp8.png)
(https://i.imgur.com/OdTWAm1.png)
(https://i.imgur.com/CWbx4om.png)

Hay que decir que hay algún fallito, como que capturase el nombre del boceto del mago y aparezca en la imagen, o que la parte de abajo de la cuerda del arco de Questor la dibuje por detrás de la espalda, pero son cosas muy fáciles de corregir en Photoshop.

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: zzgus en Febrero 17, 2023, 10:53:08 am

Muy interesante !!! sin duda que lo probaré.

Y es que estas IAs tanto te hacen un zurcido como te cosen un descosido !!!

El diseño de un personaje:
(http://arcadespain.info/cpg/albums/userpics/14492/pikachu.png)

(http://arcadespain.info/cpg/albums/userpics/14492/personaje.png)

O un logo:
(http://arcadespain.info/cpg/albums/userpics/14492/logo.png)

Un libro para colorear:
(http://arcadespain.info/cpg/albums/userpics/14492/libro_coloreable.png)

El diseño de un producto e incluso una página web:
(http://arcadespain.info/cpg/albums/userpics/14492/diseno_producto.png)

O un logo para un foro !!!
(http://arcadespain.info/cpg/albums/userpics/14492/arcade.png)

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: sirdrak en Febrero 17, 2023, 11:54:09 am

Cita de: zzgus en Febrero 17, 2023, 10:53:08 am

Muy interesante !!! sin duda que lo probaré.

Y es que estas IAs tanto te hacen un zurcido como te cosen un descosido !!!

El diseño de un personaje:
(http://arcadespain.info/cpg/albums/userpics/14492/pikachu.png)

(http://arcadespain.info/cpg/albums/userpics/14492/personaje.png)

O un logo:
(http://arcadespain.info/cpg/albums/userpics/14492/logo.png)

Un libro para colorear:
(http://arcadespain.info/cpg/albums/userpics/14492/libro_coloreable.png)

El diseño de un producto e incluso una página web:
(http://arcadespain.info/cpg/albums/userpics/14492/diseno_producto.png)

O un logo para un foro !!!
(http://arcadespain.info/cpg/albums/userpics/14492/arcade.png)

Efectivamente... Y todo eso lo puedes hacer igual o mejor con Stable Diffusion. Midjourney la ventaja que tiene es que es más avanzada en el reconocimiento de las descripciones y da resultados espectaculares con pocas palabras, pero por el contrario no tiene ningún control que te permita evitar aberraciones o que salgan cosas que no quieres en las imágenes, además del problema de ser de pago por suscripción. Stable Diffusion, requiere de mejores 'prompts', descripciones más detalladas, pero a cambio tienes una línea de texto extra, el prompt negativo... Ahí pones todo lo que NO quieres que tenga la imagen, como que evite imágenes fotorrealistas si lo que quieres es una ilustración, que descarte imágenes borrosas, personajes deformes, manos extra, dedos extra, logos, texto, etc...

Además, Stable Diffusion la puedes instalar localmente en tu Pc por lo que no requiere de ningún tipo de servicio online y ni siquiera tienes que estar conectado a internet para usarla. Al ser Opensource, su uso es gratuíto y no hay limitaciones ni censura como en las otras. Te permite entrenar muy fácilmente tus propios modelos para incluir en las imágenes personas concretas, personajes, objetos o lo que necesites, estilos artísticos y nuevas funcionalidades, además de tener incluídas unas utilidades como img2img que permite usar la IA sobre una imagen ya previamente existente, o Inpaint, que hace eso mismo pero permite seleccionar 'pintando' con un puntero partes de la imagen y aplicar cambios sólo a lo que te interese, pudiendo hacer maravillas con esto. Es todo un mundo increíble esto...

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: empardopo en Febrero 17, 2023, 02:39:47 pm

Cita de: sirdrak en Febrero 17, 2023, 11:54:09 am

Cita de: zzgus en Febrero 17, 2023, 10:53:08 am
Muy interesante !!! sin duda que lo probaré.

Y es que estas IAs tanto te hacen un zurcido como te cosen un descosido !!!

El diseño de un personaje:
(http://arcadespain.info/cpg/albums/userpics/14492/pikachu.png)

(http://arcadespain.info/cpg/albums/userpics/14492/personaje.png)

O un logo:
(http://arcadespain.info/cpg/albums/userpics/14492/logo.png)

Un libro para colorear:
(http://arcadespain.info/cpg/albums/userpics/14492/libro_coloreable.png)

El diseño de un producto e incluso una página web:
(http://arcadespain.info/cpg/albums/userpics/14492/diseno_producto.png)

O un logo para un foro !!!
(http://arcadespain.info/cpg/albums/userpics/14492/arcade.png)

Efectivamente... Y todo eso lo puedes hacer igual o mejor con Stable Diffusion. Midjourney la ventaja que tiene es que es más avanzada en el reconocimiento de las descripciones y da resultados espectaculares con pocas palabras, pero por el contrario no tiene ningún control que te permita evitar aberraciones o que salgan cosas que no quieres en las imágenes, además del problema de ser de pago por suscripción. Stable Diffusion, requiere de mejores 'prompts', descripciones más detalladas, pero a cambio tienes una línea de texto extra, el prompt negativo... Ahí pones todo lo que NO quieres que tenga la imagen, como que evite imágenes fotorrealistas si lo que quieres es una ilustración, que descarte imágenes borrosas, personajes deformes, manos extra, dedos extra, logos, texto, etc...

Además, Stable Diffusion la puedes instalar localmente en tu Pc por lo que no requiere de ningún tipo de servicio online y ni siquiera tienes que estar conectado a internet para usarla. Al ser Opensource, su uso es gratuíto y no hay limitaciones ni censura como en las otras. Te permite entrenar muy fácilmente tus propios modelos para incluir en las imágenes personas concretas, personajes, objetos o lo que necesites, estilos artísticos y nuevas funcionalidades, además de tener incluídas unas utilidades como img2img que permite usar la IA sobre una imagen ya previamente existente, o Inpaint, que hace eso mismo pero permite seleccionar 'pintando' con un puntero partes de la imagen y aplicar cambios sólo a lo que te interese, pudiendo hacer maravillas con esto. Es todo un mundo increíble esto...

Impresionante lo que sale a partir de los bocetos!!!

Y lo puedo instalar en mi ordenador de gratis??? Se necesita equipo muy potente?

Enviado desde mi MI MAX 2 mediante Tapatalk

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: sirdrak en Febrero 17, 2023, 03:42:40 pm

Cita de: empardopo en Febrero 17, 2023, 02:39:47 pm

Cita de: sirdrak en Febrero 17, 2023, 11:54:09 am
Cita de: zzgus en Febrero 17, 2023, 10:53:08 am
Muy interesante !!! sin duda que lo probaré.

Y es que estas IAs tanto te hacen un zurcido como te cosen un descosido !!!

El diseño de un personaje:
(http://arcadespain.info/cpg/albums/userpics/14492/pikachu.png)

(http://arcadespain.info/cpg/albums/userpics/14492/personaje.png)

O un logo:
(http://arcadespain.info/cpg/albums/userpics/14492/logo.png)

Un libro para colorear:
(http://arcadespain.info/cpg/albums/userpics/14492/libro_coloreable.png)

El diseño de un producto e incluso una página web:
(http://arcadespain.info/cpg/albums/userpics/14492/diseno_producto.png)

O un logo para un foro !!!
(http://arcadespain.info/cpg/albums/userpics/14492/arcade.png)

Efectivamente... Y todo eso lo puedes hacer igual o mejor con Stable Diffusion. Midjourney la ventaja que tiene es que es más avanzada en el reconocimiento de las descripciones y da resultados espectaculares con pocas palabras, pero por el contrario no tiene ningún control que te permita evitar aberraciones o que salgan cosas que no quieres en las imágenes, además del problema de ser de pago por suscripción. Stable Diffusion, requiere de mejores 'prompts', descripciones más detalladas, pero a cambio tienes una línea de texto extra, el prompt negativo... Ahí pones todo lo que NO quieres que tenga la imagen, como que evite imágenes fotorrealistas si lo que quieres es una ilustración, que descarte imágenes borrosas, personajes deformes, manos extra, dedos extra, logos, texto, etc...

Además, Stable Diffusion la puedes instalar localmente en tu Pc por lo que no requiere de ningún tipo de servicio online y ni siquiera tienes que estar conectado a internet para usarla. Al ser Opensource, su uso es gratuíto y no hay limitaciones ni censura como en las otras. Te permite entrenar muy fácilmente tus propios modelos para incluir en las imágenes personas concretas, personajes, objetos o lo que necesites, estilos artísticos y nuevas funcionalidades, además de tener incluídas unas utilidades como img2img que permite usar la IA sobre una imagen ya previamente existente, o Inpaint, que hace eso mismo pero permite seleccionar 'pintando' con un puntero partes de la imagen y aplicar cambios sólo a lo que te interese, pudiendo hacer maravillas con esto. Es todo un mundo increíble esto...
Impresionante lo que sale a partir de los bocetos!!!

Y lo puedo instalar en mi ordenador de gratis??? Se necesita equipo muy potente?

Enviado desde mi MI MAX 2 mediante Tapatalk

Efectivamente y hasta puedes hacer porno si quieres xD No tiene ningún tipo de limitación. Sí que necesita de una gráfica más o menos potente, pero sobre todo que como mínimo tenga 6 GB de VRAM dedicada (para generar imágenes) u 8 GB o más para entrenar modelos (cuanta más VRAM mejor), algo, esto último, relativamente fácil de hacer y con posibilidades muy interesantes, como incluir a personas, personajes, animales concretos, etc... en las imágenes o incluir nuevos estilos artísticos (por ejemplo el estilo de Ibañez con Mortadelo y Filemón) con sólo un conjunto de fotos (bastan 20 o 30 para incluirte a tí mismo, por ejemplo).

Hay una guía de instalación que además proporciona los enlaces a todo lo necesario. No es complicado de hacer pero sí que requiere dedicarle un tiempo para instalar todo (el lenguaje Python, los repositorios, etc...). Yo en hora y media lo tenía ya funcionando. La guía la encuentras aquí: https://rentry.co/UnofficialUnstableGuide (https://rentry.co/UnofficialUnstableGuide)

Y luego, hay un sitio en el que encuentras miles de modelos ya entrenados para cosas específicas, como personas, personajes conocidos, especializados en fotorrealismo, en anime... en hentai, en porno... xD. Yo recomiendo al menos los siguientes:

- Anything V. 3 para anime
- Realistic Vision V 1.3 para imágenes fotorrealistas (es el que usé con los personajes del Gauntlet) y también es muy bueno Art & Eros en el mismo estilo
- DreamShaper para ilustraciones en todo tipo de estilos
- Los modelos de la serie Orangemix (AbyssOrangeMix, EerieOrangeMix y BloodOrangeMix) para anime y hentai (unos están más indicados para lo primero y otros para lo segundo, y también unos van más en un estilo de ilustración y otros más en estilo anime de Tv y cine)

Estos son los llamados 'Checkpoints', que son el modelo completo, pero hay 'minimodelos' (vamos a llamarlos así) como los LoRa o los Embbedings que sirven para incluir personajes concretos o estilos y poder usarlos conjuntamente con los modelos grandes... De estos hay miles y son los más fáciles de hacer para el usuario común.

El sitio este que digo es Civitai: https://civitai.com/ (https://civitai.com/)

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: empardopo en Febrero 18, 2023, 08:30:38 pm

Cita de: sirdrak en Febrero 17, 2023, 03:42:40 pm

Cita de: empardopo en Febrero 17, 2023, 02:39:47 pm
Cita de: sirdrak en Febrero 17, 2023, 11:54:09 am
Cita de: zzgus en Febrero 17, 2023, 10:53:08 am
Muy interesante !!! sin duda que lo probaré.

Y es que estas IAs tanto te hacen un zurcido como te cosen un descosido !!!

El diseño de un personaje:
(http://arcadespain.info/cpg/albums/userpics/14492/pikachu.png)

(http://arcadespain.info/cpg/albums/userpics/14492/personaje.png)

O un logo:
(http://arcadespain.info/cpg/albums/userpics/14492/logo.png)

Un libro para colorear:
(http://arcadespain.info/cpg/albums/userpics/14492/libro_coloreable.png)

El diseño de un producto e incluso una página web:
(http://arcadespain.info/cpg/albums/userpics/14492/diseno_producto.png)

O un logo para un foro !!!
(http://arcadespain.info/cpg/albums/userpics/14492/arcade.png)

Efectivamente... Y todo eso lo puedes hacer igual o mejor con Stable Diffusion. Midjourney la ventaja que tiene es que es más avanzada en el reconocimiento de las descripciones y da resultados espectaculares con pocas palabras, pero por el contrario no tiene ningún control que te permita evitar aberraciones o que salgan cosas que no quieres en las imágenes, además del problema de ser de pago por suscripción. Stable Diffusion, requiere de mejores 'prompts', descripciones más detalladas, pero a cambio tienes una línea de texto extra, el prompt negativo... Ahí pones todo lo que NO quieres que tenga la imagen, como que evite imágenes fotorrealistas si lo que quieres es una ilustración, que descarte imágenes borrosas, personajes deformes, manos extra, dedos extra, logos, texto, etc...

Además, Stable Diffusion la puedes instalar localmente en tu Pc por lo que no requiere de ningún tipo de servicio online y ni siquiera tienes que estar conectado a internet para usarla. Al ser Opensource, su uso es gratuíto y no hay limitaciones ni censura como en las otras. Te permite entrenar muy fácilmente tus propios modelos para incluir en las imágenes personas concretas, personajes, objetos o lo que necesites, estilos artísticos y nuevas funcionalidades, además de tener incluídas unas utilidades como img2img que permite usar la IA sobre una imagen ya previamente existente, o Inpaint, que hace eso mismo pero permite seleccionar 'pintando' con un puntero partes de la imagen y aplicar cambios sólo a lo que te interese, pudiendo hacer maravillas con esto. Es todo un mundo increíble esto...
Impresionante lo que sale a partir de los bocetos!!!

Y lo puedo instalar en mi ordenador de gratis??? Se necesita equipo muy potente?

Enviado desde mi MI MAX 2 mediante Tapatalk

Efectivamente y hasta puedes hacer porno si quieres xD No tiene ningún tipo de limitación. Sí que necesita de una gráfica más o menos potente, pero sobre todo que como mínimo tenga 6 GB de VRAM dedicada (para generar imágenes) u 8 GB o más para entrenar modelos (cuanta más VRAM mejor), algo, esto último, relativamente fácil de hacer y con posibilidades muy interesantes, como incluir a personas, personajes, animales concretos, etc... en las imágenes o incluir nuevos estilos artísticos (por ejemplo el estilo de Ibañez con Mortadelo y Filemón) con sólo un conjunto de fotos (bastan 20 o 30 para incluirte a tí mismo, por ejemplo).

Hay una guía de instalación que además proporciona los enlaces a todo lo necesario. No es complicado de hacer pero sí que requiere dedicarle un tiempo para instalar todo (el lenguaje Python, los repositorios, etc...). Yo en hora y media lo tenía ya funcionando. La guía la encuentras aquí: https://rentry.co/UnofficialUnstableGuide (https://rentry.co/UnofficialUnstableGuide)

Y luego, hay un sitio en el que encuentras miles de modelos ya entrenados para cosas específicas, como personas, personajes conocidos, especializados en fotorrealismo, en anime... en hentai, en porno... xD. Yo recomiendo al menos los siguientes:

- Anything V. 3 para anime
- Realistic Vision V 1.3 para imágenes fotorrealistas (es el que usé con los personajes del Gauntlet) y también es muy bueno Art & Eros en el mismo estilo
- DreamShaper para ilustraciones en todo tipo de estilos
- Los modelos de la serie Orangemix (AbyssOrangeMix, EerieOrangeMix y BloodOrangeMix) para anime y hentai (unos están más indicados para lo primero y otros para lo segundo, y también unos van más en un estilo de ilustración y otros más en estilo anime de Tv y cine)

Estos son los llamados 'Checkpoints', que son el modelo completo, pero hay 'minimodelos' (vamos a llamarlos así) como los LoRa o los Embbedings que sirven para incluir personajes concretos o estilos y poder usarlos conjuntamente con los modelos grandes... De estos hay miles y son los más fáciles de hacer para el usuario común.

El sitio este que digo es Civitai: https://civitai.com/ (https://civitai.com/)

Que decepción con lo de la gráfica ya que mi equipo no tiene, jeje!

Oye, alguna recomendación de alguna gráfica con las 3 Bs? Ya sabéis, buena, bonita y barata...

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: sirdrak en Febrero 18, 2023, 11:18:07 pm

Cita de: empardopo en Febrero 18, 2023, 08:30:38 pm

Cita de: sirdrak en Febrero 17, 2023, 03:42:40 pm
Cita de: empardopo en Febrero 17, 2023, 02:39:47 pm
Cita de: sirdrak en Febrero 17, 2023, 11:54:09 am
Cita de: zzgus en Febrero 17, 2023, 10:53:08 am
Muy interesante !!! sin duda que lo probaré.

Y es que estas IAs tanto te hacen un zurcido como te cosen un descosido !!!

El diseño de un personaje:
(http://arcadespain.info/cpg/albums/userpics/14492/pikachu.png)

(http://arcadespain.info/cpg/albums/userpics/14492/personaje.png)

O un logo:
(http://arcadespain.info/cpg/albums/userpics/14492/logo.png)

Un libro para colorear:
(http://arcadespain.info/cpg/albums/userpics/14492/libro_coloreable.png)

El diseño de un producto e incluso una página web:
(http://arcadespain.info/cpg/albums/userpics/14492/diseno_producto.png)

O un logo para un foro !!!
(http://arcadespain.info/cpg/albums/userpics/14492/arcade.png)

Efectivamente... Y todo eso lo puedes hacer igual o mejor con Stable Diffusion. Midjourney la ventaja que tiene es que es más avanzada en el reconocimiento de las descripciones y da resultados espectaculares con pocas palabras, pero por el contrario no tiene ningún control que te permita evitar aberraciones o que salgan cosas que no quieres en las imágenes, además del problema de ser de pago por suscripción. Stable Diffusion, requiere de mejores 'prompts', descripciones más detalladas, pero a cambio tienes una línea de texto extra, el prompt negativo... Ahí pones todo lo que NO quieres que tenga la imagen, como que evite imágenes fotorrealistas si lo que quieres es una ilustración, que descarte imágenes borrosas, personajes deformes, manos extra, dedos extra, logos, texto, etc...

Además, Stable Diffusion la puedes instalar localmente en tu Pc por lo que no requiere de ningún tipo de servicio online y ni siquiera tienes que estar conectado a internet para usarla. Al ser Opensource, su uso es gratuíto y no hay limitaciones ni censura como en las otras. Te permite entrenar muy fácilmente tus propios modelos para incluir en las imágenes personas concretas, personajes, objetos o lo que necesites, estilos artísticos y nuevas funcionalidades, además de tener incluídas unas utilidades como img2img que permite usar la IA sobre una imagen ya previamente existente, o Inpaint, que hace eso mismo pero permite seleccionar 'pintando' con un puntero partes de la imagen y aplicar cambios sólo a lo que te interese, pudiendo hacer maravillas con esto. Es todo un mundo increíble esto...
Impresionante lo que sale a partir de los bocetos!!!

Y lo puedo instalar en mi ordenador de gratis??? Se necesita equipo muy potente?

Enviado desde mi MI MAX 2 mediante Tapatalk

Efectivamente y hasta puedes hacer porno si quieres xD No tiene ningún tipo de limitación. Sí que necesita de una gráfica más o menos potente, pero sobre todo que como mínimo tenga 6 GB de VRAM dedicada (para generar imágenes) u 8 GB o más para entrenar modelos (cuanta más VRAM mejor), algo, esto último, relativamente fácil de hacer y con posibilidades muy interesantes, como incluir a personas, personajes, animales concretos, etc... en las imágenes o incluir nuevos estilos artísticos (por ejemplo el estilo de Ibañez con Mortadelo y Filemón) con sólo un conjunto de fotos (bastan 20 o 30 para incluirte a tí mismo, por ejemplo).

Hay una guía de instalación que además proporciona los enlaces a todo lo necesario. No es complicado de hacer pero sí que requiere dedicarle un tiempo para instalar todo (el lenguaje Python, los repositorios, etc...). Yo en hora y media lo tenía ya funcionando. La guía la encuentras aquí: https://rentry.co/UnofficialUnstableGuide (https://rentry.co/UnofficialUnstableGuide)

Y luego, hay un sitio en el que encuentras miles de modelos ya entrenados para cosas específicas, como personas, personajes conocidos, especializados en fotorrealismo, en anime... en hentai, en porno... xD. Yo recomiendo al menos los siguientes:

- Anything V. 3 para anime
- Realistic Vision V 1.3 para imágenes fotorrealistas (es el que usé con los personajes del Gauntlet) y también es muy bueno Art & Eros en el mismo estilo
- DreamShaper para ilustraciones en todo tipo de estilos
- Los modelos de la serie Orangemix (AbyssOrangeMix, EerieOrangeMix y BloodOrangeMix) para anime y hentai (unos están más indicados para lo primero y otros para lo segundo, y también unos van más en un estilo de ilustración y otros más en estilo anime de Tv y cine)

Estos son los llamados 'Checkpoints', que son el modelo completo, pero hay 'minimodelos' (vamos a llamarlos así) como los LoRa o los Embbedings que sirven para incluir personajes concretos o estilos y poder usarlos conjuntamente con los modelos grandes... De estos hay miles y son los más fáciles de hacer para el usuario común.

El sitio este que digo es Civitai: https://civitai.com/ (https://civitai.com/)

Que decepción con lo de la gráfica ya que mi equipo no tiene, jeje!

Oye, alguna recomendación de alguna gráfica con las 3 Bs? Ya sabéis, buena, bonita y barata...

En realidad, aquí la potencia de la gráfica no es tan importante como en otras cosas de IA, como procesar vídeo, ya que lo único en lo que influye es en el tiempo que tardan en procesarse las imágenes. En mi caso tardan entre 20 y 50 segundos, nunca más tiempo que eso. Lo que sí es muy importante es la VRAM, por lo que comenté antes... Ahora el tema de conseguir gráfica con las tres B está bastante complicado, y eso que ha mejorado desde la caída de los mineros y el fin del confinamiento. A nVidia y a AMD se les ha ido totalmente la pinza con los precios de las gráficas de última generación (1200 € una 4070Ti es una burrada... Y pensar que yo pagué poco más de 800 € por mi RTX 3080 en su día y ya me parecía una salvajada). Casi terminas antes comprándote un portátil como hice yo con mi Lenovo Legion en Octubre, que me salió en una oferta flash de Amazon por 1049 € llevando todo esto:

- Pantalla de 15.6" FullHD 1920x1080 píxeles, IPS, 300nits, Anti-glare, 165Hz, 100% sRGB, Dolby Vision, G-Sync, DC dimmer
- Procesador Intel Core i7-11800H (8C / 16T, 2.3 / 4.6GHz, 24MB)
- Memoria RAM de 16GB (2x 8GB SO-DIMM DDR4-3200) ampliables hasta 32GB
- Almacenamiento de 1TB SSD
- Tarjeta gráfica NVIDIA GeForce RTX 3060 6GB GDDR6 (la versión más potente de las de portatátil, la de 130 W, más potente que muchas 3070 de portátil)
- La batería, cuando no usamos el portátil para jugar (es decir, cuando usa la gráfica integrada en lugar de la dedicada) le dura 10 horas.
- Conectores de todas clases incluyendo dos puertos Thunderbolt que permiten enchufarle gráficas externas.

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: sirdrak en Febrero 25, 2023, 12:38:33 pm

Ya he entrenado mis primeros dos LoRAs y es muy fácil de hacer, una vez tienes instalado todo lo necesario... Es adictivo esto jejeje. El primero ha sido para integrar a una amiga en las imágenes y el resultado es espectacular, aunque no puedo poner las imágenes por cuestiones de privacidad, pero en resumen, tras crear el LoRA a partir de 28 imágenes suyas (y eso que casi todas son de su cara, ya que la mayoría de fotos que me ha enviado son las típicas hechas con el móvil), la he podido sacar con el traje de IronMan, con el de Thor, con el aspecto de un Navii de Avatar, con el diseño de un personaje de las películas de Don Bluth (el creador de Dragon's Lair, Todos los perros van al cielo, etc...), como pintura al óleo, como personaje de anime, etc... Hasta como si fuera un personaje de Jojo's Bizarre Adventure... Todos estilos muy diferentes y en todos reproduce sus características perfectamente y es reconocible, sus ojos, su sonrisa y sus gafas, el estilo del pelo, etc...

El segundo que he entrenado sí que lo puedo mostrar, y aunque lo he hecho para echar una mano a un compañero con una cosilla que andamos haciendo, el resultado ha sido muy bueno. Un problema que veía hasta ahora con Stable Diffusion era que la mayoría de modelos que la gente crea son de Anime, es de lo que más hay... pero muy poco de otros estilos gráficos de creadores occidentales. Hay estilos muy interesantes pero que al haber sido entrenados con ese tipo de arte no son aplicables cuando quieres crear personajes con aspecto occidental. El asunto es que se me ocurrió crear un LoRA para un tipo de ilustración al óleo muy común entre los 60 y 80 como las que se usaban en las portadas de los libros juveniles, así que hice el entrenamiento con 24 portadas de los libros de la saga de Los Tres Investigadores (que inicielmente se llama Alfred Hitchcock y Los Tres Investigadores), y el resultado es satisfactorio: Usándolo en modelos de anime como Anything V3, por ejemplo, automáticamente todos los personajes salen con ropa ochentera y dejan de tener estilo anime, y los fondos se notan como a pinceladas como si fueran óleos, que además al ser un LoRA el efecto se puede regular y hacerlo más o menos intenso. Incluso funciona en modelos para fotografía realista... Voy a mostrar algunos ejemplos:

(https://i.imgur.com/FamG82z.png)
(https://i.imgur.com/KIpwzfN.png)
(https://i.imgur.com/ysGkMq1.png)
(https://i.imgur.com/uAkYefl.png)

La verdad es que está genial poder introducir nuevos estilos... Se me ocurren mil ideas para hacer ;)

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: empardopo en Febrero 25, 2023, 08:46:55 pm

Cita de: sirdrak en Febrero 25, 2023, 12:38:33 pm

Ya he entrenado mis primeros dos LoRAs y es muy fácil de hacer, una vez tienes instalado todo lo necesario... Es adictivo esto jejeje. El primero ha sido para integrar a una amiga en las imágenes y el resultado es espectacular, aunque no puedo poner las imágenes por cuestiones de privacidad, pero en resumen, tras crear el LoRA a partir de 28 imágenes suyas (y eso que casi todas son de su cara, ya que la mayoría de fotos que me ha enviado son las típicas hechas con el móvil), la he podido sacar con el traje de IronMan, con el de Thor, con el aspecto de un Navii de Avatar, con el diseño de un personaje de las películas de Don Bluth (el creador de Dragon's Lair, Todos los perros van al cielo, etc...), como pintura al óleo, como personaje de anime, etc... Hasta como si fuera un personaje de Jojo's Bizarre Adventure... Todos estilos muy diferentes y en todos reproduce sus características perfectamente y es reconocible, sus ojos, su sonrisa y sus gafas, el estilo del pelo, etc...

El segundo que he entrenado sí que lo puedo mostrar, y aunque lo he hecho para echar una mano a un compañero con una cosilla que andamos haciendo, el resultado ha sido muy bueno. Un problema que veía hasta ahora con Stable Diffusion era que la mayoría de modelos que la gente crea son de Anime, es de lo que más hay... pero muy poco de otros estilos gráficos de creadores occidentales. Hay estilos muy interesantes pero que al haber sido entrenados con ese tipo de arte no son aplicables cuando quieres crear personajes con aspecto occidental. El asunto es que se me ocurrió crear un LoRA para un tipo de ilustración al óleo muy común entre los 60 y 80 como las que se usaban en las portadas de los libros juveniles, así que hice el entrenamiento con 24 portadas de los libros de la saga de Los Tres Investigadores (que inicielmente se llama Alfred Hitchcock y Los Tres Investigadores), y el resultado es satisfactorio: Usándolo en modelos de anime como Anything V3, por ejemplo, automáticamente todos los personajes salen con ropa ochentera y dejan de tener estilo anime, y los fondos se notan como a pinceladas como si fueran óleos, que además al ser un LoRA el efecto se puede regular y hacerlo más o menos intenso. Incluso funciona en modelos para fotografía realista... Voy a mostrar algunos ejemplos:

(https://i.imgur.com/FamG82z.png)
(https://i.imgur.com/KIpwzfN.png)
(https://i.imgur.com/ysGkMq1.png)
(https://i.imgur.com/uAkYefl.png)

La verdad es que está genial poder introducir nuevos estilos... Se me ocurren mil ideas para hacer ;)

Menuda pintaca, compi!

¿Oye, esto del LoRa que es exactamante?

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: sirdrak en Febrero 25, 2023, 10:44:26 pm

Cita de: empardopo en Febrero 25, 2023, 08:46:55 pm

Cita de: sirdrak en Febrero 25, 2023, 12:38:33 pm
Ya he entrenado mis primeros dos LoRAs y es muy fácil de hacer, una vez tienes instalado todo lo necesario... Es adictivo esto jejeje. El primero ha sido para integrar a una amiga en las imágenes y el resultado es espectacular, aunque no puedo poner las imágenes por cuestiones de privacidad, pero en resumen, tras crear el LoRA a partir de 28 imágenes suyas (y eso que casi todas son de su cara, ya que la mayoría de fotos que me ha enviado son las típicas hechas con el móvil), la he podido sacar con el traje de IronMan, con el de Thor, con el aspecto de un Navii de Avatar, con el diseño de un personaje de las películas de Don Bluth (el creador de Dragon's Lair, Todos los perros van al cielo, etc...), como pintura al óleo, como personaje de anime, etc... Hasta como si fuera un personaje de Jojo's Bizarre Adventure... Todos estilos muy diferentes y en todos reproduce sus características perfectamente y es reconocible, sus ojos, su sonrisa y sus gafas, el estilo del pelo, etc...

El segundo que he entrenado sí que lo puedo mostrar, y aunque lo he hecho para echar una mano a un compañero con una cosilla que andamos haciendo, el resultado ha sido muy bueno. Un problema que veía hasta ahora con Stable Diffusion era que la mayoría de modelos que la gente crea son de Anime, es de lo que más hay... pero muy poco de otros estilos gráficos de creadores occidentales. Hay estilos muy interesantes pero que al haber sido entrenados con ese tipo de arte no son aplicables cuando quieres crear personajes con aspecto occidental. El asunto es que se me ocurrió crear un LoRA para un tipo de ilustración al óleo muy común entre los 60 y 80 como las que se usaban en las portadas de los libros juveniles, así que hice el entrenamiento con 24 portadas de los libros de la saga de Los Tres Investigadores (que inicielmente se llama Alfred Hitchcock y Los Tres Investigadores), y el resultado es satisfactorio: Usándolo en modelos de anime como Anything V3, por ejemplo, automáticamente todos los personajes salen con ropa ochentera y dejan de tener estilo anime, y los fondos se notan como a pinceladas como si fueran óleos, que además al ser un LoRA el efecto se puede regular y hacerlo más o menos intenso. Incluso funciona en modelos para fotografía realista... Voy a mostrar algunos ejemplos:

(https://i.imgur.com/FamG82z.png)
(https://i.imgur.com/KIpwzfN.png)
(https://i.imgur.com/ysGkMq1.png)
(https://i.imgur.com/uAkYefl.png)

La verdad es que está genial poder introducir nuevos estilos... Se me ocurren mil ideas para hacer ;)

Menuda pintaca, compi!

¿Oye, esto del LoRa que es exactamante?

Pues verás, la forma de entrenar a la IA y que haga más y mejores cosas que las hacía su modelo base, el que usaba por defecto, se puede hacer de varias formas:

- Mediante un Checkpoint, que en realidad se trata del modelo base reentrenado para especializarse en un ámbito concreto (por ejemplo anime, o fotorrealismo), lo que mejora su capacidad en dicho ámbito. La ventaja es que es un modelo completo y autónomo, por así decirlo, es decir, que puedes usar Stable Diffusion sin tener el modelo base, por ejemplo. También se pueden conseguir nuevos checkpoints fusionando varios existentes para obtener ventajas de unos y otros y así personalizarlos. La pega que tienen los Checkpoints son dos: Ocupan lo mismo que el modelo original (7 GB), y para entrenarlos tienes que tirar de Google Colab online sí o sí porque requiren de una cantidad exagerada de VRAM para el entrenamiento (es decir, que tienes que tener de una RTX 3090 con sus 24 GB de VRAM para arriba para entrenar el modelo localmente en tu Pc)

- Mediante un embedding o Textual Inversion, que era el metodo que había hasta hace poco para entrenar cosas muy muy concretas, como meter una persona o personaje, un nuevo estilo o un nuevo concepto. Consiste en sustituir uno de los términos ya conocidos por la IA por otro con lo que tu has entrenado, por eso tiene la ventaja de ser el tipo que menos ocupa de todos (unos pocos KB), permite usar al mismo tiempo tantos como quieras y además para invocarlo y ponerlo en uso basta con escribir su nombre. Se pueden usar con todos los modelos exitentes. Las desventajas que tienen son que son lentos de entrenar y están limitados a lo comentado antes: sólo un personaje, sólo un estilo o sólo un concepto. Por lo que llevo viendo, parece que es método preferido por la gente para meter personas reales, aunque no conozco exáctamente la razón.

- Los LoRA (Low Rank Adaptation) son los últimos en llegar con la idea de sustituir a los embbedings anteriores y además de poder usar características de los Checkpoints. Es una técnica inventada por Microsoft, y se lleva usando a penas tres meses pero ya se ha vuelto la más popular. Ocupa más que los Embeddings (entre 8 y 150 MB más o menos) pero sigue teniendo un tamaño muy aceptable en comparación con los Checkpoints. Al igual que los embeddings, se pueden usar con cualquier modelo y también se pueden usar varios, y el uso es el mismo, pero tienen la ventaja de que en un LoRA puede hacer varios personajes, estilos o conceptos a la vez, y que además, el efecto del LoRA es regulable... Se incluye en la descripción de la imagen que das a la IA con el siguiente formato: <nombre_del_LoRA:1> donde el '1' vendría a ser el efecto completo del LoRA (el 100%). Para suavizar su efecto, que se suele usar para mezclar características de un estilo en el caso de ser un LoRA de un estilo, o bien para crear personajes con más o menos elementos del personaje del LoRA, se pone otro porcentaje más pequeño pero en base uno (por ejemplo, un 0.8 para un 80%). Además, si hay varios estilos o personajes, se les invoca por una etiqueta con su nombre. Otra gran ventaja que tienen es que se entrenan muy rápido (los que yo he hecho, 20 minutos el de mi amiga y 30 el del estilo portada ochentera) y que se pueden entrenar en gráficas con tan sólo 6 o 7 GB de VRAM, por lo que está al alcance de la mayoría de usuarios con una gráfica más o menos actual. Además, se pueden extraer cosas de los Checkpoints y convertirlos en un LoRA, ocupando mucho menos y pudiendo usarlas conjuntamente con otros checkpoits diferentes.

- Y finalmente estás las Hypernetworks, que ya están en desuso y han quedado obsoletas. Hoy día sólo se encuentran de los otros tres tipos anteriores.

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: empardopo en Febrero 26, 2023, 05:34:28 pm

Gracias compi.

Oye, teniendo en cuenta que no dispongo de gráfica y que tendría que ser todo online:
1. Que web he recomiendas para empezar a probar? Te lo comento porque comentabas en el primer post algo de webs no oficiales con opciones extras y tal...
2. Se podría hacer esto de entrenar con fotos mías, etc pero online?

Perdona por el tostón, jeje

Enviado desde mi MI MAX 2 mediante Tapatalk

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: sirdrak en Febrero 27, 2023, 12:32:23 pm

Cita de: empardopo en Febrero 26, 2023, 05:34:28 pm

Gracias compi.

Oye, teniendo en cuenta que no dispongo de gráfica y que tendría que ser todo online:
1. Que web he recomiendas para empezar a probar? Te lo comento porque comentabas en el primer post algo de webs no oficiales con opciones extras y tal...
2. Se podría hacer esto de entrenar con fotos mías, etc pero online?

Perdona por el tostón, jeje

Enviado desde mi MI MAX 2 mediante Tapatalk

Si, se puede usar todo online mediante el sistema colaborativo Google Colab... En un sistema de trabajo online que se basa en 'cuadernos', una especie de formularios personalizados que permiten programar cosas e ir probándolas sobre la marcha al mismo tiempo y obtener el resultado. Para usarlos se requiere de una cuenta de Google Drive y se pueden usar de forma gratuíta. Google te cede una de sus gráficas profesionales para realizar el trabajo y se pueden usar gratis pero con limitaciones temporales (puedes usarla unas horas y superada la quota tienes que esperar un día -creo- para volverla a usar). Dichas gráficas son gráficas nVidia con una burrada de VRAM (una A100 con 48 GB de VRAM si no estoy equivocado) y que cuestan lo mismo que comprar un coche pequeño, por eso se usan para entrenar en ellas los Checkpoints, porque pocos usuarios tienen una RTX 3090 o similar con 24 GB de VRAM.

En el Discord de Unstable Diffusion, que recomiendo visitar, especialmente su sección en español, hay tutoriales y cuadernos preparados para usar Stable Diffusion, tanto para generar imágenes como para entrenar modelos de todo tipo. Allí lo que he visto que hace la gente es registrar 4 o 5 cuentas de Google Drive y las van alternando cuando se les acaba el tiempo gratuíto de uso de Google Colab para poder seguir generando imágenes ininterrumpidamente. Yo no he usado nunca Google Colab, aunque sí que he visto tutoriales y no parece complicado de hacer. Mi consejo es que vayas al Discord mencionado y eches un ojo a lo que tienen anclado en la parte de tutoriales para novatos, que también está lo de Google Colab.

Últimamente estoy viendo cosas alucinantes, como LoRAs que te transforman en una figura articulada japonesa de la marca Figma (a nivel fotorrealista), tanto personajes de cualquier tipo como personas (con él ya he probado el LoRA que cree de mi amiga y el resultado es espectacular), otro que te transforma en un Nendroid (los famosos muñequitos cabezones de personajes de juegos y series), o uno que te transforma en miniaturas pintadas de un wargame o RPG... Y uno espectacular que te transforma en una figura de vinilo... pero de 50 M de altura, caminando por una ciudad o escenario que le digas... He visto LoRAs que permiten hacer hojas de sprites de pixel art (y que la gente ya está usando para crear videojuegos, ojo), otras que crean una especia de mundos virtuales en perspectiva isométrica que son muy usables también para el tema de hacer videojuegos, y otros para hacer concept art... Luego la gente está también compartiendo hojas de posturas ya creadas para el modelo OpenPose de ControlNet, el que te permite clonar la postura de una persona de una imagen a la imagen generada por la IA, que las están usando para todo tipo de cosas como para crear concept art de personajes (te crea el mismo personaje desde varias porturas diferentes), gente que usa esto junto al LoRA de las miniaturas en su flujo de trabajo para imprimir miniaturas en 3D con su impresora 3D, he visto tutoriales para generar imágenes panorámicas en 360 grados, y hasta generar imágenes 3D a partir de una imagen 2D gracias al modelo de ControlNet Depth, que identifica el mapa de profundidad del escenario y los objetos de una imagen... Es brutal todo.

(https://pbs.twimg.com/media/EapOmGKXsAYg7RL.jpg)

Varios ejemplos de algunas cosas que he mencionado:

Imágenes creadas con el LoRA de minis de Figma:

(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/ed907efe-71df-4bfb-f7da-fc97420a8a00/width=512)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/1541e722-b857-4892-6960-13bba4c9a800/width=512)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/83a32549-85bb-4757-b46f-71ea6a59ff00/width=512)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/e19d7c34-42a9-4d2b-3300-34926e44ca00/width=512)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/5902f97c-ab43-4f06-45c3-cb4f20868000/width=560)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/1e48dde6-a171-4f67-f959-3ad5ebf50700/width=560)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/74b4c889-ce8e-442c-3faf-ebbdc8b1a300/width=512)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/2393c09a-c9e1-447e-0b3d-b4f93a64a600/width=512)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/10afaf60-e3a3-4edb-f7c5-70c68a89f600/width=512)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/5eb5ed3a-44a5-435a-1b61-f0f3317e4c00/width=512)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/bb3ce54d-9700-4551-8887-d223076bb400/width=512)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/358e4360-90ed-45da-910d-3172986d1900/width=560)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/8b48b339-8e12-4bff-2aba-feb917169800/width=640)

Imágenes creadas con el LoRA de miniaturas pintadas:

(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/2c965ae0-4c13-4eff-f7b0-914171ea1400/width=768)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/ed73efff-1b76-4b27-ec73-d66106dbed00/width=768)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/2e557c0a-2fef-438a-cf39-83a8af03f500/width=768)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/8a35eeae-8588-4487-73fc-54458e7c1400/width=768)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/5a5c126c-0d49-4297-fb65-03d200522400/width=768)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/27ee8e19-b237-4de7-b8c9-8d073773c100/width=768)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/601bb7e5-7ae6-4851-eff2-1b886c602f00/width=768)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/4a361a27-551c-4c84-ed07-dfd024a44800/width=768)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/527fd085-7471-4f71-3db5-97b1a8bffb00/width=768)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/b804d7b5-ca62-42e9-7c2f-d74d7d492b00/width=1024)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/ca0cfee2-39dc-495f-d7ca-d5701033b700/width=1280)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/945e5e57-8d17-4fa9-812e-ac7a37bb3d00/width=1280)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/1fa885b0-6f91-40c1-a268-e49b68d87c00/width=1920)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/ddaf6bfa-6c83-4a49-a8ef-9d6c52a35d00/width=768)

Imágenes creadas con los Checkpoints o LoRAs para hacer pixelart:

(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/b3c0c3a7-460e-4b7f-ab16-d186166bf800/width=504)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/288f74e7-89d9-4e04-17ac-7c17fded5600/width=504)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/c5bd1fec-9201-40cb-5d9c-6b2ecc3ddc00/width=512)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/2845daf5-33d5-470c-429e-01ae8fc73500/width=512)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/c4a7fd38-5d80-4bbd-b217-b310ef2a9300/width=1024)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/bdcf34d2-c8cd-4c5e-fa22-2befd449fa00/width=512)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/192a0824-8aa0-4381-adb5-2fe4ee5cab00/width=512)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/befb1a6c-df6b-4315-fe87-2653d4e91c00/width=512)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/071e3f5a-8e84-4093-b4f9-e886d2aa2800/width=536)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/2fb67e48-340d-4986-ecc8-1be33e941700/width=512)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/bc6fdef6-dfd1-486f-4c3f-085920b4f600/width=504)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/eff8f81d-ec42-40ef-96e4-685b737d3000/width=720)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/042d3fe3-5c64-4856-35cb-f3147b571400/width=512)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/fff69375-f892-40fa-65ff-85b87f34b000/width=2304)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/556315e6-989e-4451-abbf-bdbed611d300/width=2304)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/724c600b-9cfa-48f9-a4f8-38b976015500/width=2304)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/497ac86c-6d34-47b6-98ff-19599599af00/width=3456)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/aa6ebd0e-9a5c-45ce-f26c-e0898630d100/width=512)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/aeca5262-a8a1-4b57-7ca1-d3e05a8e9200/width=768)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/78f86ddb-2dab-4a01-7b42-bf7d3bc25200/width=768)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/2a233c6f-02a4-4929-6abc-4d86c332f400/width=1024)

Los sprites creados, aunque algunos de primeras no parecen perfectos, una vez los reduces al 25% de resolución con el modo 'Por Aproximación (bordes definidos)' del Photoshop, se pueden usar directamente en la creación de videojuegos, ojo... Aquí van unos ejemplos de esto:

(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/0609deac-4035-424b-eb71-07ff022a9700/width=1024)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/33c1d105-57d3-48e0-2e76-6491f4495b00/width=1024)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/a930aa45-4ac5-42e9-dca3-c1e517b2d100/width=1024)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/7ff994a0-881f-4374-a68c-a58a9c8ca900/width=1024)

Y finalmente, algunas imágenes del que crea figuras 'gigantes' de vinilo:

(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/f956d3d8-8b93-47fe-68e8-0b74807a1300/width=1024)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/319d6462-061a-425a-1efb-2f90a1709200/width=1024)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/d343523d-72fe-483a-9ea0-e7e7b92beb00/width=1024)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/08623d4b-da0f-43aa-23df-63af7f02dd00/width=1024)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/a9105fb2-eb3f-4ce8-db3a-3ead2bf50400/width=1024)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/0edb3f4a-6360-4820-0eed-db327c144300/width=1024)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/9c5fd5e0-277b-4101-c547-d45f0e7f4f00/width=1024)

Y sobre lo del Discord de Unstable Diffusion que mencioné antes, por si t quieres pasar por allí e informarte sobre lo de Google Colab, aquí está el enlace: https://discord.gg/unstablediffusion (https://discord.gg/unstablediffusion)

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: zzgus en Febrero 27, 2023, 04:58:26 pm

Joder tío me encanta leerte.

He quedado alucinado con el LoRA de minis de Figma !!!
Me falta tiempo para probarlo todo !!!

Por cierto, una sugerencia si se me permite decir, cuando citéis a alguien y el texto contiene muchas imágenes podéis borrar parte del texto para que no sea tan largo, que me duelen los dedos de hacer scroll !!!!!

Saludos
Gus

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: sirdrak en Febrero 27, 2023, 05:27:47 pm

Cita de: zzgus en Febrero 27, 2023, 04:58:26 pm

Joder tío me encanta leerte.

He quedado alucinado con el LoRA de minis de Figma !!!
Me falta tiempo para probarlo todo !!!

Por cierto, una sugerencia si se me permite decir, cuando citéis a alguien y el texto contiene muchas imágenes podéis borrar parte del texto para que no sea tan largo, que me duelen los dedos de hacer scroll !!!!!

Saludos
Gus

Pues imagina yo, que lo probé todo el tiempo con el LoRA que hice de mi amiga... Todas las figuritas con su cara y su cuerpo (y su ropa en el caso de las Figma). Con las minis pintadas, primero probé con ella 'normal' pero luego con personajes de juegos de Rol y bueno... Hice minis como para llenar un Heroquest xD Incluyendo todos los héroes, los orcos, los goblins, la vampiresa, las arpías... Hasta una aldeana con una cesta de frutas. A ella le ha hecho muchísima gracia. Tengo pensado entrenar un LoRA de mí mismo para poder hacer imágenes similares y poder mostrarlas en público xD

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: Josepzin en Febrero 27, 2023, 08:02:42 pm

Esto es cosa e'mandinga...! :O

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: zzgus en Febrero 27, 2023, 11:18:30 pm

Por cierto veo que siguen fallando en los dedos de las manos !!!

Saludos
Gus

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: sirdrak en Febrero 28, 2023, 12:22:01 pm

Cita de: zzgus en Febrero 27, 2023, 11:18:30 pm

Por cierto veo que siguen fallando en los dedos de las manos !!!

Saludos
Gus

Es normal teniendo en cuenta que las manos son una de las cosas más difíciles de dibujar y representar para un artista, hasta el punto de que hay algunos que se dedican exclusivamente a estudiarlas y dibujarlas de forma exclusiva, ya que son de una complejidad extrema por su gran movilidad. La cosa varía de unos modelos a otros (hay algunos más propensos que otros a problemas con los dedos y las manos), pero ahora van a actualizar el modelo de ControlNet OpenPose (el que permite mimetizar en la imagen final una postura bien a partir de una imagen previa de una persona o personaje real, bien a partir de una representación esquemática de un monigote a base de segmentos de colores con un fondo negro) para poder hacer lo mismo con las manos y los dedos de los personajes, lo que debería arreglar el problema en gran medida.

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: zzgus en Febrero 28, 2023, 12:30:33 pm

@sirdrak me has hecho entrar ganas de meterme en el tema.

¿Puedes decirme donde descargo los LoRAs de minis de Figma y el de miniaturas pintadas?

Vale, ya lo he encontrado, están todos en https://civitai.com (https://civitai.com)

Por cierto aquí explican bastante bien como utilizar Google collab con Stable DIffussion

Saludos
Gus

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: sirdrak en Febrero 28, 2023, 05:02:14 pm

Cita de: zzgus en Febrero 28, 2023, 12:30:33 pm

@sirdrak me has hecho entrar ganas de meterme en el tema.

¿Puedes decirme donde descargo los LoRAs de minis de Figma y el de miniaturas pintadas?

Por cierto aquí explican bastante bien como utilizar Google collab con Stable DIffussion

Saludos
Gus

Lo encuentras todo en CivitAI, que es la web de referencia para descargar modelos, esta: https://civitai.com/ (https://civitai.com/)

Pones en el buscador Figma o Painted miniatures y te salen.

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: zzgus en Febrero 28, 2023, 05:22:56 pm

Citar

Lo encuentras todo en CivitAI, que es la web de referencia para descargar modelos, esta: https://civitai.com/ (https://civitai.com/)

Pones en el buscador Figma o Painted miniatures y te salen.

Jajajajjaja justo ahora estaba modificando mi post para incluirlo.

Bueno así de primeras parece más complicado de lo que parece sin siquiera haber instalado el software.

Por ejemplo, si quiero crear imágenes del tipo "Figma Anime Figures" necesito descargarme el LORA (150MB) que es este: https://civitai.com/models/7984/figma-anime-figures (https://civitai.com/models/7984/figma-anime-figures)

Además en la descripción del LORA hace referencia a otro modelo que se necesita, AbyssOrangeMix2 - SFW (5.2GB) que es este:
https://civitai.com/models/4437/abyssorangemix2-sfw (https://civitai.com/models/4437/abyssorangemix2-sfw)

* Al querer descargar el modelo veo que hay diferentes opciones:
- Model SafeTensor (5.19GB)
- Pruned Model PickleTensor (1.99GB)
- Pruned Model SafeTensor (1.99GB)
- VAE (319MB)

También hacen referencia al EasyNegative https://huggingface.co/datasets/gsdf/EasyNegative (https://huggingface.co/datasets/gsdf/EasyNegative) que aún no sé exactamente que es. Bueno imagino que serán unos prompts negativos ya preparados.

Pues como parece no es tan sencillo y va a llevar un poco más de trabajo hacerse con ello.

Vamos a seguir leyendo !!!

Saludos
Gus

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: sirdrak en Febrero 28, 2023, 08:35:46 pm

Cita de: zzgus en Febrero 28, 2023, 05:22:56 pm

Citar

Lo encuentras todo en CivitAI, que es la web de referencia para descargar modelos, esta: https://civitai.com/ (https://civitai.com/)

Pones en el buscador Figma o Painted miniatures y te salen.

Jajajajjaja justo ahora estaba modificando mi post para incluirlo.

Bueno así de primeras parece más complicado de lo que parece sin siquiera haber instalado el software.

Por ejemplo, si quiero crear imágenes del tipo "Figma Anime Figures" necesito descargarme el LORA (150MB) que es este: https://civitai.com/models/7984/figma-anime-figures (https://civitai.com/models/7984/figma-anime-figures)

Además en la descripción del LORA hace referencia a otro modelo que se necesita, AbyssOrangeMix2 - SFW (5.2GB) que es este:
https://civitai.com/models/4437/abyssorangemix2-sfw (https://civitai.com/models/4437/abyssorangemix2-sfw)

* Al querer descargar el modelo veo que hay diferentes opciones:
- Model SafeTensor (5.19GB)
- Pruned Model PickleTensor (1.99GB)
- Pruned Model SafeTensor (1.99GB)
- VAE (319MB)

También hacen referencia al EasyNegative https://huggingface.co/datasets/gsdf/EasyNegative (https://huggingface.co/datasets/gsdf/EasyNegative) que aún no sé exactamente que es. Bueno imagino que serán unos prompts negativos ya preparados.

Pues como parece no es tan sencillo y va a llevar un poco más de trabajo hacerse con ello.

Vamos a seguir leyendo !!!

Saludos
Gus

En realidad es más sencillo de lo que parece... Verás, el LoRA se entrena con un modelo de base que puedes elegir, por lo que el creador suele recomendar ese o alguno basado en el que ha usado (se pueden crear nuevos modelos simplemente fusionando varios para obtener juntas características de ellos por separado), pero suelen funcionar bien con muchos otros, es sólo cuestión de probar. AOM2 es un modelo de los más usados, por lo que es recomendable tenerlo (bueno, en realidad como comenté con anterioridad los tres de la serie OrangeMix). Yo lo he usado con otros de hentai diferentes a ese, por ejemplo.

Respecto a las opciones que te da para descargar, siempre elige preferentemente una Safetensor, ya que se han dado casos en las otras de modelos con código 'escondido' en las Pickletensor, aunque las de Civitai están todas revisadas y no hay peligro. Las Safetensor sólo pueden llevar el código del modelo por lo que no se les puede meter nada ajeno. En cuanto a los que pone 'Pruned', que si te fijan pesan bastante menos, son versiones del modelo a las que se les ha quitado la información interna del entrenamiento con la que se ha creado el modelo. Es decir, son para las personas que quieran usar el modelo pero no tengan pensado crear modelos nuevos a partir de ellos, ahorrando un valioso espacio en el disco duro.

Luego el VAE es una especie de 'modelo accesorio' que se usa para mejorar los colores y corregir algunos pequeños defectos, pero no es necesario para el funcionamiento del modelo descargado, aunque sí recomendable. No obstante, en realidad al final se usan sólo dos o tres que siempre son los mismos, por lo que no hay que descargarlos cada vez, y además, hay muchos modelos que ya tienen el VAE incorporado dentro y no necesitan de otro externo.

Para terminar, EasyNegative y otros son básicamente LoRAs o Embeddings (textual inversions) que simplemente recopilan una enorme cantidad de términos usados en el Prompt negativo para corregir los errores de generación más frecuentes y conseguir imágenes de mayor calidad. Yo tengo varios descargados, pero lo que más suelo usar es tan sencillo como esto: (worst quality, low quality:1.4)

Hay modelos que no se llevan bien con prompts negativos muy largos, por lo que en esos es recomendable poner lo que he escrito. Generalmente en esos casos, en la descripción del modelo en Civitai lo comentan y también dan indicaciones y consejos sobre la mejor manera de usar y sacar partido a su modelo (siempre conviene leerse las descripciones).

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: sirdrak en Marzo 01, 2023, 04:17:40 pm

Pues aquí tenemos un canal de Youtube que han hecho un corto de anime con Stable Diffusion... No deja de ser bastante interesante. El corto:

Y aquí el 'cómo se hizo':

Y el canal es https://www.youtube.com/@Corridor (https://www.youtube.com/@Corridor)

Por supuesto no ha sido 'pulsar un botón y listo', pero es un uso interesante y el resultado me ha parecido bastante bueno.

Y luego aquí tenemos un interesantísimo vídeo de un creador de cortos de terror que usa la IA (Stable Diffusion y Midjourney, junto a otras herramientas), para crearlos en el que explica cómo ha rodado una de las escenas de uno de ellos:

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: zzgus en Marzo 01, 2023, 05:28:57 pm

Super interesante... voy a echar una ojeada !!!

Saludos
Gus

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: sirdrak en Marzo 07, 2023, 10:40:14 pm

Ahora estoy probando un modelo basado en Stable Diffusion 2.1 (una versión algo más avanzada de Stable Diffusion, que la mayoría de modelos y material son de la 1.5) llamado Illuminati diffusion y la verdad es que las imágenes que genera son espectaculares, del estilo a las de Midjourney (aunque lo cierto que Midjourney no es otra cosa que Stable Diffusion con un modelo especializado y con varios 'prompts precocinados' por debajo), como estas:

(https://i.imgur.com/qqngxCL.png)
(https://i.imgur.com/k7ek6A2.png)
(https://i.imgur.com/P3GS0oy.png)
(https://i.imgur.com/iG4oGuv.png)
(https://i.imgur.com/DIVEdQg.png)
(https://i.imgur.com/oE821j1.png)
(https://i.imgur.com/ZOodDSp.png)
(https://i.imgur.com/inmWZ0i.png)
(https://i.imgur.com/sDABDhV.png)
(https://i.imgur.com/07MV7X6.png)
(https://i.imgur.com/2MzQokF.png)
(https://i.imgur.com/gSfwJ3s.png)

Impresionante, verdad? Pues son todas imágenes que he generado esta tarde. Si queréis probar el modelo, se puede encontrar aquí: https://civitai.com/models/11193/illuminati-diffusion-v11 (https://civitai.com/models/11193/illuminati-diffusion-v11)

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: zzgus en Marzo 09, 2023, 07:39:25 pm

Cita de: sirdrak en Marzo 07, 2023, 10:40:14 pm

Ahora estoy probando un modelo basado en Stable Diffusion 2.1 (una versión algo más avanzada de Stable Diffusion, que la mayoría de modelos y material son de la 1.5) llamado Illuminati diffusion y la verdad es que las imágenes que genera son espectaculares, del estilo a las de Midjourney (aunque lo cierto que Midjourney no es otra cosa que Stable Diffusion con un modelo especializado y con varios 'prompts precocinados' por debajo), como estas:

IN-CRE-I-BLE !!!

Esto empieza a dar miedo !!!!

Saludos
Gus

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: sirdrak en Marzo 11, 2023, 09:34:36 pm

Hoy me ha dado por hacer animalillos 'cuquis' con un modelo que es de la versión 1.5:

(https://i.imgur.com/b2KWbBk.png)
(https://i.imgur.com/gClY6qK.png)
(https://i.imgur.com/VcJswBR.png)
(https://i.imgur.com/4KCTLmk.png)
(https://i.imgur.com/1jb3mIz.png)
(https://i.imgur.com/Iia1tC1.png)
(https://i.imgur.com/C6horcR.png)
(https://i.imgur.com/r2TEbXy.png)
(https://i.imgur.com/oy5AxCW.png)
(https://i.imgur.com/lQJTos6.png)
(https://i.imgur.com/BSBaj3G.png)
(https://i.imgur.com/RnjkAYI.png)
(https://i.imgur.com/LPuZCVI.png)
(https://i.imgur.com/pgWdVyO.png)
(https://i.imgur.com/m04Gzef.png)
(https://i.imgur.com/Bb0Ra5y.png)
(https://i.imgur.com/zwsiO2r.png)
(https://i.imgur.com/dOeowaA.png)
(https://i.imgur.com/qZEMAyr.png)
(https://i.imgur.com/Rx9Iguz.png)
(https://i.imgur.com/5VL6ASG.png)
(https://i.imgur.com/nh4UtBD.png)
(https://i.imgur.com/ND9Etys.png)
(https://i.imgur.com/v63Ltsa.png)
(https://i.imgur.com/FwLkye7.png)
(https://i.imgur.com/qllhwl1.png)

;D

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: empardopo en Marzo 14, 2023, 06:25:43 pm

@sirdrak, mira que no me gustan los gatos, más bien los odio y las fotitos están muy chulas, jeje

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: sirdrak en Marzo 16, 2023, 11:44:42 am

Pues va la cosa a toda leche últimamente... Hace dos días se presentó ChatGPT 4 (que seguro que ya lo habréis visto porque ha salido en todos lados la noticia) que ya es capaz de hacer cosas tan impresionantes como programar un juego funcional a la primera (he visto a uno pedirle que le haga una réplica del Pong en Javascript y lo ha hecho tal cual, como si fuera lo más fácil del mundo, y al del DotCSV, pedirle que le programe una copia del Flappybird funcional y además que entrene una IA para que aprenda a jugar al juego, y así lo ha hecho), ahora se ha anunciado la versión 5 de Midjourney, y parece que ya falta poco para la versión 3 de Stable Diffusion, que también promete muchas cosas y muchos avances...

Y mientras, siguen apareciendo funcionalidades nuevas para el Stable Diffusion 1.5, que como digo es el que usa todo el mundo, como una que ha salido ahora para corregir una manía de la IA de confundir los diferentes colores de los elementos de la imagen que le especificas en la descripción (intercambiando por ejemplo colores de diferentes partes de la ropa y el pelo), con una extensión llamada Cutoff:

(https://github.com/hnmr293/sd-webui-cutoff/raw/main/images/cover.jpg)

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: sirdrak en Marzo 19, 2023, 08:19:00 pm

Ayer me entretuve en entrenar un LoRA de Melpha, un personaje de la serie de anime Queen's Blade, que destaca por tener una enorme 'pechonalidad', y que se ha convertido en un meme en algunos canales de Telegram que frecuento por 'ese par de razones' y algún gif animado gracioso con ella que hay por ahí sacado de la serie como este:

(https://i.pinimg.com/originals/f3/dd/36/f3dd363924b9181e8be6234a78d885cb.gif)

Mi idea era hacerlo para poder hacer más memes con ella... Y la verdad es que ha salido muy bien, he visto que funciona perfectamente en casi todos los modelos con los que la he probado (con todos los que hay de anime, que son un montón, por ejemplo) por lo que la he compartido para todo el mundo en Civitai, aquí: https://civitai.com/models/21501/melpha-from-queens-blade (https://civitai.com/models/21501/melpha-from-queens-blade)

Unas imágenes de ejemplo que he generado:

(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/a19ce83a-dd40-47e1-e30d-b397f3728000/width=1264/281879)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/8b818851-e3bd-47c8-8cf4-bf33af639a00/width=1264/281886)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/48919d50-bde8-42a5-3779-4b37acd87800/width=840/281885)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/c720d192-4249-4f2c-a992-ba6b4731a400/width=1264/281884)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/1522dcd3-1138-49a6-2cb6-230016cd5a00/width=1024/281883)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/ab0c9450-47b8-46f2-0723-c9bf60097100/width=1024/281882)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/0fda970e-735d-490e-c631-ed0f78b6d100/width=1536/281881)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/6cce401f-3bbb-428e-7811-dcb6c805b000/width=1536/281880)

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: empardopo en Marzo 21, 2023, 08:36:50 am

Avisa, que he abierto el móvil y me van a tachar de no se que, jajaja

Enviado desde mi MI MAX 2 mediante Tapatalk

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: sirdrak en Marzo 21, 2023, 04:09:21 pm

Cita de: empardopo en Marzo 21, 2023, 08:36:50 am

Avisa, que he abierto el móvil y me van a tachar de no se que, jajaja

Enviado desde mi MI MAX 2 mediante Tapatalk

Pues entonces te voy a avisar del siguiente jejejeje... Ayer estuve entrenando el LoRA del estilo artístico del gran Azpiri, a partir de 74 imágenes en alta resolución... Había pensado también hacer luego un LoRA a parte para sus personajes Lorna y Mot, pero resulta que Lorna sale muy fácilmente con el LoRA de ayer sin haberlo entrenado en ella específicamente, simplemente describiendo algunas de sus características, así que sólo tendré que hacerlo de Mot. Es brutal lo bien que ha pillado el estilo y las imágenes que genera... Además otra cosa interesante que he visto es que bajando la fuerza del LoRA por debajo del 0.7 (70%) el estilo cambia a otro diferente, pero también occidental, más suave, realista y detallado, que también está genial.

Echaba en falta la existencia de más modelos y LoRAs de artistas occidentales, que casi todo lo que hay es anime, por eso me animé con este. Las imágenes no las pondré aún, ya que me quedan una pruebas por hacer (probarlo con más modelos y funcionando junto con otros LoRAs) antes de subirlo a Civitai, así que estás sobre aviso, que en el siguiente vienen imágenes (intentaré no obstante poner las más 'light', aunque ya aviso que tiene muchísima tendencia de sacar a las mujeres desnudas o casi desnudas (lógico ya que la mayor parte del material es de Lorna y otras historias con alto contenido erótico).

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: empardopo en Marzo 21, 2023, 07:17:01 pm

Cita de: sirdrak en Marzo 21, 2023, 04:09:21 pm

Cita de: empardopo en Marzo 21, 2023, 08:36:50 am
Avisa, que he abierto el móvil y me van a tachar de no se que, jajaja

Enviado desde mi MI MAX 2 mediante Tapatalk

Pues entonces te voy a avisar del siguiente jejejeje... Ayer estuve entrenando el LoRA del estilo artístico del gran Azpiri, a partir de 74 imágenes en alta resolución... Había pensado también hacer luego un LoRA a parte para sus personajes Lorna y Mot, pero resulta que Lorna sale muy fácilmente con el LoRA de ayer sin haberlo entrenado en ella específicamente, simplemente describiendo algunas de sus características, así que sólo tendré que hacerlo de Mot. Es brutal lo bien que ha pillado el estilo y las imágenes que genera... Además otra cosa interesante que he visto es que bajando la fuerza del LoRA por debajo del 0.7 (70%) el estilo cambia a otro diferente, pero también occidental, más suave, realista y detallado, que también está genial.

Echaba en falta la existencia de más modelos y LoRAs de artistas occidentales, que casi todo lo que hay es anime, por eso me animé con este. Las imágenes no las pondré aún, ya que me quedan una pruebas por hacer (probarlo con más modelos y funcionando junto con otros LoRAs) antes de subirlo a Civitai, así que estás sobre aviso, que en el siguiente vienen imágenes (intentaré no obstante poner las más 'light', aunque ya aviso que tiene muchísima tendencia de sacar a las mujeres desnudas o casi desnudas (lógico ya que la mayor parte del material es de Lorna y otras historias con alto contenido erótico).

Te ha dado fuerte por esto compi, jeje! Y +10 que lo compartas! Gracias crack!

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: sirdrak en Marzo 22, 2023, 06:27:33 pm

Bueno pues ya está subido a Civitai... La verdad es que me está sorprendiendo muy gratamente las imágenes que crea, parecen salidas del propio artista... Voy a poner aquí las mismas que he puesto en Civitai:

(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/b7feac17-b018-4a58-0b4e-6f58f66a6400/width=1536/302108)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/918ca65f-1b81-43f2-17ad-1859cb529600/width=1264/302118)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/c190a089-3f51-42f0-d815-9377c08c3900/width=1536/302114)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/609bf617-3b60-413e-d237-dfdc05bf0900/width=1264/302117)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/943d430c-2531-41c2-3546-37cc2ee0bc00/width=1536/302116)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/6797bf29-e050-4cb6-9b12-1e77be399200/width=1264/302111)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/ef9ba153-09f7-4b00-1349-41aea4959900/width=1264/302110)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/3de49683-bbbf-480c-5eed-c8f194ec4000/width=1536/302115)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/9cbf815f-e581-41d2-4b88-b4888d405400/width=1536/302113)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/4d236529-159a-49d1-ceb5-ba668f8c2700/width=1280/302112)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/aa68bcb8-5536-433c-16d4-0998f311d600/width=1152/302109)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/3f40a73c-5650-4aa0-ecf8-76c6f7dafb00/width=1152/302215)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/3a3f7ae4-958e-4d74-a820-e9b31fa98300/width=1152/302214)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/a049d4dc-a05d-4c70-91a5-007a3ddcb400/width=1536/302213)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/e630d3b0-fe17-4a1f-d5c5-026ac8f3b800/width=840/302211)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/ef735f28-c437-449c-0f01-63f511fa3d00/width=1536/302210)

Además Lorna sale muy fácil simplemente poniendo que tenga pelo largo rubio, maquillaje, pechos grandes, y mencionando la temática de Ciencia Ficción, sin necesidad de entrenar un nuevo LoRA para el personaje. Se puede descargar de aquí: https://civitai.com/models/22982/a-azpiri-style (https://civitai.com/models/22982/a-azpiri-style)

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: empardopo en Marzo 23, 2023, 10:14:16 pm

Están geniales. Esa gama de colores y tonalidades están muy chulas!!

Enviado desde mi MI MAX 2 mediante Tapatalk

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: sirdrak en Marzo 23, 2023, 10:57:42 pm

Cita de: empardopo en Marzo 23, 2023, 10:14:16 pm

Están geniales. Esa gama de colores y tonalidades están muy chulas!!

Enviado desde mi MI MAX 2 mediante Tapatalk

Si, en general las propias ilustraciones de Azpiri son así de coloridas también, pero he visto que hay un modelo de anime en el que salen las imágenes muy vistosas, que se llama Yesmix... Con ese he hecho las imágenes en las que salen también hombres, y las de las guerreras con casco.

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: sirdrak en Marzo 25, 2023, 12:12:43 am

Un compañero del Discord de Unstable Diffusion ha publicado una guía donde explica con detalle como hacer buenos LoRAs, así que he probado sus consejos para mejorar el mío, y sí que ha mejorado, lo que lo hace más impresionante ahora... Ha pasado de ocupar 144 MB a sólo 37, habiéndolo entrenado esta vez con 100 imágenes en lugar de 80 (las 80 anteriores más 20 nuevas). Ahora es mucho más detallado a la hora de representar las chicas, sobre todo en cara y ojos...

También se ha vuelto más, digamos, 'horny'... Ahora hasta cuesta trabajo que saque imágenes con las chicas vestidas o sin enseñar los pezones xD Y eso que las imágenes extra sólo tienen una en la que salga una chica desnuda, pero se ve que eso ha sido suficiente...

Algunas imágenes para ilustrar lo que comento... A ver qué os parecen:

(https://i.imgur.com/yvLYAHT.png)
(https://i.imgur.com/THpXO37.png)
(https://i.imgur.com/tA2qbAu.png)
(https://i.imgur.com/0o3Fmcr.png)
(https://i.imgur.com/OMkJYtr.png)
(https://i.imgur.com/4cX5rB0.png)

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: Zael en Marzo 26, 2023, 08:22:11 pm

Cita de: sirdrak en Marzo 22, 2023, 06:27:33 pm

Bueno pues ya está subido a Civitai... La verdad es que me está sorprendiendo muy gratamente las imágenes que crea, parecen salidas del propio artista... Voy a poner aquí las mismas que he puesto en Civitai:

(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/918ca65f-1b81-43f2-17ad-1859cb529600/width=1264/302118)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/6797bf29-e050-4cb6-9b12-1e77be399200/width=1264/302111)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/3de49683-bbbf-480c-5eed-c8f194ec4000/width=1536/302115)

JO-DER... ¡¡es tal cual Azpiri!! Como ya dijimos, esto va a quitar mucho trabajo a dibujantes, ilustradores, diseñadores de modelos 3D para juegos, etc.

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: sirdrak en Marzo 27, 2023, 01:28:00 pm

Cita de: Zael en Marzo 26, 2023, 08:22:11 pm

Cita de: sirdrak en Marzo 22, 2023, 06:27:33 pm
Bueno pues ya está subido a Civitai... La verdad es que me está sorprendiendo muy gratamente las imágenes que crea, parecen salidas del propio artista... Voy a poner aquí las mismas que he puesto en Civitai:

(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/918ca65f-1b81-43f2-17ad-1859cb529600/width=1264/302118)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/6797bf29-e050-4cb6-9b12-1e77be399200/width=1264/302111)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/3de49683-bbbf-480c-5eed-c8f194ec4000/width=1536/302115)

JO-DER... ¡¡es tal cual Azpiri!! Como ya dijimos, esto va a quitar mucho trabajo a dibujantes, ilustradores, diseñadores de modelos 3D para juegos, etc.

Justo hoy he añadido la segunda versión del LoRA de Azpiri a Civitai y voy a entrenar una tercera jejeje Se puede descargar aquí:

https://civitai.com/models/22982/a-azpiri-style (https://civitai.com/models/22982/a-azpiri-style)

Y algunas imágenes de ejemplo:

(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/f1d3bd84-30ea-44ff-72d1-f9c04a464400/width=1264/338128)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/d4bd3037-a33c-48f1-0071-26fc2000f900/width=1024/338127)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/1cd1d216-f0dd-448a-1a9a-46305eae2800/width=1024/338126)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/5ca03b17-15b0-479c-96a7-ad3d018f5000/width=1280/338124)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/85395fdf-a6c6-48cb-e508-95e1e48dbe00/width=1280/338123)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/3fa27d5f-e05e-4999-1de3-388424fff600/width=1280/338121)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/57d77918-d317-45c1-76b9-b457bda28500/width=1280/338119)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/6493f29e-a55c-4213-3acd-1f6cb5261100/width=1024/338133)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/2f384124-4021-4dc4-3fc6-185da9c7d800/width=1024/338120)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/7bb6021d-6fe5-407e-6ab1-a8d07c0eb200/width=1024/338135)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/eb32ccc3-29dd-42f1-8621-c6d77cb46c00/width=1024/338137)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/72f9245f-5a6f-431a-05b7-be952e8baf00/width=1024/338136)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/597ad931-8729-4621-63b2-e98365333600/width=1280/338125)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/80a4313c-642c-4408-a8e3-ecab81e5e200/width=1024/338134)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/67ced552-1993-4b57-1634-60711c74a900/width=1280/338122)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/de531ab7-6a07-4aa3-d393-48c6a006b400/width=1536/338132)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/30251767-826e-4538-002b-4b2fd8b5a100/width=1024/338131)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/445330c1-b91f-45ff-0f26-283f0b9a4900/width=1024/338130)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/9d3a764f-4f9b-42d3-d747-6e421a6ff100/width=1264/338129)

Como véis, son más espectaculares y detalladas ahora... Sin embargo, me he dado cuenta de que los escenarios ahora son más genéricos (aunque muy detallados, eso sí) y menos del estilo de Azpiri, y por eso he decidido ponerla como una versión alternativa y no una V2 propiamente dicha. Esa es la razón de que ahora vaya a entrener el modelo de nuevo, ya de paso añadiendo algunas imágenes más, con lo que aumentará el detalle y la variedad en las imágenes...

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: empardopo en Marzo 27, 2023, 04:58:42 pm

Mamma mia!!!

Enviado desde mi MI MAX 2 mediante Tapatalk

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: sirdrak en Abril 02, 2023, 02:42:27 am

Bueno, pues con la tercera versión que he hecho de mi LoRA del estilo gráfico de Azpiri, lo doy por finalizado porque he conseguido lo que quería: Ahora sí que parecen dibujos suyos... Además, regulando la intensidad del LoRa, en una sólo LoRA tengo dos estilos diferentes: del 90 al 100% el estilo de Azpiri como el que veíamos en sus comics o en las portadas de los videojuegos, y entre el 70 y el 80 % el estilo detallado y de féminas espectaculares que conseguía con la segunda versión, pero sin los fondos genéricos. Ya lo he subido a Civitai junto a las versiones anteriores... Ejemplos de esta:

- Estilo 100% Azpiri:

(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/b8f61ec5-5974-4ab4-d618-8ea6fab13000/width=1024/380493)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/91222e44-c83f-4c31-8027-0ecac17bf300/width=1024/380491)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/2303cb9e-f28d-4d6c-1ad3-f179c0dafd00/width=1024/380489)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/02d93038-bdea-4e09-db0f-0fad744ccd00/width=1024/380503)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/b3287a87-d3df-4484-5957-e404c2c78f00/width=1024/380483)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/4c8ff509-3d79-4cc9-a294-b9bdfaf95100/width=1024/380482)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/d51eb043-eb12-4b67-ad48-841003d48400/width=1024/380481)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/b868bc35-54e4-4a1d-7a9d-406944a26d00/width=1024/380480)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/d19b2ed6-fdcc-4db1-5815-59d7a66fbb00/width=1024/380479)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/30fb0952-c68e-4516-558e-4450ae7deb00/width=1024/380478)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/f26e5e09-17eb-4597-7707-9ec371f32b00/width=1024/380477)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/b17d0b59-331c-490c-d85d-e9b8ceb89b00/width=1024/380476)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/5331cf0c-4b2b-42f2-94a8-4235a00f8500/width=1024/380475)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/ede191c1-1185-42a2-f11a-0e83873f1a00/width=1024/380474)
(https://i.imgur.com/lnG2wqD.png)
(https://i.imgur.com/DubjedY.png)
(https://i.imgur.com/48RApVu.png)
(https://i.imgur.com/VlAZikp.png)
(https://i.imgur.com/Ac38e4r.png)
(https://i.imgur.com/4Q2tfqM.png)
(https://i.imgur.com/uM7Rf66.png)
(https://i.imgur.com/e11V7XS.png)
(https://i.imgur.com/Bzx0PoD.png)

- Estilo como en la versión 2, más detallado y suave:

(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/c24350c7-d2b6-4290-3467-5cd68be1a000/width=1024/380492)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/922d416a-0ac8-4cdd-46c1-1201a96c0e00/width=1024/380488)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/571fd6c2-4f29-44e6-2e1a-d07995b6c200/width=1024/380487)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/6d963cb4-3f22-4698-4096-0eeb4f741000/width=1024/380485)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/5e1198ac-cf4e-452c-ed11-e4cbc996ab00/width=1024/380484)
(https://i.imgur.com/5PZ4LVe.png)
(https://i.imgur.com/VjrAPu0.png)
(https://i.imgur.com/XhGXopR.png)
(https://i.imgur.com/Plh6lb1.png)
(https://i.imgur.com/uVsVE2E.png)
(https://i.imgur.com/G9IIUwD.png)
(https://i.imgur.com/bvoOR2m.png)
(https://i.imgur.com/LaXxKJX.png)
(https://i.imgur.com/PRd8ON1.png)
(https://i.imgur.com/s3rNe9j.png)

Como las anteriores, se puede descargar de aquí: https://civitai.com/models/22982 (https://civitai.com/models/22982)

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: empardopo en Abril 10, 2023, 06:53:05 pm

Madre mía! Están geniales las ilustraciones y esas tonalidades lo petan!
Eres un crack!

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: treme en Abril 10, 2023, 11:55:17 pm

Nada nada,yo quiero una maquina que haga que mi mujer se transforme en una de la de estas fotos

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: sirdrak en Abril 11, 2023, 02:53:00 am

Pues ahora he probado un par de cosillas que me han parecido geniales... Una es un servicio gratuíto online que convierte imágenes 2D en 3D usando una IA, que luego se pueden descargar como un gif animado o un mp4, y otros formatos como 3D SBS para verlas en VR o en una tele con 3D stereoscópico... He hecho pruebas con resultados como estos:

(https://i.imgur.com/qFY6PM1.gif)
(https://i.imgur.com/IRaOLoY.gif)
(https://i.imgur.com/XeEbEE2.gif)
(https://i.imgur.com/c0oDUFo.gif)

Tan sólo hay que ir y registrarse aquí: https://convert.leiapix.com/ (https://convert.leiapix.com/)

Como mejor quedan los gifs es descargando las animaciones en mp4 y luego pasándolas a gif en Convertio, que da muy buena calidad: https://convertio.co/es/mp4-gif/ (https://convertio.co/es/mp4-gif/)

Lo otro que he estado probando, con el que he hecho las dós últimas imágenes de las animaciones y otras que veréis a continuación, es un LoRA para hacer mundos en miniatura... Consigue un nivel de detalle y un efecto tipo maqueta espectacular, con montones de pequeñas cosas y detalles con los que te puedes estar un buen rato mirando las imágenes. No es perfecto, porque muchas veces los objetos no tienen la misma proporción, encontrándote personas y casas muy pequeñas junto a edificios con puertas enormes, pero a pesar de todo es espectacular:

(https://i.imgur.com/jMowlmH.png)
(https://i.imgur.com/vlXvL2G.png)
(https://i.imgur.com/a6wGXPN.png)
(https://i.imgur.com/RqmJrWn.png)
(https://i.imgur.com/cOhtDca.png)
(https://i.imgur.com/BS1aASx.jpg)
(https://i.imgur.com/Z1w9V1o.jpg)
(https://i.imgur.com/edhwwIF.png)
(https://i.imgur.com/ddbjV2d.png)
(https://i.imgur.com/Rojy7Dx.jpg)
(https://i.imgur.com/AgF149P.jpg)

Abrid las imágenes en una pestaña nueva para poder verlas en grande con todos sus detalles.

Y el LoRA que he usado es este: https://civitai.com/models/28531/miniature-world-style (https://civitai.com/models/28531/miniature-world-style)

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: empardopo en Abril 15, 2023, 06:34:19 pm

Que pasote!

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: sirdrak en Abril 23, 2023, 01:44:57 pm

Hace unos días entrené un LoRA de otro personaje de la serie Queen's Blade, concretamente Menace, que es una especie de homenaje a Cleopatra... Es una princesa/hechicera de una cultura similar a la egipcia, que va por ahí semidesnuda y con un cetro viviente con cabeza de gato llamado Setra. Por esa razón este es un personaje 'subidillo de tono' (como muchos de los de la serie mencionada) y además parece que genera buenas imágenes tanto con modelos de anime como con modelos realistas (salen unas chicas muy espectaculares y no parece un cosplay, como me ha pasado con otros personajes, que sólo quedan bien en su versión anime). Por lo antes comentado, pondré algunas imágenes en spoiler:

(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/43ce901f-e9d4-470b-7527-b913a95b0800/width=450/00221-485891139.jpeg)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/56a3b2b2-f1f1-45d2-f4f1-0526ca593f00/width=450/00031-3274322510.jpeg)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/efecf0c6-e2b3-41a9-ff01-7afb086bae00/width=450/00118-3939549197.jpeg)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/5acf4eee-0d2f-4ba9-c877-7a18fd5f3e00/width=450/00398-3260123832.jpeg)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/4311e8bd-4686-4e96-6f42-bdf720386a00/width=450/00038-3909202824.jpeg)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/88a557c7-863b-4819-6b2d-c8e9bbe8de00/width=450/00039-2737495970.jpeg)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/6915776f-36d5-4cb5-1e85-aef084997f00/width=450/00059-329090475.jpeg)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/ba6b4930-8a9a-4888-c06c-2c9867536b00/width=450/00101-2862538792.jpeg)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/b95142d4-2269-4c19-c56b-d200dacacf00/width=450/00126-331515485.jpeg)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/f5a08f38-b782-4530-ad24-f52a6ac87600/width=450/00210-1068936667.jpeg)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/92fa7d67-0615-4a81-be4f-9d50cdfe4500/width=450/00215-1668029397.jpeg)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/a3d4292f-7cee-4c1f-17c4-08c42c849c00/width=450/00223-2027327424.jpeg)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/227cf29a-9211-4162-ddf0-f92747b0a900/width=450/00234-2188045358.jpeg)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/cc17502f-f72f-4e1d-1cf4-e778b4d12400/width=450/00384-1589142608.jpeg)

Spoiler: mostrar

Si alguien lo quiere probar, se puede descargar de aquí: https://civitai.com/models/43770/menace-from-queens-blade (https://civitai.com/models/43770/menace-from-queens-blade)

También he visto un LoRA para hacer pixelart que me ha parecido muy interesante... Algunos ejemplos:

(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/f560fae0-93d7-4b7c-71b7-b6db3bad4d00/width=450/00063-3871362722.jpeg)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/6fbe65d5-c14a-4599-f745-6f03f8e6c700/width=450/00195-1583079123.jpeg)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/567900d8-db5a-4f03-0dee-cbbb705aef00/width=450/00068-3871362727.jpeg)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/98851cd4-175c-4930-1330-3cfa51676800/width=450/00161-4229816842.jpeg)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/b12e1eca-b796-4fae-dedb-af574cc58b00/width=450/00075-3871362734.jpeg)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/7da57b9b-630f-43cc-5be9-4ab51eed7600/width=1152/00103-3426161907.jpeg)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/c755a331-01ed-4b0e-2d25-12008fe56200/width=768/00157-2594198337.jpeg)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/f0008fe2-f75b-4e01-5c4a-68376995fa00/width=768/00074-3871362733.jpeg)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/5801e4f5-acef-46bc-9c15-01428f4e2500/width=1152/00098-2416205037.jpeg)

Este LoRA se llama mPixel, y se puede descargar aquí: https://civitai.com/models/44960/mpixel (https://civitai.com/models/44960/mpixel)

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: empardopo en Abril 26, 2023, 08:26:17 pm

Lo del pixel art estaría chulo que pudiera crear un spritesheet; ya sabes, hacer alguna animación para poder usar en juegos... :-)

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: sirdrak en Abril 27, 2023, 07:10:42 am

Cita de: empardopo en Abril 26, 2023, 08:26:17 pm

Lo del pixel art estaría chulo que pudiera crear un spritesheet; ya sabes, hacer alguna animación para poder usar en juegos... :-)

De hecho se puede... Algunos modelos lo permiten y luego está la posibilidad de usar ControlNet con Openpose (el que permite clonar poses de imágenes previas o de una imagen con unos monigotes a base de líneas de colores). Los usuarios descubrieron que la forma de generar un mismo personaje en varias poses diferentes y mantener la consistencia (es decir, que aparezca con el mismo aspecto y ropa en todas ellas) era crear una imagen con varios muñecos de estos de poses en la misma imagen y que todas fueran el mismo personaje. De esta forma, puedes hacer una matriz de imágenes con el monigote de las poses con los distintos fotogramas de una animación y generar la animación de un personaje o una hoja de concept art. Aquí tienes varios ejemplos creados de dicha manera:

(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/b3c0c3a7-460e-4b7f-ab16-d186166bf800/width=504)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/288f74e7-89d9-4e04-17ac-7c17fded5600/width=504)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/c5bd1fec-9201-40cb-5d9c-6b2ecc3ddc00/width=512)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/2845daf5-33d5-470c-429e-01ae8fc73500/width=512)

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: empardopo en Abril 27, 2023, 09:13:05 pm

Cita de: sirdrak en Abril 27, 2023, 07:10:42 am

Cita de: empardopo en Abril 26, 2023, 08:26:17 pm
Lo del pixel art estaría chulo que pudiera crear un spritesheet; ya sabes, hacer alguna animación para poder usar en juegos... :-)

De hecho se puede... Algunos modelos lo permiten y luego está la posibilidad de usar ControlNet con Openpose (el que permite clonar poses de imágenes previas o de una imagen con unos monigotes a base de líneas de colores). Los usuarios descubrieron que la forma de generar un mismo personaje en varias poses diferentes y mantener la consistencia (es decir, que aparezca con el mismo aspecto y ropa en todas ellas) era crear una imagen con varios muñecos de estos de poses en la misma imagen y que todas fueran el mismo personaje. De esta forma, puedes hacer una matriz de imágenes con el monigote de las poses con los distintos fotogramas de una animación y generar la animación de un personaje o una hoja de concept art. Aquí tienes varios ejemplos creados de dicha manera:

(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/b3c0c3a7-460e-4b7f-ab16-d186166bf800/width=504)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/288f74e7-89d9-4e04-17ac-7c17fded5600/width=504)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/c5bd1fec-9201-40cb-5d9c-6b2ecc3ddc00/width=512)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/2845daf5-33d5-470c-429e-01ae8fc73500/width=512)

Jolín, pues esto sí que lo veo muy muy interesante!

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: sirdrak en Mayo 14, 2023, 02:39:22 pm

Voy a comentar algunas novedades muy interesantes que aumentan aún más el potencial de Stable Diffusion. Anteriormente ya os hablé de la extensión ControlNet, que tiene varios modelos que añaden una capa extra de control a la generación de imágenes usando como referencia una imagen de partida, con modelos que permiten clonar posturas de personajes, hacer un mapa de profundidad de la imagen de partida para aplicarlo a la imagen final y muchas cosas más. Hace poco, la extensión se actualizó a su versión 1.1 e introdujo varios nuevos tipos de modelos con nuevas funcionalidades, algunas de ellas muy interesantes. De todas ellas yo destacaría la siguiente:

- Modelos que permiten colorear un lineart de un dibujo sin modificar dicho dibujo. Esto es el sueño de todo artista, porque ahorra muchísimo trabajo, todo el paso que va desde el trazado del dibujo hasta el coloreado, añadir sombras, luces, un fondo y efectos especiales al dibujo final, como podéis ver en los siguientes ejemplos del Github de la extensión:

(https://github.com/lllyasviel/ControlNet-v1-1-nightly/raw/main/github_docs/imgs/lineart_3.png)
(https://github.com/lllyasviel/ControlNet-v1-1-nightly/raw/main/github_docs/imgs/anime_3.png)
(https://github.com/lllyasviel/ControlNet-v1-1-nightly/raw/main/github_docs/imgs/anime_4.png)

Incluso se pueden recolorear y cambiar los colores de una ilustración completa con colores y todo:

(https://github.com/lllyasviel/ControlNet-v1-1-nightly/raw/main/github_docs/imgs/anime_6.png)

Pero además de lo anterior, la última novedad es de ayer, y se trata de un modo llamado 'Reference only', que no necesita ni siquiera de un modelo de ControlNet específico, sino sólo de una imagen de partida como referencia y un prompt, y que lo que hace básicamente es crear imágenes similares a la original pero haciendo lo que le indiques en el prompt. De esta forma parece que por fin será posible hacer que una persona o personaje, partiendo únicamente de una imagen suya inicial, salga en varias posiciones o con diferentes expresiones de manera consistente sin necesidad de entrenar un LoRA para ello.... Lo mejor es ver un ejemplo en el siguiente video:

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: sirdrak en Mayo 18, 2023, 12:23:58 am

Bueno, pues para celebrar la salida de Zelda Tears of the Kingdom (y en especial que en sólo 3 días ha vendido 10 millones de unidades), he hecho algunas imágenes de Zelda y de ese nuevo personaje femenino misterioso que ha hecho furor desde que apareció en los trailers cuyo nombre no diré para no hacer spoilers:

(https://i.imgur.com/0KCGqfC.png)
(https://i.imgur.com/YJK5N6E.png)
(https://i.imgur.com/nnlhh1d.png)
(https://i.imgur.com/WaxoNRJ.png)
(https://i.imgur.com/Io0TBaQ.png)
(https://i.imgur.com/7zn1Tll.png)
(https://i.imgur.com/I8Sa4cQ.png)
(https://i.imgur.com/0cHHDj2.jpg)
(https://i.imgur.com/HHNOI14.jpg)
(https://i.imgur.com/NqXDMO5.png)
(https://i.imgur.com/Lv2WJz0.png)
(https://i.imgur.com/55RG9Bm.png)
(https://i.imgur.com/3hGpEHg.png)
(https://i.imgur.com/q1qwkgt.png)
(https://i.imgur.com/fXyFsO2.png)
(https://i.imgur.com/feDszoC.png)
(https://i.imgur.com/ihBWR1e.png)
(https://i.imgur.com/WYfQNIl.png)
(https://i.imgur.com/kwNE6Yy.png)
(https://i.imgur.com/yk3k4yA.png)
(https://i.imgur.com/86zgeT9.png)
(https://i.imgur.com/h0OVXbJ.png)
(https://i.imgur.com/IO0bNL5.png)
(https://i.imgur.com/3DIwoC7.png)
(https://i.imgur.com/7BQJA7b.png)
(https://i.imgur.com/uuiukH6.png)

Tengo que felicitar al que ha hecho el LoRA del personaje misterioso porque le ha salido genial usando tan sólo 15 imágenes para el entrenamiento. El modelo que he usado, en mi opinion uno de los mejores para ilustraciones semirrealistas, es revAnimated1.22, que se está convirtiendo en uno de mis favoritos...

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: empardopo en Mayo 21, 2023, 08:57:41 pm

Cita de: sirdrak en Mayo 18, 2023, 12:23:58 am

Bueno, pues para celebrar la salida de Zelda Tears of the Kingdom (y en especial que en sólo 3 días ha vendido 10 millones de unidades), he hecho algunas imágenes de Zelda y de ese nuevo personaje femenino misterioso que ha hecho furor desde que apareció en los trailers cuyo nombre no diré para no hacer spoilers:

(https://i.imgur.com/0KCGqfC.png)
(https://i.imgur.com/YJK5N6E.png)
(https://i.imgur.com/nnlhh1d.png)
(https://i.imgur.com/WaxoNRJ.png)
(https://i.imgur.com/Io0TBaQ.png)
(https://i.imgur.com/7zn1Tll.png)
(https://i.imgur.com/I8Sa4cQ.png)
(https://i.imgur.com/0cHHDj2.jpg)
(https://i.imgur.com/HHNOI14.jpg)
(https://i.imgur.com/NqXDMO5.png)
(https://i.imgur.com/Lv2WJz0.png)
(https://i.imgur.com/55RG9Bm.png)
(https://i.imgur.com/3hGpEHg.png)
(https://i.imgur.com/q1qwkgt.png)
(https://i.imgur.com/fXyFsO2.png)
(https://i.imgur.com/feDszoC.png)
(https://i.imgur.com/ihBWR1e.png)
(https://i.imgur.com/WYfQNIl.png)
(https://i.imgur.com/kwNE6Yy.png)
(https://i.imgur.com/yk3k4yA.png)
(https://i.imgur.com/86zgeT9.png)
(https://i.imgur.com/h0OVXbJ.png)
(https://i.imgur.com/IO0bNL5.png)
(https://i.imgur.com/3DIwoC7.png)
(https://i.imgur.com/7BQJA7b.png)
(https://i.imgur.com/uuiukH6.png)

Tengo que felicitar al que ha hecho el LoRA del personaje misterioso porque le ha salido genial usando tan sólo 15 imágenes para el entrenamiento. El modelo que he usado, en mi opinion uno de los mejores para ilustraciones semirrealistas, es revAnimated1.22, que se está convirtiendo en uno de mis favoritos...

Sin tenerlo ni haberlo usado estoy viendo que también se va a convertir en uno de mis favoritos! Madre mía!

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: sirdrak en Julio 15, 2023, 12:37:04 am

Pues ahora, en mis experimentos con la IA, he dado accidentalmente con una combinación de modelos que me generan imágenes de un estilo que recuerdan a las espectaculares portadas de Dinamic de Luis Royo... Básicamente estaba probando el mini-modelo que entrené yo con el estilo de Azpiri sobre un modelo para generar imágenes semirrealistas muy popular que se llama RevAnimated (el que usé para crear las imágenes anteriores de los personajes de Zelda TOTK), junto con otro mini-modelo experimental que descargué que lo que hace es añadir mayor detalle a las imágenes, tal que así:

De esto:
(https://i.imgur.com/0nqWrbX.jpg)

A esto:
(https://i.imgur.com/jv89Tdm.jpg)

Sin embargo, en la combinación que hice el resultado fue no sólo que añadía más detalle sino que cambiaba de forma espectacular el estilo con imágenes que bien podrían ser directamente portada de algún juego de la época (sin edición de ningún tipo, directamente). El ejemplo más claro es este:

(https://i.imgur.com/Xu0B8sh.png)

Como véis, tiene esa gran cantidad de detalles, cuerpo femenino espectacular y contrastes rojo/naranja y azules, fuego/explosiones/agua y similares que se veían en carátulas como las de Navy Moves o Satán de Luis Royo. Y ahora pondré algunos otros ejemplos de temáticas variadas para que podáis ver:

(https://i.imgur.com/LEgHoLy.jpg)
(https://i.imgur.com/WsmRhEi.jpg)
(https://i.imgur.com/O07qlP5.jpg)
(https://i.imgur.com/6LF0XzA.png)
(https://i.imgur.com/dglie4L.png)
(https://i.imgur.com/xaHStNJ.jpg)
(https://i.imgur.com/st4sRer.jpg)
(https://i.imgur.com/eTWAwWe.jpg)
(https://i.imgur.com/bp9BJYf.jpg)
(https://i.imgur.com/wU8yBwE.jpg)
(https://i.imgur.com/uxBmwQV.jpg)
(https://i.imgur.com/V4PWPsc.jpg)
(https://i.imgur.com/9I4YpTA.jpg)
(https://i.imgur.com/BP3Lyyx.jpg)
(https://i.imgur.com/sWomA7W.jpg)
(https://i.imgur.com/smWmpTa.jpg)
(https://i.imgur.com/zWBp0bT.jpg)
(https://i.imgur.com/mqwyDcJ.png)
(https://i.imgur.com/XnsDc5i.jpg)
(https://i.imgur.com/SthxrWr.jpg)

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: sirdrak en Julio 20, 2023, 10:19:02 pm

Voy aquí hoy con las últimas novedades interesantes, ya que hay dos muy importantes... La primera es la aparición de una extensión llamada Roop que permite poner la cara de una persona de una imagen previa a la imagen que estés generando, con una sola foto y sin necesidad de entrenar un LoRA, que funciona muy bién, y la segunda, y más importante, es que está a punto de salir la siguiente versión de Stable Diffusion, Stable Diffusion XL, que es un paso adelante muy importante que rivaliza literalmente con la calidad de las imágenes de la última versión de Midjourney pero sin censura y por supuesto gratis al ser opensource. Estos días Stability.Ai (la empresa responsable de Stable Diffusion) puso a disposición del público SDXL 0.9 una versión cercana a la final, para que la gente la pudiera probar accediento a su web oficial. Después se filtró el modelo y la misma Stability.Ai decidió ponerlo oficialmente para descarga debido a ello, aunque la versión final tenía previsto salir el día 18 de este mes, pero al final han decidido retrasarlo.

La versión 0.9 de SD XL es bastante impresionante, simplemente probándola en la web oficial (que sólo puedes poner prompt positivo y nada más, no hay ni prompt negativo) ya salen resultados espectaculares:

(https://i.imgur.com/4setzfM.jpg)
(https://i.imgur.com/lOYgzNV.jpg)
(https://i.imgur.com/XiY0XHZ.jpg)
(https://i.imgur.com/BuACUA4.jpg)
(https://i.imgur.com/8p4J8r3.jpg)
(https://i.imgur.com/jAiFdmc.jpg)
(https://i.imgur.com/6be6OtW.jpg)
(https://i.imgur.com/BFauipH.jpg)
(https://i.imgur.com/EOEGKF5.jpg)
(https://i.imgur.com/gXqrhZ6.jpg)
(https://i.imgur.com/538EsRu.jpg)
(https://i.imgur.com/p9f685S.jpg)
(https://i.imgur.com/MlJ6rqO.jpg)
(https://i.imgur.com/l45AFIn.jpg)
(https://i.imgur.com/BCfXIUT.jpg)

Incluso es un filón para hacer memes, como estos de mi cosecha del Papa jugando a una recreativa en un pub:

(https://i.imgur.com/FSuGGwd.jpg)
(https://i.imgur.com/FvvFN9W.jpg)

O estos de Donald Trump en la marcha del Orgullo:

(https://i.imgur.com/B6oqylO.jpg)
(https://i.imgur.com/7iPJOBO.jpg)
(https://i.imgur.com/aDTagA8.jpg)

Además de todo esto, estos dos últimos días me he entretenido en volver a hacer una prueba que recordaréis de cuando llevaba poco tiempo experimentando con Stable Diffusion: Crear imágenes de los personajes de Gauntlet usando Stable Diffusion y la extensión ControlNET a partir de los bocetos que dibujé hace unos años. Sin embargo, esta vez lo he hecho con la última versión de la extensión, y con el estilo con el que he creado las últimas imágenes, con el siguiente espectacular resultado:

(https://i.imgur.com/BfB7yjZ.png)
(https://i.imgur.com/JTRRHnB.png)
(https://i.imgur.com/oA5JLoZ.png)
(https://i.imgur.com/lfDGwA5.png)

En cuanto a SD XL 0.9, se puede probar gratis en la web oficial de Stability.ai, aquí: https://clipdrop.co/stable-diffusion (https://clipdrop.co/stable-diffusion)

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: sirdrak en Agosto 12, 2023, 01:42:23 pm

Bueno, pues finalmente salió hace un mes la versión definitiva oficial de Stable Diffusion XL, que ya de primeras dá unos resultados interesantes en sus imágenes aunque a costa de necesitar algo más de potencia. Aquí podéis ver algunos ejemplos generados de mi cosecha (con el modelo oficial tal cual, sin usar LoRAs ni nada):

(https://i.imgur.com/w5rw3QH.png)
(https://i.imgur.com/vOpj2kx.png)
(https://i.imgur.com/wUr6WXQ.png)
(https://i.imgur.com/LhdG2S8.jpg)
(https://i.imgur.com/NLSwN3E.jpg)
(https://i.imgur.com/xtpHvWD.jpg)
(https://i.imgur.com/5Tz1AhD.png)
(https://i.imgur.com/vJ020GD.png)
(https://i.imgur.com/eR2JORR.png)
(https://i.imgur.com/7cPRY2B.png)
(https://i.imgur.com/G2UUv8w.png)
(https://i.imgur.com/4NQ82c8.png)
(https://i.imgur.com/XGLKfCw.png)
(https://i.imgur.com/yeSiwYo.png)
(https://i.imgur.com/CisTity.png)
(https://i.imgur.com/lEivvOe.png)
(https://i.imgur.com/Edw44IV.png)
(https://i.imgur.com/t7Kehgw.png)
(https://i.imgur.com/kjTnibu.png)
(https://i.imgur.com/sB4tU2E.png)
(https://i.imgur.com/3I6Sjii.png)
(https://i.imgur.com/awNbkyr.png)
(https://i.imgur.com/IZGsHvq.png)
(https://i.imgur.com/lTtCR3j.png)
(https://i.imgur.com/9BY43Tv.png)
(https://i.imgur.com/kpNe0om.png)
(https://i.imgur.com/qPgPici.png)
(https://i.imgur.com/WRrYrdW.png)
(https://i.imgur.com/uI156lK.png)
(https://i.imgur.com/gghjBzM.png)
(https://i.imgur.com/PvLVeZ4.png)
(https://i.imgur.com/bbH4Dno.png)
(https://i.imgur.com/sbPEs1m.png)
(https://i.imgur.com/oAQ03YK.png)
(https://i.imgur.com/y7l9KF0.png)
(https://i.imgur.com/wommffs.png)
(https://i.imgur.com/tafuwOJ.png)
(https://i.imgur.com/Y2CgtQL.png)
(https://i.imgur.com/WIGBSdw.png)
(https://i.imgur.com/LqBB7Cf.png)
(https://i.imgur.com/sXXJqJk.png)
(https://i.imgur.com/GXpOMaA.png)
(https://i.imgur.com/pUuIsHp.png)
(https://i.imgur.com/NWwFMir.png)
(https://i.imgur.com/RemMgmE.png)

Con guiños a 'Expediente X' y al artista nórdico Simon Stålenhag. Muy prometedor, y ya con la comunidad empezando a entrenar cosas en dicho modelo...

Y ahora algo muy interesante... Al principio, posteé un video tutorial de creación de LoRAs del youtuber Aitrepreneur, pues bién... Ayer publicó otro para el que, en esta ocasión, ha hecho muchísimas pruebas, se ha documentado bien y hasta ha tenido asesoramiento directo de nada menos que los creadores de Stable Diffusion, Stability.Ai, por lo que es el vídeo más interesante que he visto de entrenamiento. Aunque en principio está orientado a hacer LoRAs para SD XL, lo que explica se puede aplicar de forma general para mejorar bastante la calidad de los LoRAs. Muy recomendable verlo:

Además, en la descripción del vídeo, aporta archivos preconfigurados para el entrenamiento según el tipo de LoRA y sets de imágenes de regularización, lo que es muy interesante.

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: Zael en Agosto 26, 2023, 01:53:05 pm

¡Ja, ja, la de los animales tomando café y unas birras son buenísimas! Y la de la moza de las primeras imágenes... sin comentarios, la pone como un tanque apuntando a un campanario.

Sin embargo, la de la chica que sale con los auriculares produce el efecto contrario, cierto desasosiego, inquietud, como si hubiera algo que no termina de estar del todo bien ahí.

Pero vamos, brutal lo de la IA estas. Seguro que nos la estarán metiendo hasta en la sopa en muchos videojuegos, anuncios, películas, etc. y ni nos enteramos ya.

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: empardopo en Septiembre 01, 2023, 07:56:31 pm

Son brutales! La lástima es que hace falta mucho equipo o al menos mucha gráfica para poder crear...

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: sirdrak en Septiembre 02, 2023, 01:09:50 pm

Cita de: empardopo en Septiembre 01, 2023, 07:56:31 pm

Son brutales! La lástima es que hace falta mucho equipo o al menos mucha gráfica para poder crear...

Para hacer algunas pruebas básicas siempre puedes usar el servicio online de Stability.Ai, que es gratuíto (aunque también tiene servicio de pago para reducir las esperas, pero tampoco son muy largas) y con el que puedes usar SD XL, usar estilos, con prompt negativo, diferentes resoluciones e incluso puedes hacer upscaling de las imágenes, con sólo ir aquí:

https://clipdrop.co/stable-diffusion (https://clipdrop.co/stable-diffusion)

Se puede usar hasta desde el navegador del móvil, de hecho con él creé algunas imágenes de Nicholas Cage como Thor, Aquaman o Wonder Woman jejeje

Y ahora os voy a mostrar algo inesperado que me hizo mucha gracia... Cuando estuve generando las imágenes anteriores esas con el granjero con sombrero de paja, con un campo de trigo, tractores, algunas granjas y una enorme nave espacial alienígena en el cielo, una de las veces la IA 'decidió ser creativa' y me generó esto:

(https://i.imgur.com/QFNdp9H.png)

Un alienígena granjero con un tractor en un campo de trigo llevando el platillo volante de sombrero ;D

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: Josepzin en Septiembre 02, 2023, 02:02:24 pm

Esta última imagen claramente muestra el inicio de la rebelión de las IAs!

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: empardopo en Septiembre 09, 2023, 12:06:35 pm

Cita de: sirdrak en Septiembre 02, 2023, 01:09:50 pm

Cita de: empardopo en Septiembre 01, 2023, 07:56:31 pm
Son brutales! La lástima es que hace falta mucho equipo o al menos mucha gráfica para poder crear...

Para hacer algunas pruebas básicas siempre puedes usar el servicio online de Stability.Ai, que es gratuíto (aunque también tiene servicio de pago para reducir las esperas, pero tampoco son muy largas) y con el que puedes usar SD XL, usar estilos, con prompt negativo, diferentes resoluciones e incluso puedes hacer upscaling de las imágenes, con sólo ir aquí:

https://clipdrop.co/stable-diffusion (https://clipdrop.co/stable-diffusion)

Se puede usar hasta desde el navegador del móvil, de hecho con él creé algunas imágenes de Nicholas Cage como Thor, Aquaman o Wonder Woman jejeje

Y ahora os voy a mostrar algo inesperado que me hizo mucha gracia... Cuando estuve generando las imágenes anteriores esas con el granjero con sombrero de paja, con un campo de trigo, tractores, algunas granjas y una enorme nave espacial alienígena en el cielo, una de las veces la IA 'decidió ser creativa' y me generó esto:

(https://i.imgur.com/QFNdp9H.png)

Un alienígena granjero con un tractor en un campo de trigo llevando el platillo volante de sombrero ;D

Algo es algo, probaré a ver porque quería hacer un logo para una web y canal de YouTube... A ver que mojonaco me sale jajaja

Enviado desde mi MI MAX 2 mediante Tapatalk

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: sirdrak en Septiembre 24, 2023, 02:42:35 pm

Bueno, pues llevaba un tiempo sin postear novedades interesantes, así que comentaré algunas de los últimos meses... La mayoría de los que usamos Stable Diffusion en local, como sabéis, usamos Automatic1111 como interfaz a través del navegador para generar las imágenes, al ser la más completa y que más opciones tiene (los modos img2img, inpaint, las extensiones, los script para hacer upscaling, matrices de imágenes, etc...), pero no es la única, algo que se ha hecho patente y más notorio desde la silida de SD XL, debido a las mayores exigencias de esta versión de Stable Diffusion. La pega de Automatic1111 es que es la menos eficiente, de forma que requiere más potencia que las otras opciones para generar las mismas imágenes con la misma configuración de hardware. Por ello hoy voy a hablar de las otras opciones existentes para generar imágenes en local...

Las otras opciones actuales son las siguientes:

- ComfyUI: Es una interfaz muy versátil y rápida para generar imágenes con Stable Diffusion, y de hecho es la que utilizan directamente y recomiendan Stability.ai, la empresa creadora de Stable Diffusion. Tiene todas las posibilidades que tiene Automatic1111 e incluso algunas que no tiene aún a día de hoy relacionadas con las novedades de SD XL, como la posibilidad de usar simultáneamente dos prompts diferentes para el positivo y dos prompt diferentes para el negativo usando los dos 'Clips' que soporta nativamente XL al mismo tiempo (los Clips son básicamente el intérprete que hace que la IA entienda lo que le pedimos en lenguaje natural). Además fué la primera en tener soporte completo de los modelos base y refiner de XL (soporte que no llegó a Automatic1111 hasta su versión 1.6.0, la actual). Sus ventajas son que requiere mucho menos hardware para generar imágenes y además es extremadamente rápido, incluso a la hora de hacer reescalados, es muy fácil de instalar (es simplemente descomprimir una carpeta, ejecutar la primera vez un actualizador y luego sólo un .bat y a funcionar) y las imágenes que genera son de muy buena calidad. Otra característica que tiene, es que basta con arrastrar una imagen generada previamente con él al espacio de trabajo para que ya salga todo configurado incluído su prompt como cuando se generó dicha imagen, cosa que también se puede hacer con un archivo de configuración .json. Las pegas son que su interfaz es completamente antiintuitiva y compleja... De hecho casi se podría decir que no tiene interfaz, pues funciona a base de un sistema de módulos interconectados entre sí que recuerda a los lenguajes de programación visuales por objetos como los que usan Blender o Unreal Engine, lo que puede echar a muchísima gente para atrás por su aparente complejidad. En la siguiente imagen podéis ver un ejemplo:

(https://i.redd.it/d93znogxlbfb1.png)

Eso sí, si se tiene una máquina más limitada, es mucho mejor que Automatic1111... Por ejemplo, con ComfyUI es mucho más rápido generar imágenes en buena calidad de SD XL con una gráfica de sólo 6GB de VRAM o menos, de forma que la diferencia puede ser de hacer en menos de 30 segundos lo que en Automatic1111 puede llevar varios minutos. Se puede descargar aquí, de su Github: https://github.com/comfyanonymous/ComfyUI (https://github.com/comfyanonymous/ComfyUI)

- Fooocus y Fooocus-MRE: Llegamos a las dos opciones más recientes, esta vez enfocadas de forma exclusiva en generar imágenes de SD XL y hacerlo de la forma más sencilla posible, ideal para las personas que sólo quieren generar imágenes de la forma más sencilla posible sin usar opciones avanzadas. Ha sido creada nada menos que por los responsables de la extensión más importante y revolucionaria existente hasta la fecha de Stable Diffusion, ControlNET, de la que ya os he hablado en ocasiones anteriores. Tiene las ventajas de ser extremadamente fácil de instalar (al igual que con ComfyUI, es descargar y descomprimir un archivo, y en la carpeta resultante ejecutar un archivo .bat y a funcionar). Ni siquiera es necesario buscar aparte los modelos básicos para empezar porque los descarga automáticamente en el primer inicio (SD XL base y el refiner). Además, es también muy rápido y también consume menos recursos que Automatic1111, muy cerca de lo que hace ComfyUI en este sentido. Respecto a la interfaz y opciones, primero hablaré de Foocus y luego de las opciones extras que tiene Fooocus-MRE, que es un fork del primero.

En Fooocus, la mayor parte de la interfaz la ocupa la parte donde aparecen las imágenes generadas, y debajo simplemente un espacio para escribir el prompt. Luego hay una casilla para mostrar las opciones avanzadas de forma que nos permite escribir también prompt negativo, elegir entre una buena cantidad de resoluciones pero todas ellas fijas (esto es así porque son las resoluciones de las imágenes con las que se realizó el entrenamiento de SD XL, que lo que hace es que el resultado tenga la mejor calidad posible) y elegir entre priorizar calidad o rapidez en la generación de las imágenes. Todas estas opciones se muestran en un panel en el lateral derecho, que tiene tres pestañas con más opciones extra: La mencionada, una para elegir un estilo para las imágenes (otra de las novedades de SD XL) y otra que nos permite elegir el checkpoint a usar como modelo base, y el que se va a usar como Refiner, y además varias casillas para elegir y usar LoRAs y seleccionar su fuerza. Nada más... Como se puede ver, todo enfocado a una sencillez extrema y obtener buenos resultados sin complicaciones.

En Fooocus-MRE, que como comenté es un fork creado a partir del código fuente del Fooocus original con el objeto de añadir más opciones a la generación de imágenes, se incorporan opciones propias de Automatic1111 para las personas que quieren hacer cosas más avanzadas manteniendo la sencillez de uso y la interfaz de Fooocus y con las ventajas de su buen rendimiento. Las opciones que se incorporan nuevas son las siguientes:

* Modo img2img
* Posibilidad de configurar los mismos parámetros avanzados en la creación de las imágenes que en Automatic1111 (número de pasos, sampler, punto en el que se pasa del modelo Base al Refiner durante el proceso de generación, CFG, Clip Skip, etc...)
* Soporte de los LoRA especiales de Stability.ai que dan soporte de ControlNET a SD XL
* Posibilidad de usar resoluciones 'custom' en la generación de imágenes.
* Posibilidad de hacer Upscaling en el modo img2img.
* Posibilidad de usar estilos personalizados.
* Soporte de inpainting y outpainting.

Aquí podéis ver el aspecto que tiene la interfaz:

(https://user-images.githubusercontent.com/130458190/268508933-1d40c428-c30f-4e3f-b419-017bd395d00b.png)

Y se pueden descargar desde sus respectivos Githubs:

* Fooocus: https://github.com/lllyasviel/Fooocus (https://github.com/lllyasviel/Fooocus)
* Fooocus-MRE: https://github.com/MoonRide303/Fooocus-MRE (https://github.com/MoonRide303/Fooocus-MRE)

Por último, os quiero recomendar también un modelo fotográfico de Stable Diffusion 1.5 que me ha sorprendido por su realismo y sus espectaculares texturas de la piel, dando resultado imágenes como esta:

(https://i.imgur.com/7BXDjm1.jpg)

Y aquí un recorte de la cara para que podáis apreciar mejor el realismo de la piel:
(https://i.imgur.com/CMHbofY.jpg)

Como podéis ver, totalmente indistinguible de la realidad 100%... El modelo se llama epiCRealism, concretamente su última versión, llamada Natural Sin, que ha sido entrenada con imágenes de personas normales y no de modelos fotográficos, por eso consigue ese realismo. Se puede descargar de aquí: https://civitai.com/models/25694/epicrealism (https://civitai.com/models/25694/epicrealism)

Para obtener resultados como los de mi imagen, os recomiendo la siguiente configuración a la hora de generar imágenes con él:

- Resolución de 512x512, 512x768 o 768x512, de 20 a 30 pasos, CFG scale de 5 y de sampler Euler A o SDE 2M ++ Karras.
- Usar prompts simples evitando términos como masterpiece, best quality, 8k, intricate, high detail, (extremely detailed face), (extremely detailed hands), (extremely detailed hair) y similares ya que no son necesarios.
- En el prompt negativo usar cartoon, painting, illustration, (worst quality, low quality, normal quality:2)
- Al usar la opción Hires.fix, seleccionar 1'5x o 2x upscale, como upscaler 4x_NMKD-Superscale-SP_178000_G (luego pongo dónde se descarga) y un denoise de 0'35
- Si luego se hace upscaling en img2img con el script de SD Upscale, usar el mismo upscaler mencionado antes (basta con descargarlo y meterlo en la carpeta models/ESRGAN para que aparezca disponible en ambos modos).

El mencionado upscaler se puede descargar de aquí: https://huggingface.co/gemasai/4x_NMKD-Superscale-SP_178000_G/tree/main (https://huggingface.co/gemasai/4x_NMKD-Superscale-SP_178000_G/tree/main)

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: empardopo en Septiembre 25, 2023, 04:11:08 pm

Cita de: sirdrak en Septiembre 24, 2023, 02:42:35 pm

Bueno, pues llevaba un tiempo sin postear novedades interesantes, así que comentaré algunas de los últimos meses... La mayoría de los que usamos Stable Diffusion en local, como sabéis, usamos Automatic1111 como interfaz a través del navegador para generar las imágenes, al ser la más completa y que más opciones tiene (los modos img2img, inpaint, las extensiones, los script para hacer upscaling, matrices de imágenes, etc...), pero no es la única, algo que se ha hecho patente y más notorio desde la silida de SD XL, debido a las mayores exigencias de esta versión de Stable Diffusion. La pega de Automatic1111 es que es la menos eficiente, de forma que requiere más potencia que las otras opciones para generar las mismas imágenes con la misma configuración de hardware. Por ello hoy voy a hablar de las otras opciones existentes para generar imágenes en local...

Las otras opciones actuales son las siguientes:

- ComfyUI: Es una interfaz muy versátil y rápida para generar imágenes con Stable Diffusion, y de hecho es la que utilizan directamente y recomiendan Stability.ai, la empresa creadora de Stable Diffusion. Tiene todas las posibilidades que tiene Automatic1111 e incluso algunas que no tiene aún a día de hoy relacionadas con las novedades de SD XL, como la posibilidad de usar simultáneamente dos prompts diferentes para el positivo y dos prompt diferentes para el negativo usando los dos 'Clips' que soporta nativamente XL al mismo tiempo (los Clips son básicamente el intérprete que hace que la IA entienda lo que le pedimos en lenguaje natural). Además fué la primera en tener soporte completo de los modelos base y refiner de XL (soporte que no llegó a Automatic1111 hasta su versión 1.6.0, la actual). Sus ventajas son que requiere mucho menos hardware para generar imágenes y además es extremadamente rápido, incluso a la hora de hacer reescalados, es muy fácil de instalar (es simplemente descomprimir una carpeta, ejecutar la primera vez un actualizador y luego sólo un .bat y a funcionar) y las imágenes que genera son de muy buena calidad. Otra característica que tiene, es que basta con arrastrar una imagen generada previamente con él al espacio de trabajo para que ya salga todo configurado incluído su prompt como cuando se generó dicha imagen, cosa que también se puede hacer con un archivo de configuración .json. Las pegas son que su interfaz es completamente antiintuitiva y compleja... De hecho casi se podría decir que no tiene interfaz, pues funciona a base de un sistema de módulos interconectados entre sí que recuerda a los lenguajes de programación visuales por objetos como los que usan Blender o Unreal Engine, lo que puede echar a muchísima gente para atrás por su aparente complejidad. En la siguiente imagen podéis ver un ejemplo:

(https://i.redd.it/d93znogxlbfb1.png)

Eso sí, si se tiene una máquina más limitada, es mucho mejor que Automatic1111... Por ejemplo, con ComfyUI es mucho más rápido generar imágenes en buena calidad de SD XL con una gráfica de sólo 6GB de VRAM o menos, de forma que la diferencia puede ser de hacer en menos de 30 segundos lo que en Automatic1111 puede llevar varios minutos. Se puede descargar aquí, de su Github: https://github.com/comfyanonymous/ComfyUI (https://github.com/comfyanonymous/ComfyUI)

- Fooocus y Fooocus-MRE: Llegamos a las dos opciones más recientes, esta vez enfocadas de forma exclusiva en generar imágenes de SD XL y hacerlo de la forma más sencilla posible, ideal para las personas que sólo quieren generar imágenes de la forma más sencilla posible sin usar opciones avanzadas. Ha sido creada nada menos que por los responsables de la extensión más importante y revolucionaria existente hasta la fecha de Stable Diffusion, ControlNET, de la que ya os he hablado en ocasiones anteriores. Tiene las ventajas de ser extremadamente fácil de instalar (al igual que con ComfyUI, es descargar y descomprimir un archivo, y en la carpeta resultante ejecutar un archivo .bat y a funcionar). Ni siquiera es necesario buscar aparte los modelos básicos para empezar porque los descarga automáticamente en el primer inicio (SD XL base y el refiner). Además, es también muy rápido y también consume menos recursos que Automatic1111, muy cerca de lo que hace ComfyUI en este sentido. Respecto a la interfaz y opciones, primero hablaré de Foocus y luego de las opciones extras que tiene Fooocus-MRE, que es un fork del primero.

En Fooocus, la mayor parte de la interfaz la ocupa la parte donde aparecen las imágenes generadas, y debajo simplemente un espacio para escribir el prompt. Luego hay una casilla para mostrar las opciones avanzadas de forma que nos permite escribir también prompt negativo, elegir entre una buena cantidad de resoluciones pero todas ellas fijas (esto es así porque son las resoluciones de las imágenes con las que se realizó el entrenamiento de SD XL, que lo que hace es que el resultado tenga la mejor calidad posible) y elegir entre priorizar calidad o rapidez en la generación de las imágenes. Todas estas opciones se muestran en un panel en el lateral derecho, que tiene tres pestañas con más opciones extra: La mencionada, una para elegir un estilo para las imágenes (otra de las novedades de SD XL) y otra que nos permite elegir el checkpoint a usar como modelo base, y el que se va a usar como Refiner, y además varias casillas para elegir y usar LoRAs y seleccionar su fuerza. Nada más... Como se puede ver, todo enfocado a una sencillez extrema y obtener buenos resultados sin complicaciones.

En Fooocus-MRE, que como comenté es un fork creado a partir del código fuente del Fooocus original con el objeto de añadir más opciones a la generación de imágenes, se incorporan opciones propias de Automatic1111 para las personas que quieren hacer cosas más avanzadas manteniendo la sencillez de uso y la interfaz de Fooocus y con las ventajas de su buen rendimiento. Las opciones que se incorporan nuevas son las siguientes:

* Modo img2img
* Posibilidad de configurar los mismos parámetros avanzados en la creación de las imágenes que en Automatic1111 (número de pasos, sampler, punto en el que se pasa del modelo Base al Refiner durante el proceso de generación, CFG, Clip Skip, etc...)
* Soporte de los LoRA especiales de Stability.ai que dan soporte de ControlNET a SD XL
* Posibilidad de usar resoluciones 'custom' en la generación de imágenes.
* Posibilidad de hacer Upscaling en el modo img2img.
* Posibilidad de usar estilos personalizados.
* Soporte de inpainting y outpainting.

Aquí podéis ver el aspecto que tiene la interfaz:

(https://user-images.githubusercontent.com/130458190/268508933-1d40c428-c30f-4e3f-b419-017bd395d00b.png)

Y se pueden descargar desde sus respectivos Githubs:

* Fooocus: https://github.com/lllyasviel/Fooocus (https://github.com/lllyasviel/Fooocus)
* Fooocus-MRE: https://github.com/MoonRide303/Fooocus-MRE (https://github.com/MoonRide303/Fooocus-MRE)

Por último, os quiero recomendar también un modelo fotográfico de Stable Diffusion 1.5 que me ha sorprendido por su realismo y sus espectaculares texturas de la piel, dando resultado imágenes como esta:

(https://i.imgur.com/7BXDjm1.jpg)

Y aquí un recorte de la cara para que podáis apreciar mejor el realismo de la piel:
(https://i.imgur.com/CMHbofY.jpg)

Como podéis ver, totalmente indistinguible de la realidad 100%... El modelo se llama epiCRealism, concretamente su última versión, llamada Natural Sin, que ha sido entrenada con imágenes de personas normales y no de modelos fotográficos, por eso consigue ese realismo. Se puede descargar de aquí: https://civitai.com/models/25694/epicrealism (https://civitai.com/models/25694/epicrealism)

Para obtener resultados como los de mi imagen, os recomiendo la siguiente configuración a la hora de generar imágenes con él:

- Resolución de 512x512, 512x768 o 768x512, de 20 a 30 pasos, CFG scale de 5 y de sampler Euler A o SDE 2M ++ Karras.
- Usar prompts simples evitando términos como masterpiece, best quality, 8k, intricate, high detail, (extremely detailed face), (extremely detailed hands), (extremely detailed hair) y similares ya que no son necesarios.
- En el prompt negativo usar cartoon, painting, illustration, (worst quality, low quality, normal quality:2)
- Al usar la opción Hires.fix, seleccionar 1'5x o 2x upscale, como upscaler 4x_NMKD-Superscale-SP_178000_G (luego pongo dónde se descarga) y un denoise de 0'35
- Si luego se hace upscaling en img2img con el script de SD Upscale, usar el mismo upscaler mencionado antes (basta con descargarlo y meterlo en la carpeta models/ESRGAN para que aparezca disponible en ambos modos).

El mencionado upscaler se puede descargar de aquí: https://huggingface.co/gemasai/4x_NMKD-Superscale-SP_178000_G/tree/main (https://huggingface.co/gemasai/4x_NMKD-Superscale-SP_178000_G/tree/main)

Cómo pilotas compañero!!!!

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: sirdrak en Octubre 01, 2023, 06:31:08 pm

Bueno, pues esto es un no parar de novedades de IA últimamente... Voy a comentar las más importantes.

Primero, os voy a compartir un vídeo de Olivio que explica un técnica muy sencilla usando el modo img2img para hacer más realista una imagen y mejorar el detalle de la piel usando el modelo con el que hice a la chica ultrarrealista, epiCRealism, pero también funciona con otros modelos realistas como Photon o Realistic Visions. Básicamente consiste en cargar la imagen que queremos mejorar o usar como referencia en el modo img2img, seleccionar como sampler DPM ++ SDE Karras (muy importante este paso), poner 30 pasos en la generación de la imagen y usar un denoise entre 0.3 y 0.4 (dependerá de la imagen). Con esto, y con un prompt que describa la imagen (ya que se puede hacer incluso con imágenes normales no IA) y sin reescalar, generamos la nueva imagen, que veremos que tiene una piel con más detalle. Tras esto, la podemos mejorar aún más pulsando el botón que hay bajo la imagen con el icono de una escuadra, que la enviará a la pestaña de extras para hacer un reescalado, donde podremos aumentar la resolución de la imagen x2, x3, x4, etc... y de paso añadiendo más detalle, usando como reescalador un modelo opcional que indican en el vídeo, que sólo hay que descargar y meter en la carpeta models/ESRGAN. El modelo es 8x_NMKD-Superscale_150000_G.pth y se descarga aqui: https://huggingface.co/uwg/upscaler/tree/main/ESRGAN (https://huggingface.co/uwg/upscaler/tree/main/ESRGAN)

Y aquí el vídeo de Olivio en el que se pueden ver los resultas y lo explica... Decir que también sirve para cambiar una imagen de un estilo a otro, por ejemplo, una imagen de anime convertirla en una con personas reales o viceversa, con resultados espectaculares (mostraré un par de ejemplo más abajo):

Los ejemplos que comento...

Original:

(https://i.imgur.com/fgY0dUA.png)

Pasada a 'carne y hueso realista IA':

(https://i.imgur.com/SWl3uee.jpg)

Otro ejemplo:

Original:

(https://i.imgur.com/zWBp0bT.jpg)

A imagen realista:

(https://i.imgur.com/vVNurKg.jpg)

Y ahora vamos con 'el plato principal'... Open.ai, la empresa creadora del famosísima ChatGPT, fué la empresa pionera en IAs generativas de imágenes, creando su IA Dall-E antes de la aparición de todas las demás. Esta semana pasada presentó la última versión de dicha IA, Dall-E 3, que tiene varios aspectos revolucionarios y está integrada tanto en ChatGPT 4 como en el chat de Bing. Debido a que usa como base dicho modelo de lenguaje, su comprensión de lo que le pedimos en el prompt supera con mucha diferencia lo que son capaces de hacer todas las demás. Desde ayer, casi por sorpresa, ya se puede probar y usar gratis, tanto a través del chat de Bing integrado con el navegador Edge como con Copilot (siempre que no vivas en Europa, como es nuestro caso, que no nos ha llegado aún dicha funcionalidad a Windows 11 por cuestiones de legislación europea) integrado en Windows 11 desde la actualización 'Momento 4' de esta semana.
La otra forma de utilizarla, y que es la que yo he usado, es visitar la página oficial de Bing para crear imágenes, visitando esta dirección: https://www.bing.com/create (https://www.bing.com/create)
Tan sólo hay que loguearse con una cuenta Microsoft (Outlook, Xbox, etc...) y ya se pueden crear imágenes de forma ilimitada y gratuíta. Puede ser que se acceda la primera vez a la página y que en vez de Dall-E 3, salga la versión anterior. Esto se comprueba pidiéndole que nos genere una imagen en la que aparezca un texto, pues una de las novedades de Dall-E 3 es que hace el texto prácticamente perfecto. Si no lo hace, se trata de Dall-E 2. En ese caso basta con probar con otro navegador, aunque indican que las mayores posibilidades de éxito se dan con Firefox y con Brave. Yo lo hice ayer con Firefox y me salió bién a la primera.

Ahora vamos con las novedades y mi experiencia con las pruebas que le hice ayer (me pase todo el día haciendo pruebas tratando de llevar sus posibilidades al límite):

- Entiende perfectamente lo que le escribes en lenguaje natural mucho mejor que cualquier otra IA de este tipo, por lo que ya no hay que hacer apenas 'ingeniería de prompt', ni usar prompt negativo ni nada, para que te muestre en la imagen todo lo que le pides por complejo que sea, incluyendo varios personajes diferentes en una misma imagen, elementos con varios colores sin que se mezclen o confundan, etc...
- Hace las manos casi perfectas la gran mayoría de las veces, muy por encima del resto. También los ojos, sin necesidad de hacer nada.
- Es capaz de generar imágenes en una cantidad de estilos y tipos abrumador, es muy raro que salga alguna imagen 'que no sirva'.
- La calidad de las imágenes es muy buena, por encima de Stable Diffusion XL sin ninguna duda.
- Ya no es necesario escribir el prompt en inglés... En Español lo entiende igual de bien.
- Es capaz de sacar de forma perfecta personajes haciendo acciones complejas de representar en las otras IA sin usar modelos extra u otras opciones complejas, como un personaje montando correctamente en bicicleta o en moto, o tensando la cuerda de un arco con una flecha.
- Es capaz de hacer imágenes en que aparezcan varios personajes juntos en contacto directo sin que se mezclen sus extremidades o salgan cosas aberrantes, o al menos pasa mucho mucho menos con una gran diferencia.
- Conoce perfectamente una gran cantidad de personajes populares, de videojuegos etc... Y también los juegos, por lo que hasta es capaz de representar 'pantallazos' de los mismos. Lo mismo con las consolas. Por poner un ejemplo, le pedí una imagen de Link jugando con una Super Nintendo al Super Mario World, y en la imagen sale Link con el mando en la mano reproducido perfectamente, y en el cartucho la etiqueta (aunque debido a su pequeño tamaño en la imagen ya no está muy definida) se nota perfectamente que es la de Mario sobre Yoshi que lleva precisamente el cartucho de dicho juego... Algo increíble.
- Es capaz de hacer pixelart (y hojas de sprites usables) perfectamente.
- Lo ya mencionado del texto... Escribe las frases perfectamente la gran mayoría de las veces.
- Es capaz de generar las imágenes como si fueran capturas de pantalla de un juego real perfectamente (por ejemplo un link en bicicleta en el Zelda BOTW o un juego imaginario de PS2 o de Nintendo 64).

Ahora las cosas malas... Lógicas dado que es un servicio online de una empresa privada de EEUU y dueña ademas de ChatGPT:

- Hay censura, esta vez más notable que otras veces. Se censura todo lo que es minimamente relativo a sexo (simplemente proniendo 'breasts', poniendo 'vestido con transparencias', etc... te censura las imágenes), palabras o actitudes conflictivas (por ejemplo si pones 'drunk', aunque puedes luego representar a una persona en ese estado e incluso fumando porros si describes su actitud y apariencia sin mencionar esa palabra o similares)
- Se han censurado también muchas figuras públicas de la actualidad, sobre todo políticos, de forma que ya no se pueden hacer 'memes' con el Papa o Donald Trump por ejemplo (tampoco con políticos españoles). Es más, cuando incluyes sus nombres en el prompt incluso te dice que te pueden suspender el servicio si vuelves a reincidir (en este caso ni siquiera se procesa el prompt, o sea, las imágenes no se generan). Sin embargo, otros muchos actores y personalidades conocidas sí que salen perfectamente, como Albert Einstein o Michael Jackson.
- Todas las imágenes parecen llevar una marca de agua interna que las identifica claramente como generadas por IA. A veces este tipo de marcas comparten datos personales del usuario que las ha generado, por lo que son un problema para la privacidad, aunque por otro lado, no creo que sea complicado modificar las imágenes fácilmente para que no aparezcan como generadas por IA.

Respecto al tema de la censura, y por lo que he podido observar, curiosamente no me parece que sea el modelo el que tiene la censura, sino que es el servicio online el que la aplica, ya que las imágenes censuradas sí se llegan a generar, y se ha visto por algún vídeo que, a diferencia de las otras IA de este tipo, la violencia y el gore no están censuradas y las genera sin problemas (ya se sabe, aquello de la doble moral de escandalizarse por mostrar algo de piel pero no por la violencia, la sangre y las cosas repulsivas). Yo no he probado a generar imágenes de este tipo (ya que no me gustan) pero he visto que lo comentaban en Youtube.

Ahora voy con varios ejemplos de las pruebas que he hecho... Primero, se me ocurrió intentar generar a los personajes del Gauntlet sólo con un prompt a ver qué calidad de imágenes conseguía (empiezo por estas imágenes porque son ideales a la temática del foro), y la verdad es que el resultado es bastante espectacular... Empecemos con la valkiria:

(https://i.imgur.com/yeqHRLJ.jpg)
(https://i.imgur.com/Fi7BULQ.jpg)
(https://i.imgur.com/2ttc5Oc.jpg)
(https://i.imgur.com/xBffExQ.jpg)
(https://i.imgur.com/Hd8hEAg.jpg)
(https://i.imgur.com/cTEm5ew.jpg)
(https://i.imgur.com/F1AYwj6.jpg)
(https://i.imgur.com/QjbKBAK.jpg)
(https://i.imgur.com/ihcHGfL.jpg)

Ahora vamos con Merlin el mago:

(https://i.imgur.com/cbb2HKe.jpg)
(https://i.imgur.com/6hJTiPW.jpg)
(https://i.imgur.com/OrQ0dYH.jpg)
(https://i.imgur.com/Ip0upii.jpg)
(https://i.imgur.com/5PsmILG.jpg)
(https://i.imgur.com/BUJ7qb8.jpg)

Vamos con Thor el bárbaro... Curiosamente no había forma de que me lo sacase afeitado, sin barba, pero los resultados son espectaculares...

(https://i.imgur.com/iafeAtb.jpg)
(https://i.imgur.com/JJKPv0N.jpg)
(https://i.imgur.com/Hjp3hx5.jpg)
(https://i.imgur.com/KQa9Anv.jpg)
(https://i.imgur.com/ss7PkNp.jpg)
(https://i.imgur.com/SHZ4bNm.jpg)
(https://i.imgur.com/l6PQl7T.jpg)
(https://i.imgur.com/qX74Jgw.jpg)
(https://i.imgur.com/PIZjENj.jpg)

Y por último, con Questor el elfo... Este me sorprendió por el tema antes comentado del arco y las flechas, y también me resultó curioso que con el primer prompt que usé me lo generaba siempre como si fuera una figura de acción realista, así que tuve que indicar que era una ilustración al estilo de Advanced Dungeons & Dragons:

(https://i.imgur.com/xNO1XsP.jpg)
(https://i.imgur.com/9gzu8vS.jpg)
(https://i.imgur.com/dqz8CaS.jpg)
(https://i.imgur.com/azB2yhM.jpg)
(https://i.imgur.com/gJdiO2H.jpg)
(https://i.imgur.com/qS0Rk4e.jpg)
(https://i.imgur.com/R3Vk99v.jpg)
(https://i.imgur.com/8Nr0QTa.jpg)

El anime también lo hace muy bién y en muchos estilos:

(https://i.imgur.com/RIJz1nQ.jpg)
(https://i.imgur.com/eOvvy2l.jpg)
(https://i.imgur.com/n9yA8vX.jpg)
(https://i.imgur.com/t7gajJR.jpg)
(https://i.imgur.com/OZ6v1Jc.jpg)
(https://i.imgur.com/pPhvzBZ.jpg)

Y haciendo cosas complejas, le pedí una imagen con el siguiente prompt:

A drawing of a thin man wearing a top hat and holding an umbrella followed by a cat and an elephant crossing on a rope, as if they were tightrope walkers, between two buildings. A certain magical and nostalgic air.

Bastante complejo seguir todo lo que pide para cualquier IA generadora de imágenes... Pues vamos a ver el resultado:

(https://i.imgur.com/5pt4dPP.jpg)
(https://i.imgur.com/0B90PJ2.jpg)
(https://i.imgur.com/R8XsG3d.jpg)

Impresionante, sin duda... Y ahora vamos con lo que mencioné de crear a varios personajes diferentes en una misma imagen, montando en bicicleta, personajes juntos en contacto directo que no se mezclan, etc...:

Link y Zelda celebrando el fin de Ganon:

(https://i.imgur.com/L3JdV7i.jpg)
(https://i.imgur.com/yQXpJ6D.jpg)
(https://i.imgur.com/MrWIDR6.jpg)
(https://i.imgur.com/kHnqnwc.jpg)

Zelda de fiesta con varias amigas (para comprobar lo del contacto directo):

(https://i.imgur.com/lWZHtKC.jpg)
(https://i.imgur.com/O50dLYZ.jpg)
(https://i.imgur.com/dlmGIKz.jpg)
(https://i.imgur.com/WjVCxon.jpg)
(https://i.imgur.com/2BbPXn0.jpg)

Link en bicicleta en varios estilos:

(https://i.imgur.com/zSSkJN1.jpg)
(https://i.imgur.com/igelyyB.jpg)
(https://i.imgur.com/VfZbdF2.jpg)
(https://i.imgur.com/ckVm6Mx.jpg)
(https://i.imgur.com/85aNPNa.jpg)
(https://i.imgur.com/uUyu1mA.jpg)
(https://i.imgur.com/SWgAmBO.jpg)
(https://i.imgur.com/wm2a0uv.jpg)

Ahora vamos a ver qué pasa si mezclamos a Link, a Michael Jackson, a los juegos de Super Mario y la Super Nintendo:

(https://i.imgur.com/ZMoEYNI.jpg)
(https://i.imgur.com/yCVnaJ3.jpg)
(https://i.imgur.com/7BKvlr9.jpg)
(https://i.imgur.com/El9LuTb.jpg)
(https://i.imgur.com/SjaoeG8.jpg)
(https://i.imgur.com/P7UXleu.jpg)
(https://i.imgur.com/MBR92dB.jpg)
(https://i.imgur.com/N9MOQzm.jpg)
(https://i.imgur.com/83l0Lbk.jpg)
(https://i.imgur.com/OZ4DGN1.jpg)
(https://i.imgur.com/Os2ynE5.jpg)
(https://i.imgur.com/dzLAh3K.jpg)

Y ya que estamos... Qué tal un Einstein resucitado en la forma de un androide karateka en una ciudad estilo Cyberpunk?

(https://i.imgur.com/W94xqCr.jpg)
(https://i.imgur.com/w92GvzF.jpg)
(https://i.imgur.com/12Kzt1C.jpg)
(https://i.imgur.com/lBjTwJk.jpg)
(https://i.imgur.com/b1Bkt5U.jpg)

Ahora pasamos a otra prueba que hice en su día con SD XL: Intentar generar imágenes del estilo de 'Tales of the loop', de Simon Stålenhag:

(https://i.imgur.com/GeMolYX.jpg)
(https://i.imgur.com/JU6j2CX.jpg)
(https://i.imgur.com/t26mOcz.jpg)
(https://i.imgur.com/iD4KGIQ.jpg)
(https://i.imgur.com/vx5E1gd.jpg)
(https://i.imgur.com/8oajyxB.jpg)
(https://i.imgur.com/qII2ZsZ.jpg)
(https://i.imgur.com/2JsK3EZ.jpg)
(https://i.imgur.com/UBkVsUO.jpg)
(https://i.imgur.com/k3dUt2j.jpg)

Y ahora unos ejemplos de hojas de sprites de pixelart:

(https://i.imgur.com/rklZ69t.jpg)
(https://i.imgur.com/CnxfkIS.jpg)
(https://i.imgur.com/7i6wnRz.jpg)
(https://i.imgur.com/wxjDdAT.jpg)
(https://i.imgur.com/DdoKcLl.jpg)

Para acabar otras imágenes más:

(https://i.imgur.com/ioYfnUl.jpg)
(https://i.imgur.com/ZsffIiU.jpg)
(https://i.imgur.com/wlCk9T2.jpg)
(https://i.imgur.com/HJqw1c7.jpg)
(https://i.imgur.com/POW926I.jpg)
(https://i.imgur.com/IL2W7uF.jpg)
(https://i.imgur.com/vNO64dG.jpg)
(https://i.imgur.com/pksKLeb.jpg)
(https://i.imgur.com/Wrvw1R1.jpg)
(https://i.imgur.com/hiAjprE.jpg)
(https://i.imgur.com/uzTXMBK.jpg)
(https://i.imgur.com/JsBW29g.jpg)
(https://i.imgur.com/V1Gq24I.jpg)
(https://i.imgur.com/bsVNj2N.jpg)
(https://i.imgur.com/9F79876.jpg)
(https://i.imgur.com/HhrzpIC.jpg)
(https://i.imgur.com/5HrwxF8.jpg)
(https://i.imgur.com/LS9Jrgk.jpg)
(https://i.imgur.com/53LhDKq.jpg)
(https://i.imgur.com/TeSudlK.jpg)
(https://i.imgur.com/C4kB8D3.jpg)

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: empardopo en Octubre 02, 2023, 11:51:29 am

Que barbaridad!!!

La duda más importante... ¿Para ese link que pones no necesito gráfica????

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: sirdrak en Octubre 02, 2023, 12:46:14 pm

Cita de: empardopo en Octubre 02, 2023, 11:51:29 am

Que barbaridad!!!

La duda más importante... ¿Para ese link que pones no necesito gráfica????

No, porque es un servicio online del chat de Bing... De hecho va a estar integrado en Windows 11 cuando la unión Europea deje de hacer el tonto con la legislación (como digo, lo está ya desde la semana pasada en el resto del mundo salvo Europa, China y Rusia, con la actualización 'Momento 4', que añadió el famoso Copilot con el chat de Bing integrado en la barra de Windows, y también Dall-E 3).

Además, otra cosa muy importante que se me olvidó comentar es que se indica expresamente que las imágenes creadas por Dall-E 3 son 100% tuyas, tienes todos los derechos sobre ellas y se pueden monetizar libremente (no todas las IA de este tipo lo permiten).

Fíjate si mola... Una prueba de esta mañana: Las primeras imágenes generadas con el siguiente prompt:

Foto de un guerrero bárbaro musculado, con un hacha de batalla en motocicleta, entrando en combate contra unos globins punk con una puesta de sol al fondo

(https://i.imgur.com/PdXyK85.jpg)
(https://i.imgur.com/YeuY2BC.jpg)
(https://i.imgur.com/972mjtW.jpg)
(https://i.imgur.com/fVy2cy4.jpg)
(https://i.imgur.com/VK1hY4S.jpg)
(https://i.imgur.com/g5I9yhP.jpg)

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: sirdrak en Diciembre 09, 2023, 05:43:21 pm

Bueno compañeros... Este último mes estuve bastante ocupado y no pude poner nada sobre las novedades en IA, pero han salido un verdadero aluvión de ellas y casi cada semana hay algo nuevo. Vamos a ver si os pongo al día:

Parece que, aunque están en un estadio más primitivo que las IAs generativas de imágenes, acaba de estallar el boom de las IAs generadoras de vídeos, bien a partir de un prompt de texto, de una imagen inicial o incluso de un vídeo. En la situación actual de este cambiante panorama, los principales actores implicados que tenemos son los siguientes:

* RunwayML Gen-2: Es la pionera de este tipo de IAs... Tiene una prueba gratuíta pero funciona mediante servicios de suscripción (y bastante caros además). Permite la generación de vídeos directamente a partir te texto, o bien a partir de una imagen. Tienen herramientas que ya se están empezando a incluir en sus competidoras más avanzadas, como controles para el movimiento de cámara y un pincel que permite indicar expresamente qué partes de la imagen se van a animar y cuales no. La pega que tiene es que en los vídeos que parten de una imagen es el que peor consistencia tiene, con lo que las caras y los objetos se deforman mucho.

*Pika, de Pika Labs: El primer competidor serio del anterior y que se caracteriza por funcionar desde su canal oficial de Discord, de forma similar a como funciona Midjourney. Sin embargo, su uso es gratuíto, y la calidad de los vídeos (sobre todo de los generados a poartir de una imagen) es mucho mejor que la de Runway, manteniendo bastante bien la consistencia y animando muy bien personajes y seres vivos. Su uso es totalmente gratuíto y da buen resultado. Actualmente acaban de anunciar la salida de su versión avanzada, Pika 1.0, que funcionará a partir de su web oficial en lugar de por Discord y que tiene novedades realmente impresionantes (mejor que veáis el vídeo oficial que habla por sí sólo). Ya está disponible pero se accede de momento por lista de espera y aún hay pocas personas que lo hayan probado, pero parece que cumple lo que promete. Como muestra os voy a enseñar algunos gifs que he creado a partir de imágenes que yo mismo he generado, que aunque no se ven tan bien como el vídeo original (por el paso a 256 colores y tal) pueden dar una buena idea de lo interesante que es el tema. Primero pondré el vídeo oficial de Pika 1.0 y luego algunos de los gifs:

Creados por mí:

(https://i.imgur.com/LXlwAjH.gif)
(https://i.imgur.com/uItUg0h.gif)
(https://i.imgur.com/xz5ofpY.gif)
(https://i.imgur.com/ZH85JmH.gif)
(https://i.imgur.com/AzPWgg8.gif)

Y la gente ha creado vídeos tan impresionantes como el siguiente (creado con la versión 'normal' de Pika, no con la nueva 1.0):

* Stable Video Diffusion: Sí compañeros... Stability.ai, la misma empresa responsable de Stable Diffusion, ha presentado también su IA opensource generadora de vídeos... Los dos primeros modelos que ha presentado, en principio tienen la limitación de que no puedes guiar la animación mediante un prompt como en las anteriores (por ahora) peeeero tiene las ventajas de poder instalarse en local, estar los modelos a disposición de la comunidad (lo que implica que podrán ser modificados, reentrenados y mejorados por los usuarios), y de que los vídeos conseguidos muchas veces tienen mayor nitidez y calidad que los de las dos anteriores. Por ahora sólo se pueden usar con ComfyUI, pero funcionan muy bien incuso con gráficas con sólo 8 GB de VRAM. Los dos modelos presentados, SVD y SVD_XT, en principio sólo se diferencian en que el primero está entrenado para generar clips de un máximo de 14 fps, mientras que el segundo los puede generar hasta de 25 fps. Sin embargo, en mis pruebas parece que el mejores vídeos genera es el segundo. La clave para conseguir buenos resultados parece estar en partir de imágenes en formato 16:9 (o 9:16) y sacar los vídeos a una resolución de 1024x576, que parece ser que es la de los vídeos usados para entrenar los modelos. Además de la resolución, el número de fps y el número total de fotogramas, se puede controlar la cantidad de movimiento de la escena y hasta qué punto vamos a permitir que la IA pueda deformar la imagen original de partida.

Os voy a mostrar algunos de los gifs que he hecho con esta IA:

(https://i.imgur.com/ek2MegN.gif)
(https://i.imgur.com/NLfWi0C.gif)
(https://i.imgur.com/jbOeY4J.gif)
(https://i.imgur.com/HhtTDpS.gif)
(https://i.imgur.com/EFjRVqv.gif)
(https://i.imgur.com/0k60JXz.gif)
(https://i.imgur.com/k0DHpAW.gif)
(https://i.imgur.com/St2xQ5v.gif)

Bastante impresionante el resultado como se puede ver... Y sí, una de las animaciones es de un homenaje que hice a la mítica portada del primer Castlevania. Además los vídeos luego se pueden mejorar pasándolos por Topaz Video AI para reescalarlos a 1080p e incluso 4K e incluso a 60 fps...

Pasamos ahora a novedades relativas a las IAs generativas de imágenes. Quizás lo mas interesante sea la aparición de dos nuevas IAs de este tipo que tienen la particularidad de ser Opensource, como Stable Diffusion, con lo cual ahora tendremos más opciones libres entre las que escoger. Hay que decir, después de probarlas, que no están a la altura de SD XL (que es la versión de SD con la que se autocomparan), pero tienen potencial puesto que están a disposición de la comunidad... Concretamente se trata de Pixart-alpha y de Playground V2, siendo la mejor de las dos la segunda. Además, en el caso de Playground, al haber sido entrenada de forma similar a SD XL, se puede utilizar en Automatic1111 con sólo descargar el modelo, aunque no es compatible con los LoRA ni las extensiones por ahora.

Además de esto, otra novedad bastante interesante es la aparición de un nuevo tipo de modelos, un LoRA y un sampler, los llamados LCM (Latent Consistency Model), que permiten generar las imágenes a una velocidad extrema, usando menos de 4 pasos para generar la imagen. El asunto es tan importante que incluso Stability.ai ha sacado una versión oficial LCM de SD XL y de SD 2.1, llamados SD XL Turbo y SD Turbo respectivamente. La contrapartida es que se pierde n poco de calidad en las imágenes generadas. La consecuencia de esto ha sido la aparición de aplicaciones que permiten que en un lado de la pantalla se pueda dibujar mientras en el otro, en tiempo real y de forma dinámica, se van formando las imágenes de acuerdo a tu dibujo conforme progresa este... Es bastante impresionante. El primer paso lo dió una empresa española con su web Krea.ai, a la que podéis acceder aquí: https://www.krea.ai/ (https://www.krea.ai/)

Además, el famoso programa de retoque y dibujo Krita, ha incorporado un plug-in que permite hacer justo eso mismo usando Stable Diffusion y los modelos LCM. Os dejo un vídeo donde podéis ver un ejemplo de lo comentado:

A grandes rasgos y de forma un tanto resumida, estas son las novedades más importantes... No obstante, hay en preparación una serie de cosas que pueden ser bastante impactantes también cuando estén disponibles, que sería las siguientes:

- Una extensión para Automatic1111 que de forma automática corrige las manos de los personajes durante el proceso de generación de la imagen.
- Un nuevo procedimiento que puede hacer que cualquier modelo de Stable Diffusion entienda los prompts igual de bien o mejor que Dall-E 3, la mejor IA generativa en este aspecto.
- Una extensión para animar personas y personajes sin inconsistencias a partir tan sólo de una imagen inicial y de un 'esqueleto' de Open Pose. Podéis ver un ejemplo del proceso en el siguiente video:

Título: Re: La revolución que suponen las IA generativas de imágenes a partir de texto
Publicado por: Zael en Diciembre 10, 2023, 02:01:50 am

Ya ves... yo era muy escéptico con esto de las IA, pensaba que sería una moda pasajera pero es bastante probable que de aquí poco estemos consumiendo contenidos 100% hechos por IA (libros, música, películas, etc.).

Todo avanza muy deprisa y me produce una extraña mezcla de fascinación y tristeza a partes iguales... voy desempolvar mi Gameboy con su cartucho del Tetris a ver si me despejo un poco la cabeza.