Autor Tema: La revolución que suponen las IA generativas de imágenes a partir de texto (Leído 5245 veces)

empardopo · « **Respuesta #75 en:** Octubre 02, 2023, 11:51:29 am »

Que barbaridad!!!

La duda más importante... ¿Para ese link que pones no necesito gráfica?

sirdrak · « **Respuesta #76 en:** Octubre 02, 2023, 12:46:14 pm »

Cita de: empardopo en Octubre 02, 2023, 11:51:29 am

Que barbaridad!!!

La duda más importante... ¿Para ese link que pones no necesito gráfica?

No, porque es un servicio online del chat de Bing... De hecho va a estar integrado en Windows 11 cuando la unión Europea deje de hacer el tonto con la legislación (como digo, lo está ya desde la semana pasada en el resto del mundo salvo Europa, China y Rusia, con la actualización 'Momento 4', que añadió el famoso Copilot con el chat de Bing integrado en la barra de Windows, y también Dall-E 3).

Además, otra cosa muy importante que se me olvidó comentar es que se indica expresamente que las imágenes creadas por Dall-E 3 son 100% tuyas, tienes todos los derechos sobre ellas y se pueden monetizar libremente (no todas las IA de este tipo lo permiten).

Fíjate si mola... Una prueba de esta mañana: Las primeras imágenes generadas con el siguiente prompt:

Foto de un guerrero bárbaro musculado, con un hacha de batalla en motocicleta, entrando en combate contra unos globins punk con una puesta de sol al fondo

sirdrak · « **Respuesta #77 en:** Diciembre 09, 2023, 05:43:21 pm »

Bueno compañeros... Este último mes estuve bastante ocupado y no pude poner nada sobre las novedades en IA, pero han salido un verdadero aluvión de ellas y casi cada semana hay algo nuevo. Vamos a ver si os pongo al día:

Parece que, aunque están en un estadio más primitivo que las IAs generativas de imágenes, acaba de estallar el boom de las IAs generadoras de vídeos, bien a partir de un prompt de texto, de una imagen inicial o incluso de un vídeo. En la situación actual de este cambiante panorama, los principales actores implicados que tenemos son los siguientes:

* RunwayML Gen-2: Es la pionera de este tipo de IAs... Tiene una prueba gratuíta pero funciona mediante servicios de suscripción (y bastante caros además). Permite la generación de vídeos directamente a partir te texto, o bien a partir de una imagen. Tienen herramientas que ya se están empezando a incluir en sus competidoras más avanzadas, como controles para el movimiento de cámara y un pincel que permite indicar expresamente qué partes de la imagen se van a animar y cuales no. La pega que tiene es que en los vídeos que parten de una imagen es el que peor consistencia tiene, con lo que las caras y los objetos se deforman mucho.

*Pika, de Pika Labs: El primer competidor serio del anterior y que se caracteriza por funcionar desde su canal oficial de Discord, de forma similar a como funciona Midjourney. Sin embargo, su uso es gratuíto, y la calidad de los vídeos (sobre todo de los generados a poartir de una imagen) es mucho mejor que la de Runway, manteniendo bastante bien la consistencia y animando muy bien personajes y seres vivos. Su uso es totalmente gratuíto y da buen resultado. Actualmente acaban de anunciar la salida de su versión avanzada, Pika 1.0, que funcionará a partir de su web oficial en lugar de por Discord y que tiene novedades realmente impresionantes (mejor que veáis el vídeo oficial que habla por sí sólo). Ya está disponible pero se accede de momento por lista de espera y aún hay pocas personas que lo hayan probado, pero parece que cumple lo que promete. Como muestra os voy a enseñar algunos gifs que he creado a partir de imágenes que yo mismo he generado, que aunque no se ven tan bien como el vídeo original (por el paso a 256 colores y tal) pueden dar una buena idea de lo interesante que es el tema. Primero pondré el vídeo oficial de Pika 1.0 y luego algunos de los gifs:

Creados por mí:

Y la gente ha creado vídeos tan impresionantes como el siguiente (creado con la versión 'normal' de Pika, no con la nueva 1.0):

* Stable Video Diffusion: Sí compañeros... Stability.ai, la misma empresa responsable de Stable Diffusion, ha presentado también su IA opensource generadora de vídeos... Los dos primeros modelos que ha presentado, en principio tienen la limitación de que no puedes guiar la animación mediante un prompt como en las anteriores (por ahora) peeeero tiene las ventajas de poder instalarse en local, estar los modelos a disposición de la comunidad (lo que implica que podrán ser modificados, reentrenados y mejorados por los usuarios), y de que los vídeos conseguidos muchas veces tienen mayor nitidez y calidad que los de las dos anteriores. Por ahora sólo se pueden usar con ComfyUI, pero funcionan muy bien incuso con gráficas con sólo 8 GB de VRAM. Los dos modelos presentados, SVD y SVD_XT, en principio sólo se diferencian en que el primero está entrenado para generar clips de un máximo de 14 fps, mientras que el segundo los puede generar hasta de 25 fps. Sin embargo, en mis pruebas parece que el mejores vídeos genera es el segundo. La clave para conseguir buenos resultados parece estar en partir de imágenes en formato 16:9 (o 9:16) y sacar los vídeos a una resolución de 1024x576, que parece ser que es la de los vídeos usados para entrenar los modelos. Además de la resolución, el número de fps y el número total de fotogramas, se puede controlar la cantidad de movimiento de la escena y hasta qué punto vamos a permitir que la IA pueda deformar la imagen original de partida.

Os voy a mostrar algunos de los gifs que he hecho con esta IA:

Bastante impresionante el resultado como se puede ver... Y sí, una de las animaciones es de un homenaje que hice a la mítica portada del primer Castlevania. Además los vídeos luego se pueden mejorar pasándolos por Topaz Video AI para reescalarlos a 1080p e incluso 4K e incluso a 60 fps...

Pasamos ahora a novedades relativas a las IAs generativas de imágenes. Quizás lo mas interesante sea la aparición de dos nuevas IAs de este tipo que tienen la particularidad de ser Opensource, como Stable Diffusion, con lo cual ahora tendremos más opciones libres entre las que escoger. Hay que decir, después de probarlas, que no están a la altura de SD XL (que es la versión de SD con la que se autocomparan), pero tienen potencial puesto que están a disposición de la comunidad... Concretamente se trata de Pixart-alpha y de Playground V2, siendo la mejor de las dos la segunda. Además, en el caso de Playground, al haber sido entrenada de forma similar a SD XL, se puede utilizar en Automatic1111 con sólo descargar el modelo, aunque no es compatible con los LoRA ni las extensiones por ahora.

Además de esto, otra novedad bastante interesante es la aparición de un nuevo tipo de modelos, un LoRA y un sampler, los llamados LCM (Latent Consistency Model), que permiten generar las imágenes a una velocidad extrema, usando menos de 4 pasos para generar la imagen. El asunto es tan importante que incluso Stability.ai ha sacado una versión oficial LCM de SD XL y de SD 2.1, llamados SD XL Turbo y SD Turbo respectivamente. La contrapartida es que se pierde n poco de calidad en las imágenes generadas. La consecuencia de esto ha sido la aparición de aplicaciones que permiten que en un lado de la pantalla se pueda dibujar mientras en el otro, en tiempo real y de forma dinámica, se van formando las imágenes de acuerdo a tu dibujo conforme progresa este... Es bastante impresionante. El primer paso lo dió una empresa española con su web Krea.ai, a la que podéis acceder aquí: https://www.krea.ai/

Además, el famoso programa de retoque y dibujo Krita, ha incorporado un plug-in que permite hacer justo eso mismo usando Stable Diffusion y los modelos LCM. Os dejo un vídeo donde podéis ver un ejemplo de lo comentado:

A grandes rasgos y de forma un tanto resumida, estas son las novedades más importantes... No obstante, hay en preparación una serie de cosas que pueden ser bastante impactantes también cuando estén disponibles, que sería las siguientes:

- Una extensión para Automatic1111 que de forma automática corrige las manos de los personajes durante el proceso de generación de la imagen.
- Un nuevo procedimiento que puede hacer que cualquier modelo de Stable Diffusion entienda los prompts igual de bien o mejor que Dall-E 3, la mejor IA generativa en este aspecto.
- Una extensión para animar personas y personajes sin inconsistencias a partir tan sólo de una imagen inicial y de un 'esqueleto' de Open Pose. Podéis ver un ejemplo del proceso en el siguiente video:

Zael · « **Respuesta #78 en:** Diciembre 10, 2023, 02:01:50 am »

Ya ves... yo era muy escéptico con esto de las IA, pensaba que sería una moda pasajera pero es bastante probable que de aquí poco estemos consumiendo contenidos 100% hechos por IA (libros, música, películas, etc.).

Todo avanza muy deprisa y me produce una extraña mezcla de fascinación y tristeza a partes iguales... voy desempolvar mi Gameboy con su cartucho del Tetris a ver si me despejo un poco la cabeza.

iojukebox Theme, un JukeBox para Attract-Mode	Autor: gucaza	Foro: Themes AM	04/05/2024 (02:47)
Salón Recreativo #55 (27-04-2024 / 26-05-2024)	Autor: jordani11	Foro: Salón Recreativo FaseBonus	03/05/2024 (23:29)
Nuevo miniPc para mi vieja recre y juegos Windows compatibles formato 4:3	Autor: jmpuk	Foro: Offtopic	02/05/2024 (23:31)
Homenaje a Locomalito	Autor: beaches	Foro: Otros programas	02/05/2024 (23:03)
La inteligencia artificial ha llegado a la música	Autor: jmpuk	Foro: Offtopic	02/05/2024 (21:45)
[N3DS] Red Viper - Emulando Virtual Boy como Dios manda	Autor: Zael	Foro: Noticias de emuladores	02/05/2024 (21:06)
[Recomendación] Cine para los findes en casa (bueno, bonito y barato)	Autor: arquillos	Foro: Offtopic	02/05/2024 (09:39)
¿A qué estáis jugando ahora mismo?	Autor: joselopez	Foro: Offtopic	02/05/2024 (04:07)
[Recomendacion] Series para ver	Autor: jmpuk	Foro: Offtopic	01/05/2024 (21:54)
Etpa8: El Reino Subterráneo	Autor: jmpuk	Foro: ZX Spectrum	01/05/2024 (21:49)
Stop the express	Autor: jmpuk	Foro: ZX Spectrum	01/05/2024 (21:29)
Amiga Games + 1.9.2	Autor: empardopo	Foro: Emuladores	01/05/2024 (20:58)
West Bank para ZX Spectrum	Autor: empardopo	Foro: ZX Spectrum	01/05/2024 (20:07)
Recopilatorio Retos: Desde el 1 hasta .....	Autor: Zael	Foro: Competiciones y concursos	29/04/2024 (23:59)
Info sobre MARP	Autor: Zael	Foro: Records y wolfmame	29/04/2024 (23:45)
Patrocinador para el foro ArcadeSpain	Autor: empardopo	Foro: Noticias	29/04/2024 (19:37)
Retro 320 - Wizard of wor	Autor: empardopo	Foro: Competiciones y concursos	29/04/2024 (19:29)
Aprende a hacerte un PORTABLE de tu juego arcade favorito	Autor: empardopo	Foro: Records y wolfmame	29/04/2024 (19:27)
Screenshot de empardopo	Autor: empardopo	Foro: Otros programas	24/04/2024 (19:42)
Concurso Bytemaniacos 2025	Autor: empardopo	Foro: Creación de juegos	23/04/2024 (21:46)
Retro Portable Maker ArcadeSpain (RPMA)	Autor: empardopo	Foro: Otros programas	21/04/2024 (19:16)
Van dos y se cae el del medio - Hilo de cachondeo general	Autor: empardopo	Foro: Offtopic	21/04/2024 (18:47)
Hacer fondos de pantalla con Excel para Spectrum	Autor: empardopo	Foro: Creación de juegos	18/04/2024 (19:33)
Salón Recreativo FaseBonus - Preparativos y Sugerencias	Autor: Zael	Foro: Salón Recreativo FaseBonus	17/04/2024 (00:17)
Retropixel 2024	Autor: Zael	Foro: Eventos Arcades	14/04/2024 (12:24)
Ofertas Amazon	Autor: empardopo	Foro: Offtopic	11/04/2024 (20:29)
Restauración Terminator 2 + LightGun Gun4IR	Autor: HeroTonma	Foro: Diario de construccion de tu arcade	04/04/2024 (14:18)
Ojo con telegram	Autor: Zael	Foro: Noticias	29/03/2024 (19:30)
Galería de fotos en ArcadeSpain - sube las fotos a nuestro servidor -	Autor: empardopo	Foro: Noticias	24/03/2024 (16:49)
Flipando con la desinformación en el caso del emulador Yuzu	Autor: Zael	Foro: Offtopic	22/03/2024 (20:13)

Arcadespain

Autor Tema: La revolución que suponen las IA generativas de imágenes a partir de texto (Leído 5245 veces)

empardopo

Re: La revolución que suponen las IA generativas de imágenes a partir de texto

sirdrak

Re: La revolución que suponen las IA generativas de imágenes a partir de texto

sirdrak

Re: La revolución que suponen las IA generativas de imágenes a partir de texto

Zael

Re: La revolución que suponen las IA generativas de imágenes a partir de texto

Temas recientes