Autor Tema: La revolución que suponen las IA generativas de imágenes a partir de texto (Leído 9386 veces)

empardopo · « **Respuesta #75 en:** Octubre 02, 2023, 11:51:29 am »

Que barbaridad!!!

La duda más importante... ¿Para ese link que pones no necesito gráfica?

sirdrak · « **Respuesta #76 en:** Octubre 02, 2023, 12:46:14 pm »

Cita de: empardopo en Octubre 02, 2023, 11:51:29 am

Que barbaridad!!!

La duda más importante... ¿Para ese link que pones no necesito gráfica?

No, porque es un servicio online del chat de Bing... De hecho va a estar integrado en Windows 11 cuando la unión Europea deje de hacer el tonto con la legislación (como digo, lo está ya desde la semana pasada en el resto del mundo salvo Europa, China y Rusia, con la actualización 'Momento 4', que añadió el famoso Copilot con el chat de Bing integrado en la barra de Windows, y también Dall-E 3).

Además, otra cosa muy importante que se me olvidó comentar es que se indica expresamente que las imágenes creadas por Dall-E 3 son 100% tuyas, tienes todos los derechos sobre ellas y se pueden monetizar libremente (no todas las IA de este tipo lo permiten).

Fíjate si mola... Una prueba de esta mañana: Las primeras imágenes generadas con el siguiente prompt:

Foto de un guerrero bárbaro musculado, con un hacha de batalla en motocicleta, entrando en combate contra unos globins punk con una puesta de sol al fondo

sirdrak · « **Respuesta #77 en:** Diciembre 09, 2023, 05:43:21 pm »

Bueno compañeros... Este último mes estuve bastante ocupado y no pude poner nada sobre las novedades en IA, pero han salido un verdadero aluvión de ellas y casi cada semana hay algo nuevo. Vamos a ver si os pongo al día:

Parece que, aunque están en un estadio más primitivo que las IAs generativas de imágenes, acaba de estallar el boom de las IAs generadoras de vídeos, bien a partir de un prompt de texto, de una imagen inicial o incluso de un vídeo. En la situación actual de este cambiante panorama, los principales actores implicados que tenemos son los siguientes:

* RunwayML Gen-2: Es la pionera de este tipo de IAs... Tiene una prueba gratuíta pero funciona mediante servicios de suscripción (y bastante caros además). Permite la generación de vídeos directamente a partir te texto, o bien a partir de una imagen. Tienen herramientas que ya se están empezando a incluir en sus competidoras más avanzadas, como controles para el movimiento de cámara y un pincel que permite indicar expresamente qué partes de la imagen se van a animar y cuales no. La pega que tiene es que en los vídeos que parten de una imagen es el que peor consistencia tiene, con lo que las caras y los objetos se deforman mucho.

*Pika, de Pika Labs: El primer competidor serio del anterior y que se caracteriza por funcionar desde su canal oficial de Discord, de forma similar a como funciona Midjourney. Sin embargo, su uso es gratuíto, y la calidad de los vídeos (sobre todo de los generados a poartir de una imagen) es mucho mejor que la de Runway, manteniendo bastante bien la consistencia y animando muy bien personajes y seres vivos. Su uso es totalmente gratuíto y da buen resultado. Actualmente acaban de anunciar la salida de su versión avanzada, Pika 1.0, que funcionará a partir de su web oficial en lugar de por Discord y que tiene novedades realmente impresionantes (mejor que veáis el vídeo oficial que habla por sí sólo). Ya está disponible pero se accede de momento por lista de espera y aún hay pocas personas que lo hayan probado, pero parece que cumple lo que promete. Como muestra os voy a enseñar algunos gifs que he creado a partir de imágenes que yo mismo he generado, que aunque no se ven tan bien como el vídeo original (por el paso a 256 colores y tal) pueden dar una buena idea de lo interesante que es el tema. Primero pondré el vídeo oficial de Pika 1.0 y luego algunos de los gifs:

Creados por mí:

Y la gente ha creado vídeos tan impresionantes como el siguiente (creado con la versión 'normal' de Pika, no con la nueva 1.0):

* Stable Video Diffusion: Sí compañeros... Stability.ai, la misma empresa responsable de Stable Diffusion, ha presentado también su IA opensource generadora de vídeos... Los dos primeros modelos que ha presentado, en principio tienen la limitación de que no puedes guiar la animación mediante un prompt como en las anteriores (por ahora) peeeero tiene las ventajas de poder instalarse en local, estar los modelos a disposición de la comunidad (lo que implica que podrán ser modificados, reentrenados y mejorados por los usuarios), y de que los vídeos conseguidos muchas veces tienen mayor nitidez y calidad que los de las dos anteriores. Por ahora sólo se pueden usar con ComfyUI, pero funcionan muy bien incuso con gráficas con sólo 8 GB de VRAM. Los dos modelos presentados, SVD y SVD_XT, en principio sólo se diferencian en que el primero está entrenado para generar clips de un máximo de 14 fps, mientras que el segundo los puede generar hasta de 25 fps. Sin embargo, en mis pruebas parece que el mejores vídeos genera es el segundo. La clave para conseguir buenos resultados parece estar en partir de imágenes en formato 16:9 (o 9:16) y sacar los vídeos a una resolución de 1024x576, que parece ser que es la de los vídeos usados para entrenar los modelos. Además de la resolución, el número de fps y el número total de fotogramas, se puede controlar la cantidad de movimiento de la escena y hasta qué punto vamos a permitir que la IA pueda deformar la imagen original de partida.

Os voy a mostrar algunos de los gifs que he hecho con esta IA:

Bastante impresionante el resultado como se puede ver... Y sí, una de las animaciones es de un homenaje que hice a la mítica portada del primer Castlevania. Además los vídeos luego se pueden mejorar pasándolos por Topaz Video AI para reescalarlos a 1080p e incluso 4K e incluso a 60 fps...

Pasamos ahora a novedades relativas a las IAs generativas de imágenes. Quizás lo mas interesante sea la aparición de dos nuevas IAs de este tipo que tienen la particularidad de ser Opensource, como Stable Diffusion, con lo cual ahora tendremos más opciones libres entre las que escoger. Hay que decir, después de probarlas, que no están a la altura de SD XL (que es la versión de SD con la que se autocomparan), pero tienen potencial puesto que están a disposición de la comunidad... Concretamente se trata de Pixart-alpha y de Playground V2, siendo la mejor de las dos la segunda. Además, en el caso de Playground, al haber sido entrenada de forma similar a SD XL, se puede utilizar en Automatic1111 con sólo descargar el modelo, aunque no es compatible con los LoRA ni las extensiones por ahora.

Además de esto, otra novedad bastante interesante es la aparición de un nuevo tipo de modelos, un LoRA y un sampler, los llamados LCM (Latent Consistency Model), que permiten generar las imágenes a una velocidad extrema, usando menos de 4 pasos para generar la imagen. El asunto es tan importante que incluso Stability.ai ha sacado una versión oficial LCM de SD XL y de SD 2.1, llamados SD XL Turbo y SD Turbo respectivamente. La contrapartida es que se pierde n poco de calidad en las imágenes generadas. La consecuencia de esto ha sido la aparición de aplicaciones que permiten que en un lado de la pantalla se pueda dibujar mientras en el otro, en tiempo real y de forma dinámica, se van formando las imágenes de acuerdo a tu dibujo conforme progresa este... Es bastante impresionante. El primer paso lo dió una empresa española con su web Krea.ai, a la que podéis acceder aquí: https://www.krea.ai/

Además, el famoso programa de retoque y dibujo Krita, ha incorporado un plug-in que permite hacer justo eso mismo usando Stable Diffusion y los modelos LCM. Os dejo un vídeo donde podéis ver un ejemplo de lo comentado:

A grandes rasgos y de forma un tanto resumida, estas son las novedades más importantes... No obstante, hay en preparación una serie de cosas que pueden ser bastante impactantes también cuando estén disponibles, que sería las siguientes:

- Una extensión para Automatic1111 que de forma automática corrige las manos de los personajes durante el proceso de generación de la imagen.
- Un nuevo procedimiento que puede hacer que cualquier modelo de Stable Diffusion entienda los prompts igual de bien o mejor que Dall-E 3, la mejor IA generativa en este aspecto.
- Una extensión para animar personas y personajes sin inconsistencias a partir tan sólo de una imagen inicial y de un 'esqueleto' de Open Pose. Podéis ver un ejemplo del proceso en el siguiente video:

Zael · « **Respuesta #78 en:** Diciembre 10, 2023, 02:01:50 am »

Ya ves... yo era muy escéptico con esto de las IA, pensaba que sería una moda pasajera pero es bastante probable que de aquí poco estemos consumiendo contenidos 100% hechos por IA (libros, música, películas, etc.).

Todo avanza muy deprisa y me produce una extraña mezcla de fascinación y tristeza a partes iguales... voy desempolvar mi Gameboy con su cartucho del Tetris a ver si me despejo un poco la cabeza.

sirdrak · « **Respuesta #79 en:** Junio 16, 2024, 05:40:49 pm »

Bueno, hace tiempo que no actualizo sobre novedades de IA para generar imágenes, pero con lo acontecido esta semana, creo que es necesario hacerlo, pero primero vamos por partes:

- Desde febrero han ido saliendo versiones de SD XL cuyo objetivo era poder generar imágenes con un número menor de pasos y pr tan mucha mayor rapidez. Empezó con SD XL Turbo y le siguió SD XL lighting, que conseguía una calidad algo mayor.

- Tras muchos meses de modelos de anime más o menos mediocres desde la salida de SD XL (siendo hasta hace poco mejores los basados en SD 1.5), aparecen dos grandes modelos 'buenos' de Anime/hentai: Animagine V3 y Pony Diffusion V6. Este último es un modelo muy particular que se convierte rápidamente en el mejor modelo de SD XL y el más popular de todos los modelos de SD XL. La particularidad es que es un modelo entrenado desde cero usando la bae tecnológica de SD XL, por un usuario con tres gráficas profesionales nVidia H100 en su poder. Conjuntamente con un grupo de colaboradores, crean el modelo entrenándolo con una selección de 3 millones de imágenes etiquetadas manualmente por humanos, una por una. Por esa razón, se convierte en un modelo increíble que entiende muy bien lo que se le pide, principalmente nsfw (entrenado en hentai) pero muy válido también para imágenes nsfw. Debido a que es un modelo tan particular, se deben entrenar los LoRas de personajes y estilos específicamente para él, pero tienen un gran éxito.

- Aparecen nuevas técnicas para mejorar la compresión de los prompts de modelos 'antiguos'. Concretamente aparece ELLA, que lo que hace es utilizar un LLM, concretamente T5 XL de Google, para que sustituya a la interpretación del prompt que hace el text encoder de los modelos basados en SD 1.5. El resultado es bastante bueno, aunque no obstante hay un problema de censura de personajes famosos y otras cosas debido a que ya venía incluída con el LLM de Google. Sin embargo, la interpretación de los prompts mejora acercándose a lo que vemos con Dall-e 3. de momento sólo se puede usar en ComfyUI y sólo con modelos de SD 1.5.

- Aparece un 'workflow' para ComfyUI de reescalado con el objetivo de conseguir imágenes espectaculares intentando imitar al servicio online Magnific.ai (que es muy caro). Se convierte en el mejor método de reescalado (añadiendo nuevos detalles) actual. Su nombre es Supir.

- Se publican nuevos modelos generadores de imágenes con arquitecturas más modernas y mejor para la comprensión de prompts. Destacan Stable Cascade (de Stability.ai), Pixart Sigma (que usa un enfoque similar al de Stable Diffusion 3, sólo que utilizando un modelo pequeño y fácil y barato de entrenar conjuntamente con un LLM T5 para la interpretación de los prompts), y los recientes Hunyuan (modelo chino con un funcionamiento similar a SD3) y Lumines (otro modelo muy prometedor que además es multimodal y puede crear sonido, objetos 3D, etc...)

Ahora vamos con lo principal, y que tiene bastante miga, y que no es otra cosa que la publicación esta semana de Stable Diffusion 3 medium, la versión intermedia de SD3, que fué anunciado a primeros de año y ha resultado ser un auténtico caos. Empecemos por el principio:

- Resulta que Stability.ai en todo este tiempo no ha logrado establecer un modelo de negocio que le de beneficios, de forma que está al borde de la quiebra. A consecuencia de esto, y diversas decisiones de la directiva, paulatinamente se han ido yendo todos los ingenieros que participaron en el desarrollo de Stable Diffusion desde sus comienzos, de forma que en marzo de este año ya no quedaba ninguno. Para colmo, Emad Mostaque, CEO de la compañía y el principal defensor de que SD siga siendo opensource y libre en contra de las presiones de los inversores, también ha acabado abandonando la compañía hace un par de meses. Con esto, todos los implicados en la creación y desarrollo de SD ya no están en Stability.

- Las cuentas de Stability no salen... En el primer trimestre de 2024 han tenido unos beneficions de 5M de $ y unas pérdidas de 30M. Empiezan a sonar rumores de que la compañía está en negociaciones para su venta.

- Antes de su marcha, Emad prometió que en mayo tendríamos SD3 para instalarlo en local en su versión más grande ( SD3 tendrá varias versiones de diferente tamaño con la intención de que se pueda ejecutar en el mayor número de equipos posible, concretamente las versiones 8B - 8000 millones de parámetros -, 4B, 2B -la medium actualmente publicada- y una de 900M de parámetros para equipos más humildes). Sin embargo, tras marcharse en abril, esto no sucedió y se retrasó la publicación del modelo, que en cambio sí se puso en la API de stability pero previo pago y bastante caro, por cierto. En la comunidad empezaron a circular sospechas de que Stability.ai estaba pensando en dejar de ser Opensource, como hizo Open.ai , y pasar a ofrecer sus modelos online como Dall-e 3 y similares, tras una pasarela de pago.

- Hace unas semanas, algunos empleados de Stability, Lykon concretamente (el responsable del checkpoint Dreamshaper de SD, que fué contratado por la compañía y ha sido el que ha estado encargando de publicitar SD3), empiezan a publicitar literalmente '2B is all that you need', como insinuando la publicación de SD3 medium, pero que mucha gente interpretó como que la intención era darnos a los usuarios una versión menor de SD3 y quedarse ellos los modelos grandes para sí, para ofrecerlos únicamente en su plataforma online previo pago.

- Stability.ai contrata a la ex-responsable de la censura en Twitter antes de que se convirtiera en X, despedida fulminantemente por Elon Musk nada mas llegar. Se le designa como responsable del equipo de 'seguridad' (o sea, de censura) de los modelos.

- Finalmente, se publica SD3 2B medium y se desata el caos: Resulta que los usuarios descubren no sólo que el modelo está fuertemente censurado, sino que la censura a acabado afectando a la generación normal de imágenes con personas, estropeando totalmente la anatomía y creando verdaderos horrores con simplemente pedirle cosas tan simples como 'mujer tendida sobre la hierba'. Ningún modelo anterior de SD, ni los más antiguos, han tenido problemas similares con la anatomía. Además, queda claro que está relacionado con la censura, porque SD3 funciona perfectamente con el resto de imágenes en los que no se representan personas.

- Para colmo, resulta que Stability cambia la licencia bajo la que funciona SD3, de forma que en vez de ser 100% opensource como Sd 1.5 o SD XL, y de libre uso tanto para uso no comercial como comercial, ahora SD3 es de uso libre sólo para uso no comercial. Ahora para usarla comercialmente, hay que contratar una de las licencias que hay en Stability, que son dos: Creators (para pequeños creadores, de 20$ al mes), y la Enterprise (para empresas que tengan mñas de 1M de $ de beneficios) que hay que negociar directamente con ellos y no tiene un precio fijo. Resulta que la primera limita la creación de imágenes con SD3 a 6000 al mes (no queda claro si se refiere a la generación local o a generaciones cuando se usa SD3 en servicios online). Para colmo, una vez la gente ha empezado a leer las condiciones legales de las licencias, hay claúsulas tan disparatadas como que, si se entrena algún modelo usando como base SD3 (lo que lleva la comunidad haciendo desde la existencia de SD) pasaría prácticamente a ser suyo, y que si se deja de pagar la licencia, tendrías que destruir tu modelo y todas las imágenes creadas con él.

- Por si lo anterior fuera poco, resulta que se da el caso de que el creador del modelo de Anime/Hentai más importante de Stable diffusion XL, Pony Diffusion V6 (que tiene la particularidad de que lo entrenó desde cero usando tres nVidia H100), que quiere sacar una versión para SD3, se pone en contacto con stability para intentar contratar una licencia Enterprise, ya que aunque tiene la Creators, piensa ceder su modelo en servicios de generación online (aunque igualmente estaría desponible libremente para que los usuarios lo usen localmente gratis). Se encuentra con que desde Stability lo tratan mal, con condescendencia y hasta se ríen de él (al ser el suyo un modelo nsfw, a pesar de ser el más importante de SD XL en uso), y le ignoran por completo, no permitiéndole conseguir contratar la licencia. Debido a esto, decide que ya no sacará pony para SD3.

- Las últimas noticias del culebron este son que algunos empleados de Stability han admitido que SD3 medium en realidad era una beta que se decidió publicar por el cabreo de la comunidad con el retraso de SD3 8B y que se le quitó el nombre de 'beta' en el último minuto. Aseguran que tienen pensado sacar una versión mejorada del modelo aunque no antes de publicar la versión SD3 8B. Emad Mostaque se pronuncia sobre la polémica en X y comenta que está sorprendido por lo acontecido porque cuando él se marchó de la empresa, el modelo estaba casi acabado y funcionaba perfectamente con la anatomía, por lo que dice que tiene claro que los problemas se introdujeron durante la fase de 'alineamiento para la seguridad' (la censura vamos) del modelo, posterior a su salida. Hay que comentar también, que SD3 8B, en el servicio online de Stability.ai a través de su API, no tiene los problemas que ha mostrado SD3 2B medium.

sirdrak · « **Respuesta #80 en:** Junio 16, 2024, 06:14:55 pm »

Por cierto, a las novedades antes comentadas, he de añadir una personal... Ya que os he hablado de la popularidad del modelo de anime Pony Diffusion V6 y sus virtudes, me animé por fin a sacar una versión de mi modelo de estilo de Alfonso Azpiri para Pony XL. Al ser la primera vez entrenando LoRas de SD XL me costó un poco conseguir los resultados que buscaba, pero tras varias pruebas conseguí mi LoRa de estilo, que he publicado en Civitai, al igual que el original que hice para SD 1.5. Lo que más me gusta es que es capaz de crear personajes de Azpiri muy bien, incluyendo a Lorna, Sally Gothic, Bethlehem Steele, Thaca Reem, etc... Incluso es capaz de sacar bien a Mot, aunque le cuesta un poco más. Además, se puede 'activar' el estilo 'acuarela', que Azpiri usaba a menudo, simplemente añadiendo al prompt las etiquetas 'retro artstyle, watercolor /(medium/)' y/o 'traditional media, 1980s (style)'. Os dejo algunos ejemplos:

Como se puede obsevar, algunos beneficios de usar Pony XL con mi LoRa es que las manos y la anatomía son mejores,se pueden hacer imágenes con más de un personaje diferente al mismo tiempo simplemente con la descripción del prompt, mayor variedad de poses, etc... Se puede descargar aquí: https://civitai.com/models/495362/alfonso-azpiri-style-for-pony-xl

Antes de usarlo, es importante leer lo que pone en la descripción del modelo, ya que aconseja cómo usarlo para conseguir el mejor resultado posible, y que al ser el modelo Pony XL tan particular, tiene una serie de eiquetas propios que es imprescindible usar en los prompts.

zzgus · « **Respuesta #81 en:** Junio 17, 2024, 10:00:39 am »

Me encanta leerte !!! necesitaría leerlo 5 o 6 veces para llegar a entender todo lo que escribes !!!! muchos términos.

Por cierto... muy conseguidos los modelos de Azpiri !!!

Saludos
Gus

sirdrak · « **Respuesta #82 en:** Junio 22, 2024, 12:04:16 pm »

Bueno, y hay más novedades respecto al asunto de SD3 y el culebrón de Stability.ai... Las siguientes:

- Comfyanonimous (el creador de ComfyUI, que llevaba tiempo trabajando en Stability.ai) anuncia que ha dejado él también la empresa y cuenta que en realidad parece ser que en la empresa no quieren publicar las versiones grandes 4B y 8B de SD3 y que por eso publicaron 2B a sabiendas de que estaba mal, y que se fué de la empresa porque se dió cuenta de que no tenían intención de trabajar para sacar el mejor modelo posible...

- La mayor web del mundo de recursos de Stable Diffusion, Civitai, ha decidido banear SD3 y todo modelo o contenido relacionado debido al tema de las claúsulas abusivas de las licencias comerciales de Stability.ai y el estado de SD3 medium, que está literalmente roto. Esto es algo muy gordo... Por ahora Stability.ai no ha dicho ni pío desde que todo esto comenzó.

- Parece ser que Stability.ai se salva de la bancarrota por los pelos, por una fuerte inversión de Facebook en la compañía... Ahora ha cambiado el CEO y el nuevo es el CEO de Weta Digital, la empresa de efectos especiales para cine y televisión:

June 21 (Reuters) - British artificial intelligence startup Stability AI has appointed Prem Akkaraju as its new chief executive officer, the Information reported on Friday, citing a person involved in the decision.Akkaraju, former CEO of visual effects company Weta Digital, is part of a group of investors including former Facebook President Sean Parker that has stepped in to save Stability with a cash infusion, which could result in a lower valuation for the firm, the report said.The new funding will likely shrink the stakes of some existing investors, who have collectively contributed more than $100 million, according to the report.Stability AI declined to comment.The company had said in May it was in talks with a group of investors for a large equity investment into the cash-strapped firm.

Reporting by Juby Babu in Mexico City; Editing by Shilpi Majumdar

La inyección de dinero la ha recibido nada menos que de Sean Parker, el creador de Napster y cofundador de Facebook, toda una leyenda. Está por ver el significado de esto y como afectará a la orientación de la empresa y si continuará o no apostando por el opensource (yo creo que no lo hará, y lo ocurrido tiene mucho que ver con esta inversión).

Por otro lado, otra novedad que se está haciendo muy popular y que merece la pena comentar, es la nueva IA para generar vídeos que da mejores resultados que las disponibles hasta ahora. Se trata de Dream Machine de Luma Labs, que permite hacer vídeos con mas nitidez y consistencia... Permite generar de forma gratuíta unos 30 vídeos al mes. Yo ya la he estado probando y algunos resultados son muy interesantes, con animaciones con mucha mayor movilidad en los personajes y menos deformaciones. En este vídeo podeís ver algunos ejemplos creados a partir de conocidos memes de internet:

Además, y como complemento a la anterior, hay otra IA mucho más ambiciosa de este tipo que apunta directamente a hacer la competencia a Sora de Open.ai. Es de origen chino y se llama Kling, y permite hacer vídeos realistas que ya muchas veces no se pueden distinguir de vídeos creados por métodos tradicionales. Se han adelantado a Sora en cuanto a que ya está disponible para que lo usen los usuarios. La pega es que para registrarse pide un número de teléfono chino, por lo que de momento sólo está al alcance de los usuarios chinos. En el siguiente vídeo hablan de él y se pueden ver algunos ejemplos:

zzgus · « **Respuesta #83 en:** Junio 22, 2024, 07:11:08 pm »

Cita de: sirdrak en Junio 22, 2024, 12:04:16 pm

Realmente increíble, lo que me lleva a pensar dentro de nada, como se podrán admitir pruebas gráficas en por ejemplo juzgados y relacionados. No habrá manera de distinguir si es real o generado por IA !!!

Por cierto, mataría por un tutorial de como crear esta imagen que colgaste hace tiempo !!!

Saludos
Gus

sirdrak · « **Respuesta #84 en:** Julio 13, 2024, 01:22:03 pm »

Bueno, pues finalmente parece que Stability.ai ha decidido recular y dar marcha atrás con sus licencias y además ha anunciado que van a sacar una versión mejorada y corregida de SD3 medium que supuestamente solucionará todos sus problemas. No se yo si este movimiento llega tarde, porque la comunidad de usuarios ya ha girado la vista a otras alternativas opensource como Pixart Sigma, Lumina y otras, además de que se ha iniciado una iniciativa de colaboración entre miembros muy prestigiosos de la comunidad para desarrollar su propia alternativa opensource y moderna a SD3.

Y sin ir más lejos, además, ha aparecido un modelo opensource basado en la tecnología de SD3, entrenado a modo de aprendizaje por CloneofSimo, que es, ni más ni menos, que el usuario responsable de hacer que la teoría de funcionamiento de los LoRA se convirtiera en una realidad en SD y que la gente pudiera crear sus propios LoRas. Este nuevo modelo se llama AuraFlow y ya está su versión preliminar disponible a pesar de que continúa su entrenamiento y no está acabado, pero ya da resultados mejores que SD3 (y sin sus problemas).

Y ahora voy con otra novedad... Estos días estoy pasando unos días en el pueblo con mis padres y me he entretenido en preparar y entrenar un LoRa para Pony XL del estilo artístico de nada menos que Luis Royo, con resultados espectaculares (como podréis ver en las imágenes que pondré más abajo). Gracias a que Civitai desde hace un tiempo tiene un servicio online de entrenamiento, puedo hacerlo a pesar de que mi portátil no tenga suficiente VRAM para realizar el entrenamiento en local. El LoRa se puede descargar aquí:

https://civitai.com/models/572942/luis-royo-style-for-pony-xl

Y ahora algúnas imágenes de muestra (aviso que alguna puede ser subidilla de tono, las de ese tipo las pondré en spoiler):

Spoiler: mostrar

Además, este modelo es muy bueno para hacer imágenes de ciencia ficción o de fantasía heróica como Advanced Dungeon & Dragons, con dragones espectaculares, doncellas, hadas, reyes, etc...

sirdrak · « **Respuesta #85 en:** Agosto 07, 2024, 04:08:11 pm »

Semana de sorpresas inesperadas en el mundo de la IA generativa de imágenes, y relacionada con el culebrón de Stability.ai... Hace cuatro días, y cuando ya nadie esperaba nada y la comunidad estaba buscando alternativas a Stable Diffusion tras el enorme fracaso de SD3 medium, de la nada apareció una nueva empresa llamada Black Forest Labs (que se llama así porque está establecida en Alemania cerca de la Selva Negra) anunciando que su intención era crear modelos avanzados y competitivos con los de las grandes empresas y que pudieran ser usados por todo el mundo. La empresa estaba formada por nada menos que 14 ingenieros que desarrollaron no sólo Stable Diffusion en diferentes versiones sino que inventaron el concepto de 'difusión latente' gracias al cual existen todas las IAs generativas de imágenes. La mayoría de ellos trabajaban en Stability pero se acabaron yendo todos. La empresa se creó en secreto coordinada por Emad Mostaque, el Ex-CEO y cofundador de Stability al que expulsaron en Abril.

Y la gran sorpresa no fué solo esta sino la entrada por la puerta grande al publicar en paralelo su primer modelo, Flux.1, que por fin se trata de un modelo avanzado mejor que Dall-e 3 y Midjourney V6, que hace todo lo que SD3 prometia ser y no fué y que tiene unas características de calidad de imagen y entendimiento de los prompts que dejan con la boca abierta, a lo que hay que sumar que hace muy bien las manos incluso en posiciones y situaciones complicadas en un 90% de los casos y escribir texto complejo perfectamente. Hablamos del mayor modelo opensource de creación de imágenes publicado hasta la fecha, ya que tiene 12 billones americanos de parámetros (12000 millones), lo que viene a ser 6 veces más grande que SD XL. Lo malo de esto es que tiene unas exigencias elevadas de VRAM para funcionar, siendo necesarios 24 GB de VRAM para hacer funcionar el modelo 'tal cual' en fp16 (es decir, con una RTX 3090 o una RTX 4090). No obstante, es posible ejecutar el modelo en fp8 con apenas pérdida de calidad y también el LLM T5 que hace de 'text encoder', o que hace posible hacerlo funcionar en 12 GB de VRAM o incluso menos (a costa, eso sí, de tiempo mucho más largos para generar la imagen).

Para que no les ocurriese lo mismo que a Stability (no ser capaces de monetizar sus modelos y encontrar un modelo de negocio rentable sin al mismo tiempo darle la espalda a la comunidad opensource), la estrategia que ha seguido Black Forest Labs es sacar tres versiones del modelo:

- Flux-Dev: Es la versión 'normal' del modelo, la que más calidad da disponible al público, y que tiene una licencia de uso libre para uso no comercial (aunque las imágenes generadas se pueden usar como se quiera sin limitaciones), orientada a los investigadores y a los usuarios que quieran experimentar.

- Flux-Schnell: Es una versión orientada a generar las imágenes en pocos pasos (de 4 a

, al estilo de SD XL Turbo o Lightning, con algo menos de calidad que Dev pero superando aún así a Midjourney y Dall-E 3. En este caso, la licencia es Apache 2.0, lo que quiere decir que es una licencia opensource 100% sin ninguna restricción para su uso tanto comercial como no comercial.

- Flux-Pro: Es la mejor versión y a partir de la cual se han obtenido las otras dos. En este caso no estará disponible para los usuarios, pues su objetivo es ofrecerla únicamente a través de su API como servicio online de pago.

La aparición de Flux ha puesto patas arriba a la comunidad, que se ha volcado totalmente con él gracias a su buenísima calidad, y al mismo tiempo ha puesto aún más presión a Stability.ai, que ahora están en el proceso de 'corregir' el desastre de SD3 medium entrenando una versión 3.1 sin ninguno de los múltiples problemas de la anterior, y de dar marcha atrás como anunciaron a sus polémicas licencias. De momento Flux sólo es compatible con ComfyUI pero ya se está trabajando en añadirle soporte en A1111 e incluso Forge.

Los modelos se pueden probar online aquí:

Flux-Dev: https://replicate.com/black-forest-labs/flux-dev
Flux-Schnell: https://replicate.com/black-forest-labs/flux-schnell

Y se pueden descargar para su uso local aquí: https://huggingface.co/black-forest-labs

empardopo · « **Respuesta #86 en:** Agosto 07, 2024, 09:39:27 pm »

Sencillamente brutal @sirdrak!! Gracias por compartir todas esas imágenes!!!

sirdrak · « **Respuesta #87 en:** Agosto 08, 2024, 01:39:45 am »

He estado haciendo pruebas con imágenes 'cotidianas' y los resultados son flipantes, cuelan totalmente por fotos reales... He probado a hacer imágenes como si fueran de una cámara de vigilancia chunga en plena noche, y fotos cotidianas de gente caminando por la calle y es brutal... Y la comida... Y además es capaz de hacer 'screenshots' de videojuegos (sobre todo modernos), ya que parece que conoce bastantes. Voy a poner aquí ejemplos variados 'de mi cosecha':

Para las capturas de videojuegos lo único que puse fué 'A 'nombre del juego' screenshot', pero si le escribes un prompt muy detallado puede hacer imágenes que parezcan el juego real. También genera capturas de juegos ficticios igual de bien. Además, se le puede escribir en Español y se le pueden escribir prompts muy muy largos.

empardopo · « **Respuesta #88 en:** Agosto 08, 2024, 07:02:33 pm »

Esto es una pasada... @sirdrak, esto lo haces en tu ordenador o se puede hacer de forma gratuita en la nube? Te lo comento porque yo no tengo gráfica potente; sólo dispongo de una 1060.

sirdrak · « **Respuesta #89 en:** Agosto 10, 2024, 12:12:57 pm »

Cita de: empardopo en Agosto 08, 2024, 07:02:33 pm

Esto es una pasada... @sirdrak, esto lo haces en tu ordenador o se puede hacer de forma gratuita en la nube? Te lo comento porque yo no tengo gráfica potente; sólo dispongo de una 1060.

De forma local en mi ordenador... Cuanto más pruebas hago más impresionante me parece... No obstante, se puede usar en algunos servicios online. Mi recomendación es que uses el siguiente: https://tensor.art

Además de poder usar Flux tanto en su versión Dev como en su versión Schnell, puedes usar miles de modelos de Stable Diffusion con funciones avanzadas como ControlNET y usar LoRas... Aunque tienen planes de pago, con el registro gratuíto te permiten hacer 100 imagenes gratis diarias, lo que está muy muy bien.

Salón Recreativo #57 (28-09-2024 / 26-10-2024)	Autor: Zael	Foro: Salón Recreativo FaseBonus	29/10/2024 (00:20)
Van dos y se cae el del medio - Hilo de cachondeo general	Autor: empardopo	Foro: Offtopic	28/10/2024 (07:21)
Están muy callados los culerdos, no?	Autor: daninuyusio	Foro: Offtopic	28/10/2024 (02:02)
¿A qué estáis jugando ahora mismo?	Autor: joselopez	Foro: Offtopic	28/10/2024 (01:07)
[Recomendacion] Series y películas anime	Autor: Zael	Foro: Offtopic	26/10/2024 (21:06)
Ofertas Amazon	Autor: empardopo	Foro: Offtopic	24/10/2024 (07:22)
ArcadeSpain forever!	Autor: empardopo	Foro: Noticias	23/10/2024 (07:22)
[Recomendación] Cine para los findes en casa (bueno, bonito y barato)	Autor: arquillos	Foro: Offtopic	22/10/2024 (22:34)
Hello.app 100Gb free	Autor: arquillos	Foro: Offtopic	20/10/2024 (11:13)
[Tutorial] Vectrex en la recre	Autor: Zael	Foro: Emuladores	19/10/2024 (12:24)
Chollos para todos!!!!	Autor: Zael	Foro: Links interesantes	19/10/2024 (12:23)
La revolución que suponen las IA generativas de imágenes a partir de texto	Autor: sirdrak	Foro: Offtopic	14/10/2024 (12:05)
[ZX Spectrum] The Blond	Autor: jmpuk	Foro: Recomendaciones de juegos	12/10/2024 (15:23)
El Aventurero Feliz	Autor: treme	Foro: Offtopic	09/10/2024 (22:08)
¿Cerramos el foro Arcadespain? - ¿Cambios?	Autor: empardopo	Foro: Noticias	09/10/2024 (07:30)
Reto 323 - Plotting	Autor: Zael	Foro: Competiciones y concursos	06/10/2024 (22:58)
[ZX Spectrum] La daga Oscura	Autor: empardopo	Foro: Recomendaciones de juegos	05/10/2024 (10:53)

Arcadespain

Autor Tema: La revolución que suponen las IA generativas de imágenes a partir de texto (Leído 9386 veces)

empardopo

Re: La revolución que suponen las IA generativas de imágenes a partir de texto

sirdrak

Re: La revolución que suponen las IA generativas de imágenes a partir de texto

sirdrak

Re: La revolución que suponen las IA generativas de imágenes a partir de texto

Zael

Re: La revolución que suponen las IA generativas de imágenes a partir de texto

sirdrak

Re: La revolución que suponen las IA generativas de imágenes a partir de texto

sirdrak

Re: La revolución que suponen las IA generativas de imágenes a partir de texto

zzgus

Re: La revolución que suponen las IA generativas de imágenes a partir de texto

sirdrak

Re: La revolución que suponen las IA generativas de imágenes a partir de texto

zzgus

Re: La revolución que suponen las IA generativas de imágenes a partir de texto

sirdrak

Re: La revolución que suponen las IA generativas de imágenes a partir de texto

sirdrak

Re: La revolución que suponen las IA generativas de imágenes a partir de texto

empardopo

Re: La revolución que suponen las IA generativas de imágenes a partir de texto

sirdrak

Re: La revolución que suponen las IA generativas de imágenes a partir de texto

empardopo

Re: La revolución que suponen las IA generativas de imágenes a partir de texto

sirdrak

Re: La revolución que suponen las IA generativas de imágenes a partir de texto

Temas recientes