@sirdrak, ¿alguna novedad?
Oye, para intentar hacer alguna cosita con generación de fotos pero en local (3060 con 12GB), algún sitio por donde empezar a fecha de hoy?
En realidad sí que hay un montón de novedades, es un no parar xD Voy a hacer un resumen rápido así de lo más notorio (como no actualizo desde febrero y he estado liado con otras cosas estos meses voy a intentar ser lo más breve posible):
- En la última actualización comentaba que había llagado un modelo chino de vídeo sin censura que estaba arrasando llamado Hunyuan Video... Pues bién, poco después llegó otro de la mano de Alibaba llamado Wan Video 2.1 que es aún mejor. con algo más de censura pero muy pocoa, solventado todo gracias a los LoRas... El punto fuerte de este es que apareció con versiones t2v (texto a video), i2v (de imagen a vídeo, su punto fuerte) y una versión pequeña t2v de 1'3B (las otras son 14B). A día de hoy en el modo i2v sigue siendo el ganador y el que mejores movimientos saca en los vídeos, aunque su mayor pega es que tarda bastante en generar los vídeos sin optimizaciones.
- Hunyuan Video sacó más tarde una versión i2v pero no estaba a la altura de Wan, aunque sigue siendo mejor en t2v y el menos censurado.
- Después aparecieron varias versiones 'especiales' de Wan (también de Hunyuan, pero las ganadoras son las de Wan) que permiten generar vídeos empleando varias imágenes y vídeos de referencia de forma espectacular. Se trata de Wan VACE, y básicamente lo que permite es que le des por ejemplo la imagen de una persona, un luegar y un objeto y genere un vídeo de dicha persona en el lugar y con el objeto concreto. Así mismo, le puedes dar un vídeo para guiar el movimiento con resultados espectaculares. Las posibilidades de esto son brutales... Por ejemplo, he visto uno que primero generó una imagen de una especie de agente secreto a James Bond con gafas de sol en la puerta de un helicóptero con su traje y un paracaídas a punto de saltar, y luego, con dicha imagen y un vídeo de él mismo en su cocina con una mochila puesta imitando el movimiento de salto, genera un vídeo con Wan VACE del agente secreto saltando del helicóptero igual que si fuera una película...
- En esto que llega Illyasviel, el genio responsable de Forge y de ControlNET, e idea una forma de generar vídeos que permite su uso con menos recursos y generar vídeos de hasta 2 minutos, a la que llamó Framepack. Framepack en realidad usa como base Hunyuan Video lo que tiene como ventaja adicional de que funcionan todos sus LoRas... Se usa en modo i2v y funciona incluso con gráficas con tan sólo 6 GB de VRAM, y además tiene una interfaz sencilla accesible para todo el mundo y fácil de instalar, por lo que no es necesario usar ComfyUI. Es una verdadera revolución y consigue vídeos de bastante buena calidad.
- Siguen saliendo nuevas utilidades interesantes... Tencent saca Hunyuan Video Avatar, que permite crear un vídeo a partir de una imagen y un archivo de audio sincronizando los movimientos y los labios de la persona/personaje de la imagen con el audio.
- Aparece una interfaz con Gradio (es decir, usando el navegador como interfaz, como Automatic1111, Forge o Framepack) llamada Wan2GP orientada a hacer sencilla la generación de vídeos con todas estas plataformas (Wan, Wan VACE, Hunyuan Video, Hunyuan Video Avatar, LTX Video, etc...) y además en máquinas de pocos recursos, muy recomendada para quienes no les guste usar ComfyUI y su complejidad.
Estas, digamos, son las más destacadas, aunque novedades hay muchísimas y no paran de salir... Otra cosa MUY destacada es que aparece un LoRa especial llamado Causvid que lo que hace es acelerar mucho la generación de los vídeos, básicamente haciendo que un mismo vídeo que hantes necesitabas generar en 25 pasos lo generes en 6-8 pasos, multiplicando su velocidad x3 o más... Por ejemplo, de esta forma, vídeos que sin optimizaciones a mí con mi RTX 3090 me tardaban 30 minutos, he pasado a hacerlos en 5 minutos... La pega es que parecía afectar a la calidad de los movimientos, pero se encontraron formas de evitar dicho problema.
Jolín compi me dejas babeando y al mismo tiempo con cara de poker, jajajajaja!
¿Por dónde me recomendarías empezar? Me gustaría poder instalar algo para intentar crear imágenes y videos?
El asunto es que lo más complejo de esto de la IA generativa es el instalar las cosas necesarias ya que es algo pensado por desarrolladores para ellos mismos y no tanto en usuarios comunes... Sin embargo, siguiendo una serie de pasos no es complicado... Se puede empezar optando por las interfaces más sencillas y accesibles, que ya permiten hacer muchas cosas. Generalmente, antes de hacer nada hay que instalar estas cosas básicas:
- El lenguaje de programación Python: Recomiendan instalar la versión 3.10.11 pero vale cualquiera superior a la 3.10.6 e inferior a la 3.12. Su instalación es sencilla pues es bajar un instalador, y sin tocar las opciones (o sea dejándolas por defecto) darle a todas a siguiente hasta que finalice la instalación. Lo único a tener en cuenta es que sí que es muy importante marcar una casilla que aparece en una esquina que pone Add to PATH (esto permite que puedas invocar en programa que sea -python en nuestro caso- desde cualquier sitio en una ventana de comandos).
- Git: Este se instala igual que el anterior y es básicamente un gestor de paquetes que se encarga de descargar las cosas que necesitan los programas desde los distintos repositorios.
- Las librerías CUDA de nVidia. Se puede tener varias versiones diferentes instaladas, pero teniendo las 12.6 o las 12.8 ya valdría. Como lo anterior, la instalación es similar.
Esto es lo básico, pero también es recomendable tener instaladas estas otras cosas que algunos programas te pediran:
- Visual Studio C++ en sus versiones 2019 y 2022
- ffmpeg, y tenerlo añadido al 'PATH' (se debe hacer 'a mano' pero es sencillo, es añadir la ruta del ejecutable a la lista de Variables de Entorno para que pueda ser invocado desde cualquier sitio en una ventana de comandos)
- Las librerías cuDNN de nVidia, similares a las CUDA y se instalan igual.
Como ves son muchas cosas y puede parecer complejo al principio... Sin embargo, algunos desarrolladores han intentado facilitar todo esto recurriendo a un 'entorno virtual' dentro de la carpeta de instalación de su programa, o lo que es lo mismo: El instalador de su programa ya te crea dentro de la carpeta de instalación una carpeta con su propia instalación de Python, las librerías CUDA, etc... ya configurados para que el usuario no tenga que hacer nada. No obstante, a pesar de ello, es necesario todavía tener al menos Python y Git instalados para que el instalador pueda descargar las cosas de los repositorios y tal.
En este sentido, por fortuna, una de las prinicpales aplicaciones para generar imágenes se instala de esta forma, concretamente Forge, del que basta con descargar un instalador dentro de una carpeta donde tu quieras y ejecutarlo para que ya lo deje todo listo y tú sólo tengas que preocuparte de buscar los modelos que te interesen y los LoRas y meterlos en sus carpetas correspondientes. Forge lo puedes descargar desde su Github (lee bien las instrucciones antes de empezar):
https://github.com/lllyasviel/stable-diffusion-webui-forgeEn lo que refiere a generar vídeo, hasta hace bien poco la única opción era usar ComfyUI, que es muy complejo para el usuario novel y que tiende a dar problemas cuando se instalan nodos 'custom' personalizados por los usuarios, algo que muchas veces es necesario usar, pudiendo hacer que tengas que reinstalar ComfyUI en algunos casos. Sin embargo, del mismo creador de Forge, llegó Framepack, que mencioné antes cuando hablé de las novedades. Ese tiene una interfaz muy sencilla y básica pero que va al grano y se instala igual que Forge. Y después salieron algunos 'forks' con multitud de opciones extra muy útiles, como la posibilidad de usar LoRas de Hunyuan Video, generar vídeos sin partir de una imagen, etc..
Pero el gran descubrimiento (de esta misma semana) para mí ha sido Wan2GP. Se trata de una aplicación como estas pero orientada a poder usar todas las IA actuales opensource generadoras de video con todas sus opciones (Wan 2.1, Wan VACE, Hunyuan Video, Hunyuan Video Avatar, LTX Video, etc...) que además se actualiza muy frecuentemente con todas las novedades que van llegando, y además optimizada para equipos menos potentes... Hasta ella misma se baja los modelos sola sin que los tengas que buscar tú. Visitando el github de su creador, vemos que la instalación a priori parece compleja, pero allí mismo el propio creador recomienda usar un instralador 1-click que tiene en Pinokio y que automatiza todo... Y aquí viene lo interesante: Qué es Pinokio te preguntarás? Pues resulta que es una especie de front-end que se encarga de instalar absolutamente todo lo necesario para cada aplicación de IA de forma automática sin salir de él y sin tener tú nada instalado previamente. Simplemente abres Pinokio y buscas en la lista el programa que te interese, en este caso Wan2GP, pero también está Framepack, Framepack Studio, Forge y todo tipo de otras IAs como LLMs etc... Quizás esta sea la opción más sencilla de todas, porque el propio Pinokio te hace un 'scan' del sistema para ver qué cosas hacen falta instalar y las instala él de forma automática en un entorno virtual como los emncionados antes, y lo mismo con cada programa. Lo puedes descargar desde su web aquí:
https://pinokio-home.netlify.app/Además en esa misma web puedes ver que ya están listados los distintos programas mencionados... Para instalar alguno es tan sencillo como tener abierto Pinokio y pulsar en la web de Pinokio sobre el icono del programa que sea (por ejemplo, el que pone Wan 2.1 para instalar Wan2GP)