¡Pregunte, nosotros le respondemos!

Aplicaciones y Guías

Modelos de Stable Diffusion: personalización y opciones

El tuning es una forma excelente de mejorar cualquier coche o aparato. Las redes neuronales generativas también se pueden tunear. Hoy no queremos profundizar en la estructura de la Difusión Estable, pero pretendemos conseguir mejores resultados que con una configuración estándar.

Hay dos formas sencillas de hacerlo: instalando modelos personalizados y utilizando las opciones de optimización estándar. En este artículo, aprenderemos cómo instalar nuevos modelos en Stable Diffusion y qué opciones nos permiten utilizar el hardware de forma más eficaz.

Si quieres compartir fotos divertidas de gatos monos o comida de aspecto estupendo, lo normal es que las publiques en Instagram. Si desarrollas aplicaciones y quieres poner el código a disposición de todo el mundo, lo publicas en GitHub. Pero si entrenas un modelo gráfico de IA y quieres compartirlo, deberías prestar atención a CivitAI. Se trata de una gran plataforma para compartir conocimientos y resultados con los miembros de la comunidad.

Antes de empezar a descargar, necesitas cambiar el directorio de trabajo. Todos los modelos de IA en Stable Diffusion están ubicados en el directorio "models":Antes de empezar a descargar, necesitas cambiar el directorio de trabajo. Todos los modelos de IA de Stable Diffusion se encuentran en el directorio "models":

cd stable-diffusion-webui/models/Stable-diffusion

Comprobemos qué modelos se proporcionan por defecto:

ls -a
'Put Stable Diffusion checkpoints here.txt'
v1-5-pruned-emaonly.safetensors

Sólo hay un modelo con el nombre "v1-5-pruned-emaonly" y la extensión "safetensors". Este modelo es un buen punto de partida, pero tenemos cinco modelos más interesantes. Vamos a descargarlos y compararlos con el modelo estándar.

Avisos de difusión estable

Para mostrar visualmente la diferencia entre ellos, hemos ideado unas sencillas indicaciones:

princess, magic, fairy tales, portrait, 85mm, colorful

Para muchos modelos, representar con precisión la geometría y los rasgos faciales puede ser un reto importante. Para ello, añada indicaciones negativas que garanticen la generación de imágenes sin estas características:

poorly rendered face, poorly drawn face, poor facial details, poorly drawn hands, poorly rendered hands, low resolution, bad composition, mutated body parts, blurry image, disfigured, oversaturated, bad anatomy, deformed body features

Ajuste el valor máximo de pasos de muestreo (150) para obtener más detalles en el resultado.

Modelo estándar

El modelo estándar funciona bien en este tipo de tareas. Sin embargo, algunos detalles no son del todo precisos. Por ejemplo, hay un problema con los ojos: están claramente desproporcionados:

Stable Diffusion Models standard

Si nos fijamos en la diadema, también está torcida y es asimétrica. El resto de los detalles están bien ejecutados y corresponden a las indicaciones dadas. El fondo está borroso porque hemos puesto la indicación "85 mm". Se trata de una distancia focal muy utilizada para retratos en fotografía profesional.

Visión realista

Este modelo es ideal para retratos. La imagen parece tomada con un objetivo de calidad con la distancia focal especificada. Las proporciones del rostro y el cuerpo son exactas, el vestido se ajusta perfectamente y la diadema de la cabeza resulta estéticamente agradable:

Stable Diffusion Models Realistic Vision

Por cierto, el autor recomienda utilizar la siguiente plantilla para las indicaciones negativas:

deformed iris, deformed pupils, semi-realistic, cgi, 3d, render, sketch, cartoon, drawing, anime:1.4), text, close up, cropped, out of frame, worst quality, low quality, jpeg artifacts, ugly, duplicate, morbid, mutilated, extra fingers, mutated hands, poorly drawn hands, poorly drawn face, mutation, deformed, blurry, dehydrated, bad anatomy, bad proportions, extra limbs, cloned face, disfigured, gross proportions, malformed limbs, missing arms, missing legs, extra arms, extra legs, fused fingers, too many fingers, long neck

Pero incluso con nuestras sencillas indicaciones, el resultado es excelente.

Descargue el modelo aquí: Visión realista

Deliberado

Otro modelo sorprendente para estos fines. Los detalles también están bien trabajados aquí, pero ten cuidado y vigila el número de dedos. Este es un problema muy común con las redes neuronales: a menudo pueden dibujar dedos de más o incluso extremidades enteras.

Stable Diffusion Models Deliberate

Crear líneas visuales es una de las técnicas favoritas de las películas. Así, este modelo también eligió dibujar a una persona sobre el fondo de un camino forestal.

Descargue el modelo aquí: Deliberate

OpenJourney

Entre las redes neuronales generativas, Midjourney (MJ) ha recibido especial atención. MJ fue pionera en este campo y a menudo se pone como ejemplo para otras. Las imágenes que crea tienen un estilo único. OpenJourney se inspira en el estilo de MJ y es una Stable Diffusion convenientemente ajustada.

Stable Diffusion Models OpenJourney

Genera imágenes que parecen dibujos animados. Son vibrantes y brillantes. Para obtener mejores resultados, añada el indicador de estilo mdjrny-v4

Descarga el modelo aquí: OpenJourney

Cualquier cosa

Este modelo crea imágenes parecidas a las de un dibujante profesional de manga (una persona que dibuja cómics). Así, tenemos una princesa de estilo anime.

Stable Diffusion Models Anything

Este modelo está entrenado en imágenes con una resolución de 768x768. Puede ajustar esta resolución para obtener mejores resultados que el estándar 512x512.

Descarga el modelo aquí: Cualquier cosa

Memphis corporativo

Este estilo de imágenes ganó gran popularidad a principios de la década de 2020 y se utilizó ampliamente como estilo corporativo en diferentes empresas de alta tecnología. A pesar de las críticas, se encuentra a menudo en presentaciones y sitios web.

Stable Diffusion Models Corporate Memphis

La princesa resultó ser minimalista, pero bastante bonita. Especialmente divertidos fueron los detalles que la modelo colocó en el fondo.

Descargue el modelo aquí: Corporate Memphis

Opciones de difusión estable

La difusión estable consume muchos recursos, por lo que se han desarrollado muchas opciones para ella. La más popular de ellas es --xformers. Esta opción habilita dos mecanismos de optimización. El primero reduce el consumo de memoria y el segundo se utiliza para aumentar la velocidad.

Si intentas añadir --xformers sin pasos adicionales, obtendrás un error diciendo que los paquetes(torch y torchvision) están compilados para diferentes versiones de CUDA®. Para solucionar esto, tenemos que entrar en el entorno virtual Python (venv) que se utiliza para Stable Diffusion. Después de eso, instalar los paquetes para la versión deseada de CUDA® (v1.18).

Primero debemos actualizar la caché de paquetes apt e instalar el instalador de paquetes para Python (pip). El siguiente paso es activar Python venv con el script activate:

source stable-diffusion-webui/venv/bin/activate

Después de eso, la línea de comandos cambia a (venv) username@hostname:~$ Vamos a instalar los paquetes torch y torchvision con CUDA® 11.8:

pip install torch==2.0.0+cu118 torchvision==0.15.1+cu118 --index-url https://download.pytorch.org/whl/cu118

Este proceso puede tardar varios minutos porque los paquetes son bastante grandes. Tendrás el tiempo justo para servirte un café. Por último, puedes desactivar el entorno virtual e iniciar Stable Diffusion con la opción --xformers (sustituye [user] y [password] por tus propios valores):

deactivate
./webui --xformers --listen --gradio-auth [user]:[password]

La alternativa más rápida para --xformers es --opt-sdp-no-mem-attention. Consume más memoria pero funciona un poco más rápido. Puede utilizar esta opción sin pasos adicionales.

Conclusión

Hoy hemos examinado las capacidades de la Difusión Estable cuando se combina con otros modelos añadidos y opciones de optimización. Recuerde, aumentando o disminuyendo el número de pasos de muestreo, puede ajustar el nivel de detalle de la imagen final.

Por supuesto, esto es sólo una pequeña parte de lo que se puede hacer con una red neuronal generativa de este tipo. Así que pide ahora mismo un servidor GPU y empieza a experimentar. Te esperan muchos más descubrimientos y oportunidades. Las tarjetas de vídeo potentes y de alta velocidad te ayudarán a ahorrar tiempo y a generar imágenes geniales.

Véase también:



Actualizado: 28.03.2025

Publicado: 25.11.2024