Acceso
Iniciar sesión

Galería de mapas mentales Difusión estable

Difusión estable

Explicación detallada de Stable Diffusion, presentando la instalación e implementación de modelo/lora/VAE/complementos/incrustaciones, los parámetros de interfaz y el uso básico de los diagramas de Vincent.

Editado a las 2024-04-08 21:25:40,

e7qw4qya@bccto.cc

Trabajos recientes Ver más trabajos>>

Breve historia del tiempo
Este es un mapa mental sobre una breve historia del tiempo. "Una breve historia del tiempo" es una obra de divulgación científica con una influencia de gran alcance. No sólo presenta los conceptos básicos de cosmología y relatividad, sino que también analiza los agujeros negros y la expansión. del universo. temas científicos de vanguardia como la inflación y la teoría de cuerdas.
¿Cuáles son los métodos de fijación de precios para los subcontratos de proyectos bajo el modelo de contratación general EPC
¿Cuáles son los métodos de fijación de precios para los subcontratos de proyectos bajo el modelo de contratación general EPC? EPC (Ingeniería, Adquisiciones, Construcción) significa que el contratista general es responsable de todo el proceso de diseño, adquisición, construcción e instalación del proyecto, y es responsable de los servicios de operación de prueba.
Puntos de conocimiento que los ingenieros de Java deben dominar en cada etapa
Los puntos de conocimiento que los ingenieros de Java deben dominar en cada etapa se presentan en detalle y el conocimiento es completo, espero que pueda ser útil para todos.

Difusión estable

e7qw4qya@bccto.cc

Trabajos recientes Ver más trabajos>>

Recomendados
Resumen

Árbol de conocimiento de big data
e7qw4qya@bccto.cc
El mundo 5000 días después Kevin Kelly
e7qw4qya@bccto.cc
Conocimientos teóricos del aprendizaje profundo.
e7qw4qya@bccto.cc
Conceptos básicos de la inteligencia artificial
- 1
e7qw4qya@bccto.cc
[Obras comunitarias] AI Healthcare aplicación y futuro de la atención sanitaria inteligente
e7qw4qya@bccto.cc
modelo grande de IA
e7qw4qya@bccto.cc
Servicio inteligente
e7qw4qya@bccto.cc
Cómo funcionan las neuronas cerebrales
- 1
e7qw4qya@bccto.cc
guía de uso de chatgpt
e7qw4qya@bccto.cc
La IA puede afectar esas ocupaciones humanas
e7qw4qya@bccto.cc

Difusión estable

1. Instalación e implementación de modelo/lora/VAE/plug-in/integraciones

Tres formas de instalar extensiones

1. Vaya a la página de extensiones, haga clic en Disponible para cargar la lista de extensiones, recuerde desmarcar [Incluir publicidad, paquete de idioma, instalado] para ver la lista de complementos.

Aquí tomamos como ejemplo la instalación del editor 3D Openpose. Dado que hay demasiados complementos, podemos usar la función de búsqueda web Ctrl F e ingresar openpose para buscar rápidamente los complementos correspondientes y luego hacer clic en Instalar más tarde. .

2. Busque la URL del complemento. Cada uno es diferente. Instálelo desde la URL y copie el enlace para instalar.

Este método requiere conocer la dirección de github del complemento.

Se recomiendan los dos métodos de instalación anteriores. Debe activar la magia para instalar correctamente. Sin embargo, es inestable y puede provocar errores de instalación e intentos fallidos.

La ventaja es que puede actualizar el complemento directamente desde Extension-Check for Updates

También puedes actualizar directamente desde Autumn Leaves Launcher

3. Si los métodos anteriores fallan o el complemento no se muestra, instálelo manualmente en la ruta del complemento. Tomemos como ejemplo la instalación del complemento Controlnet. Abra la URL de GitHub donde se encuentra el complemento Contrglnet. en se encuentra: https://qithub.com/lllyasviel/ControlNet-v1- 1-nightly

Después de la descarga, descomprímalo y colóquelo en la carpeta de extensión ovelai-webui\extensions para reiniciar webUI y verá que el complemento está instalado.

Desventaja: después de la actualización, debe colocar manualmente la carpeta actualizada en el directorio del complemento y el paquete Akiye se actualizará automáticamente.

Después de instalar el complemento, debe volver a cargar weib ui. Si no se muestra, intente apagar el iniciador y volver a ingresarlo.

Asociaciones entre modelos grandes, lora, VAE, complementos e incrustaciones

Modelo grande: placas, muchos tipos.

difusión estable\modelos\difusión estable

También llamado modelo inferior y modelo principal. El modelo que tiene mayor impacto en el rendimiento.

Persona real/producto/bidimensional

El volumen es relativamente grande, generalmente varios G.

Lora: comida rica

difusión estable\modelos\Lora

En pocas palabras, al montar Lora, puedes especificar las características del personaje o estilo que se generará.

Hanfu/estilo tinta/tres vistas/caja ciega

El volumen es de aproximadamente 100M

vae: condimento para hacer la comida deliciosa

difusión estable\modelos|VAE

VAE puede entenderse simplemente como un perfil de color o un filtro de imagen. Sin VAE, la imagen será gris.

Hoy en día, muchos modelos grandes tienen VAE incorporado. Algunos de ellos no lo tienen y deben usarse comúnmente. El valor predeterminado generalmente no se modifica.

Complemento: Palillos, tenedores, comamos mejor

difusión estable\extensiones

Como el complemento de traducción y ControlNet

incrustaciones: paquetes de cocina ya preparados

difusión estable\incrustaciones

De hecho, significa empaquetado rápido de palabras, que a menudo se usa para evitar el colapso de la estructura del cuerpo humano, el estilo de pintura, la estructura espacial, etc. Si no hay incrustación, si desea evitar el colapso del estilo de pintura, es posible que deba decir docenas de palabras clave, pero ahora con una buena incrustación, solo necesita ingresar una palabra rápida para generar una buena imagen.

URL del modelo

Necesito magia

Sitio web oficial del modelo C: https://civitai.com/

Abrazando la cara: ttps://huggingface.co/models?other=stable-diffusion

No se requiere magia

LibuLibuai: http://www.liblibai.com/#/

Pabellón de Alquimia: http://www.liandange.com/models

Autumn Leaf Launcher, sin imagen de vista previa, no muy realista

2. Parámetros de interfaz y uso básico del diagrama de Vincent

Parámetros de interfaz

Selección de modelo grande: Seleccione el modelo (modelo base) a utilizar. Este es el factor que tiene mayor impacto en los resultados generados, reflejado principalmente en el estilo de la imagen.

Vae: entendido simplemente como un filtro, el valor predeterminado es 84000

Ajuste el número de capas: cuanto menor sea el valor de la capa del clip, más cerca estará la descripción del descriptor. Cuanto más grande sea el clip, mayor será el grado de libertad. El valor predeterminado es 2, no es necesario cambiarlo.

Entrada rápida de palabras

palabras clave positivas

Categoría de calidad de imagen: obra maestra, mejor calidad, alta resolución, muy detallada, Obra maestra, mejor calidad, alta definición, alto detalle.

Asunto: una niña, un niño, un perro, una casa.

Atributos: cabello largo y rubio, ojos azules, gorda, delgada, aretes, usar cazadora, usar falda, estilo moderno, barroco, estilo chino

Fondo: hospital, escuela, apartamento, calle, fondo transparente, fondo degradado

Estilo de pintura: estilo realista, estilo de ilustración, monocromo, cómic, retro. Tomas: retrato de cuerpo entero, retrato de media vida, espejo para selfies, rostro frontal, mirando al público, frente a la cámara.

Otros: invierno, nieve, lluvia, colores cálidos, colores verde-naranja

palabra invertida

Si no lo ingresa, la calidad del resultado no será alta y el estilo de pintura colapsará fácilmente. Puede configurarlo como una plantilla fija.

NSFW, desnudo, desnudo, porno, (peor calidad, baja calidad: 1.4), deformiris, pupilas deformadas, (deformadas, distorsionadas, desfiguradas: 1.3), recortada fuera del marco, mal dibujada, mala anatomía, anatomía incorrecta, extremidad extra, falta extremidad, extremidades flotantes, cara clonada (manos y dedos mutados: 1.4), extremidades desconectadas, piernas adicionales, dedos fusionados, demasiados dedos, cuello largo, mutación, mutado, feo, repugnante, amputación, borroso, artefactos jpeg, marca de agua, marca de agua, texto, firma, boceto,

NSFW, desnudez, desnudez, pornografía, (peor calidad, baja calidad: 1.4), iris distorsionados, pupilas distorsionadas, (deformadas, distorsionadas, desfiguradas: 1.3), recortadas, fuera de marco, mal dibujadas, mala interpretación, anatomía incorrecta de extremidades adicionales , extremidades faltantes, extremidades flotantes, caras clonadas (manos y dedos mutados: 1.4), extremidades rotas, piernas extra, dedos fusionados, demasiados dedos, cuellos largos, mutaciones, mutación fea y repugnante, desenfoque de amputación, artefactos jpeg, marca de agua, texto de marca de agua, firma , bosquejo

Cómo guardar plantillas

Guardar la palabra emergente actual como estilo predeterminado

Tiempos de muestreo

Difusión estable se traduce al chino: difusión estable. El principio es que gradualmente agrega ruido a la imagen de entrenamiento y finalmente se convierte en una imagen de ruido completamente aleatoria. Este proceso es como una gota de tinta que se deja caer en un vaso de agua. Se esparcirá lentamente y eventualmente se distribuirá uniformemente en el agua. De ahí el nombre de difusión.

Cuanto mayor sea el número de pasos de iteración de muestreo, mejor será la imagen, pero mayor será el tiempo de cálculo. Sin requisitos especiales, en general, la implementación de muestreo solo debe mantenerse entre 20 y 30 (el valor predeterminado es 20). No hay ningún cambio especial por encima de 30.

Método de muestreo

Sabemos que la difusión estable es un método para generar imágenes basado en el modelo de difusión. Su proceso consiste en utilizar una imagen llena de ruido como referencia para difundirla gradualmente más cerca del objetivo (rápido). Este es el trabajo del lugar del muestreador de difusión. En pocas palabras, estos muestreadores son un algoritmo que después de cada paso compara la imagen generada con la imagen solicitada por el mensaje de texto y luego agrega algunos cambios al ruido hasta que gradualmente alcanza una imagen que coincide con la imagen de descripción del texto.

Existen muchos métodos de muestreo que determinan la calidad de la imagen, pero actualmente solo hay unos pocos recomendados que se utilizan comúnmente.

Euler a

El método de muestreo más rápido, el muestreador más directo, sencillo y estable.

Los requisitos para el número de pasos de muestreo son muy bajos. Al mismo tiempo, a medida que aumenta el número de pasos de muestreo, los detalles no aumentarán. La composición cambiará repentinamente cuando el número de pasos de muestreo aumente a un cierto número. No lo utilice en escenarios de alto paso.

Escenas adecuadas: imágenes bidimensionales, escenas pequeñas.

DPM 2S en Karras

Puede equilibrar la velocidad con la calidad y producir imágenes más precisas y sus detalles.

Dos dimensiones

DPM SDE Karras

No está mal en comparación con 2s. En resumen, la característica principal es que, en comparación con Euler a, habrá más detalles con la misma resolución. Por ejemplo, todo el cuerpo se puede incluir en una imagen pequeña, pero la velocidad de muestreo es más lenta.

Estilo realista, retratos, escenas complejas.

DDIM

Rara vez se usa. Es rápido para producir imágenes y puede generar rápidamente imágenes de alta calidad. Sin embargo, si desea probar una cantidad muy grande de pasos, puede usarlo a medida que aumenta la cantidad de pasos. .

Escenas adecuadas: retratos realistas, escenas complejas.

Restauración facial (generalmente más eficaz para retratos realistas, el 2D es casi inútil)

Mapa de mosaicos (usado para generar textura de patrón)

Restauración de alta resolución

En términos sencillos, significa ampliar la imagen volviéndola a dibujar y agregar algunos detalles mientras la amplía.

Algoritmo de amplificación: solo use el valor predeterminado, Latente, para personas reales: R-ESRGAN 4x, para uso bidimensional: R-ESRGAN 4x Anime6B

Amplitud de redibujado: el impacto de diferentes valores de amplitud de redibujado (normalmente 0,4-0,7 es más adecuado)

Configuraciones de ancho y alto

La mayoría de los modelos están entrenados con una resolución de 512 * 512 y algunos están entrenados con 768 * 768. Por lo tanto, cuando el tamaño de salida es relativamente grande, como 1024 * 1024, la IA intentará incluir dos o tres imágenes en la imagen. la cantidad de contenido en la imagen, habrá varios empalmes de extremidades, varias personas que no están controladas por las entradas, múltiples ángulos, etc. Agregar entradas puede aliviar parcialmente el problema, pero lo más importante es controlar el marco. Primero calcule las imágenes pequeñas y medianas y luego amplíelas para obtener la imagen grande.

Lo más importante es que la generación de imágenes es demasiado grande, el cálculo es lento y es fácil consumir la memoria de video (se recomienda generar imágenes basadas en 512 o 768)

Si tiene una imagen de referencia específica, póngala en PS y modifique el tamaño proporcional r para que los valores de alto y ancho se mantengan entre 512 y 768 píxeles, y el otro tamaño puede ser arbitrario. Si desea un tamaño mayor, utilice la función de restauración HD

Imagen cuadrada 512*512, tenderá a mostrar caras y bustos.

La imagen alta es 512*768, que tenderá a mostrar imágenes de cuerpo completo de pie y sentado.

Generar lote/cantidad

Número de imágenes generadas = lote generado * número de cada lote

Si la configuración de la tarjeta gráfica no es buena, no se recomienda ajustar los parámetros de cantidad. Se recomienda modificarla. Será más rápido generar imágenes por lotes.

Difusión estable

2. Parámetros de interfaz y uso básico del diagrama de Vincent

Parámetros de interfaz

Coeficiente de orientación de palabras rápidas (escala CFG)

Cuanto mayor sea el valor de CFG, más obediente será Ai y más relevante será la imagen generada para la palabra inicial.

El CFG es relativamente seguro en el rango de 5 a 10. Generalmente se recomienda reducir o aumentar entre 7 y 10 según la situación real.

Generalmente predeterminado: 7 es suficiente, ajuste según el contenido de la pantalla

Cuanto menor sea el valor de CFG, más desobediente es Ai y cuanto más libremente puede jugar, más débil será la correlación entre la imagen generada y la palabra clave.

Número de semilla aleatorio

Un parámetro importante utilizado para controlar la aleatoriedad y la diversidad de los resultados generados.

Haga clic en el botón del tamiz para establecer la semilla aleatoria en -1, que es aleatoria

Haga clic en el botón Reciclar para establecer la semilla aleatoria en la semilla aleatoria de la imagen que está mirando en la barra de imágenes de la derecha.

Semilla aleatoria de mutación: ajusta la intensidad de la mutación (un pequeño valor es suficiente, como por ejemplo: 0,001)

generar

Utilice los últimos datos de imagen generados (incluidas palabras positivas y negativas y varios parámetros)

Palabras claras positivas y negativas.

Llamar modelos y otros contenidos

Inserta el estilo preestablecido seleccionado después de la palabra del mensaje actual

Guardar plantilla de Word de aviso

Si desea modificar la plantilla de Word previamente guardada, busque el archivo de estilo debajo del archivo SD, haga clic derecho para abrirlo en el modo Bloc de notas y podrá eliminarlo. (Nota: debe guardar una plantilla antes de que aparezca un archivo)

Instrucciones de uso

Si la generación de la imagen falla y la memoria está llena, intente ajustar el largo, el ancho y el número de pasos hasta que pueda ejecutarse normalmente.

La configuración de intensidad de las palabras clave no debe ser demasiado alta (pruébelo usted mismo y verá)

Nunca escriba palabras clave y palabras clave negativas al revés

Normalmente uso de 20 a 50 para los pasos de pantalla (pero con poca memoria de video, la mayoría de ellos siguen siendo 30) y una intensidad de palabras clave de 7 a 15.

3. Gramática y peso de las palabras clave.

Palabras positivas: en comparación con Midjourney, debe escribirse con mayor precisión y cuidado. Cuantas más descripciones, más cerca estará del contenido deseado, menos descripciones le darán a la IA más espacio para jugar.

Palabras de aviso inverso: contenido que no desea que aparezca

Principios de escritura

Casi todos los modelos solo entienden palabras en inglés.

Todos los símbolos deben utilizar la mitad del ancho en inglés y las frases deben estar separadas por comas de la mitad del ancho.

Se permiten saltos de línea, pero es mejor poner un delimitador (coma inglesa de medio ancho) al final de cada línea.

Principios gramaticales

Cuanto antes sea la palabra, mayor será el peso, por ejemplo

árbol, 1 niña, puede haber un árbol con una niña parada al lado

1niña,árbol, puede haber un retrato de una niña con un árbol de fondo

Por lo tanto, el formato de palabra clave comúnmente utilizado en la mayoría de los casos es (escritura de tres párrafos)

obra maestra, mejor calidad, boceto, 1 niña, soporte, chaqueta negra, fondo de pared, lleno de póster, por ficha,

Gramática avanzada Dibujo paso a paso (la combinación de degradado es el nombre popular, el dibujo paso a paso se acerca más a la intención original)

[tagA: tagB: 0.3] Dibuja la palabra clave A antes del 30% de progreso, dibuja la palabra clave B después del 30% de progreso [cat: dog:0.6] Dibuja un gato antes del 60% de progreso, dibuja un perro después del 60% de progreso

[perro:dragón:6], en el cielo, medio cuerpo, primer plano------Cuando el valor es mayor o igual a 1, significa el número de pasos * dibuja el perro antes del paso, y dibuja el dragón después del * progreso del paso. Puedes pasar Controla el número de pasos y ajusta la proporción entre los dos. A través de diferentes pasos, se puede lograr el gradiente de la palabra clave 1 a la palabra clave 2. Este es el origen del nombre común de gradiente.

La distribución termina dibujando [una niña: 5] en la playa [ ] Los corchetes son reducción de peso. Si quieres que alguien no destaque o sea importante, agrega corchetes a quien no sea importante y suma el número de pasos (. cuanto menor es el valor, menos desea. Cuanto más obvio, cuanto mayor es el valor, menos cosas no deseadas se muestran)

Método de escritura Palabras de calidad de imagen, descripción del tema, fondo, composición.

Palabras de calidad (obra maestra, mejor calidad, etc.)

Descripción del tema (1 chica, pelo largo, vestido azul, sonrisa para la cámara, etc.)

Escenas y entornos (bosque, árbol, flor blanca, día, luz solar, cielo nublado, etc.)

Perspectiva y composición de la imagen (primer plano, cuerpo completo, distante, etc.)

Intente escribir un párrafo de palabras clave según la estructura anterior.

Palabra/composición de calidad de imagen

obra maestra, mejor calidad, 8k, detalle loco, detalle intrincado, ultra detalle, ultra calidad, alto detalle, busto

obra maestra, mejor calidad, 8k, detalles increíbles, detalles intrincados, hiperdetallado, hipercalidad, alto detalle, medio cuerpo,

Descripción del cuerpo principal (un poco más detallada)

1 chica de pelo largo pelirrojo, ojos verdes, vestida con una bufanda y un suéter a rayas, sonriendo levemente a la cámara,

1 niña, cabello largo rojo, ojos verdes, camisa, jeans, sonriendo a la cámara,

¿Cómo se ve el fondo?

Fondo intrincado en la playa, la noche, el cielo estrellado.

Fondo complejo, en la playa, de noche, cielo estrellado.

Si no sabe escribir, puede ir al sitio c y copiar los puntos clave de los excelentes trabajos de otras personas para aprender.

Al copiar palabras clave, recuerde verificar si son consistentes con el nombre del paquete lora local (sin este lora, los resultados generados serán inconsistentes)

Pégalo en el cuadro de palabras clave hacia adelante y haz clic en el primer botón.

Consejos para reducir los elementos adultos.

Positivo: familiar_amigable (ajuste la proporción para ajustar el peso. Cuanto mayor sea la proporción numérica, mayores serán las posibilidades de dibujar niños)

Reverso: nsfw, nude, nude, porn (no apto para el lugar de trabajo, desnudez, desnudez, pornografía), generalmente significa orientado a adultos, se recomienda agregar nsfw cada vez que dibujes

Mano inicial fija

Se recomienda guardarlo como plantilla para facilitar su uso la próxima vez.

Posiciones iniciales simples adelante y atrás

Palabras positivas: obra maestra de mejor calidad, obra maestra, mejor calidad

Palabras de indicación inversa: nsfw, (peor calidad, mala calidad: 1.3) nsfw, (peor calidad, mala calidad: 1.3)

Posturas iniciales ligeramente más largas hacia delante y hacia atrás.

Palabras positivas: obra maestra, mejor calidad, 8k, detalles increíbles, detalles intrincados, hiperdetallado, hipercalidad, alto detalle, ultra detallado,

(Obra maestra, Mejor calidad, Súper calidad, Resolución 8K, Detalle loco, Detalle intrincado. Súper detalle, Alto detalle, Ultra detalle)

Palabras de indicación inversa: NSFW, desnudo, desnudo, pornografía, (peor calidad, baja calidad: 1.4), iris deformado, pupilas deformadas (deformadas, distorsionadas, desfiguradas: 1.3), recortadas, fuera de marco, mal dibujadas, mala anatomía, Anatomía incorrecta. Miembro adicional, miembro faltante, miembros flotantes, cara clonada (manos y dedos mutados: 1.4), miembros desconectados, piernas adicionales, dedos fusionados, demasiados dedos, cuello largo, mutación, mutado, feo, repugnante, amputación, borroso. artefactos jpeg, marca de agua, marca de agua, texto, firma, boceto,

NSFW, Desnudez, Desnudez, Porno, (Mala calidad, Baja calidad: 1.4) Iris distorsionados, Pupilas distorsionadas, (Distorsionadas, Desfiguradas: 1.3) Recortadas, Fuera de marco, Mal dibujadas, Construcción deficiente, Estructuras incorrectas, extremidades adicionales, extremidades faltantes , miembros flotantes, caras clonadas, (manos y dedos mutados: 1.4) miembros desconectados, piernas adicionales, dedos fusionados, dedos adicionales, cuellos largos, mutaciones, mutados, feos, repugnantes, amputación, borrosos, artefactos jpeg, marcas de agua, texto con marcas de agua, firma, boceto

--NSFW no apto para el trabajo foto no apto para el trabajo

Además de estas palabras generales, también puedes agregarlas según las necesidades de la imagen. Por ejemplo, si aparece un perro en la imagen generada, pero no quieres que aparezca en la imagen, puedes agregar ". perro" a la palabra del mensaje inverso.

Cómo hacer retratos realistas en alta definición

Palabras positivas: fotografía, obra maestra, mejor calidad, 8K, HDR, ROWphoto, alta resolución, absurdos:1.2, Kodak portra 400, grano de película, fondo borroso, bokeh:1.2, destello de lente, (color vibrante:1.2).gril

fotografía fotografía

obra maestra, la mejor calidad es de excelente calidad (obra maestra, la mejor calidad).

8K, HDR, foto en FILA, resolución alta, absurdos: 1.2 ES CLARO, ALTA RESOLUCIÓN (8K, HDR, FOTO EN FILA, ALTA RESOLUCIÓN: 1.2

Kodak Portra 400, película granulada, es la característica de la película (Kodak Portra 400, película granulada)

fondo borroso, bokeh:1.2, destello de lente, fondo borroso, desenfoque, aureola

color vibrante: 1.2 es colorido

Ingrese las palabras clave anteriores para obtener una sensación y detalles más atmosféricos.

Separador de palabras rápido

1. Utilice comas en inglés o " " como delimitadores (palabras breves: estilo rococó, sala de estar, ventanales, semilla de color rojo: 3391285208)

2. Hay espacios antes y después del separador y no tendrá ningún efecto.

3. Como MJ, cuanto antes sea la palabra, mayor será el peso.