Galería de mapas mentales Difusión estable
Explicación detallada de Stable Diffusion, presentando la instalación e implementación de modelo/lora/VAE/complementos/incrustaciones, los parámetros de interfaz y el uso básico de los diagramas de Vincent.
Editado a las 2024-04-08 21:25:40,Este es un mapa mental sobre una breve historia del tiempo. "Una breve historia del tiempo" es una obra de divulgación científica con una influencia de gran alcance. No sólo presenta los conceptos básicos de cosmología y relatividad, sino que también analiza los agujeros negros y la expansión. del universo. temas científicos de vanguardia como la inflación y la teoría de cuerdas.
¿Cuáles son los métodos de fijación de precios para los subcontratos de proyectos bajo el modelo de contratación general EPC? EPC (Ingeniería, Adquisiciones, Construcción) significa que el contratista general es responsable de todo el proceso de diseño, adquisición, construcción e instalación del proyecto, y es responsable de los servicios de operación de prueba.
Los puntos de conocimiento que los ingenieros de Java deben dominar en cada etapa se presentan en detalle y el conocimiento es completo, espero que pueda ser útil para todos.
Este es un mapa mental sobre una breve historia del tiempo. "Una breve historia del tiempo" es una obra de divulgación científica con una influencia de gran alcance. No sólo presenta los conceptos básicos de cosmología y relatividad, sino que también analiza los agujeros negros y la expansión. del universo. temas científicos de vanguardia como la inflación y la teoría de cuerdas.
¿Cuáles son los métodos de fijación de precios para los subcontratos de proyectos bajo el modelo de contratación general EPC? EPC (Ingeniería, Adquisiciones, Construcción) significa que el contratista general es responsable de todo el proceso de diseño, adquisición, construcción e instalación del proyecto, y es responsable de los servicios de operación de prueba.
Los puntos de conocimiento que los ingenieros de Java deben dominar en cada etapa se presentan en detalle y el conocimiento es completo, espero que pueda ser útil para todos.
Difusión estable
1. Instalación e implementación de modelo/lora/VAE/plug-in/integraciones
Tres formas de instalar extensiones
1. Vaya a la página de extensiones, haga clic en Disponible para cargar la lista de extensiones, recuerde desmarcar [Incluir publicidad, paquete de idioma, instalado] para ver la lista de complementos.
Aquí tomamos como ejemplo la instalación del editor 3D Openpose. Dado que hay demasiados complementos, podemos usar la función de búsqueda web Ctrl F e ingresar openpose para buscar rápidamente los complementos correspondientes y luego hacer clic en Instalar más tarde. .
2. Busque la URL del complemento. Cada uno es diferente. Instálelo desde la URL y copie el enlace para instalar.
Este método requiere conocer la dirección de github del complemento.
Se recomiendan los dos métodos de instalación anteriores. Debe activar la magia para instalar correctamente. Sin embargo, es inestable y puede provocar errores de instalación e intentos fallidos.
La ventaja es que puede actualizar el complemento directamente desde Extension-Check for Updates
También puedes actualizar directamente desde Autumn Leaves Launcher
3. Si los métodos anteriores fallan o el complemento no se muestra, instálelo manualmente en la ruta del complemento. Tomemos como ejemplo la instalación del complemento Controlnet. Abra la URL de GitHub donde se encuentra el complemento Contrglnet. en se encuentra: https://qithub.com/lllyasviel/ControlNet-v1- 1-nightly
Después de la descarga, descomprímalo y colóquelo en la carpeta de extensión ovelai-webui\extensions para reiniciar webUI y verá que el complemento está instalado.
Desventaja: después de la actualización, debe colocar manualmente la carpeta actualizada en el directorio del complemento y el paquete Akiye se actualizará automáticamente.
Después de instalar el complemento, debe volver a cargar weib ui. Si no se muestra, intente apagar el iniciador y volver a ingresarlo.
Asociaciones entre modelos grandes, lora, VAE, complementos e incrustaciones
Modelo grande: placas, muchos tipos.
difusión estable\modelos\difusión estable
También llamado modelo inferior y modelo principal. El modelo que tiene mayor impacto en el rendimiento.
Persona real/producto/bidimensional
El volumen es relativamente grande, generalmente varios G.
Lora: comida rica
difusión estable\modelos\Lora
En pocas palabras, al montar Lora, puedes especificar las características del personaje o estilo que se generará.
Hanfu/estilo tinta/tres vistas/caja ciega
El volumen es de aproximadamente 100M
vae: condimento para hacer la comida deliciosa
difusión estable\modelos|VAE
VAE puede entenderse simplemente como un perfil de color o un filtro de imagen. Sin VAE, la imagen será gris.
Hoy en día, muchos modelos grandes tienen VAE incorporado. Algunos de ellos no lo tienen y deben usarse comúnmente. El valor predeterminado generalmente no se modifica.
Complemento: Palillos, tenedores, comamos mejor
difusión estable\extensiones
Como el complemento de traducción y ControlNet
incrustaciones: paquetes de cocina ya preparados
difusión estable\incrustaciones
De hecho, significa empaquetado rápido de palabras, que a menudo se usa para evitar el colapso de la estructura del cuerpo humano, el estilo de pintura, la estructura espacial, etc. Si no hay incrustación, si desea evitar el colapso del estilo de pintura, es posible que deba decir docenas de palabras clave, pero ahora con una buena incrustación, solo necesita ingresar una palabra rápida para generar una buena imagen.
URL del modelo
Necesito magia
Sitio web oficial del modelo C: https://civitai.com/
Abrazando la cara: ttps://huggingface.co/models?other=stable-diffusion
No se requiere magia
LibuLibuai: http://www.liblibai.com/#/
Pabellón de Alquimia: http://www.liandange.com/models
Autumn Leaf Launcher, sin imagen de vista previa, no muy realista
2. Parámetros de interfaz y uso básico del diagrama de Vincent
Parámetros de interfaz
Selección de modelo grande: Seleccione el modelo (modelo base) a utilizar. Este es el factor que tiene mayor impacto en los resultados generados, reflejado principalmente en el estilo de la imagen.
Vae: entendido simplemente como un filtro, el valor predeterminado es 84000
Ajuste el número de capas: cuanto menor sea el valor de la capa del clip, más cerca estará la descripción del descriptor. Cuanto más grande sea el clip, mayor será el grado de libertad. El valor predeterminado es 2, no es necesario cambiarlo.
Entrada rápida de palabras
palabras clave positivas
Categoría de calidad de imagen: obra maestra, mejor calidad, alta resolución, muy detallada, Obra maestra, mejor calidad, alta definición, alto detalle.
Asunto: una niña, un niño, un perro, una casa.
Atributos: cabello largo y rubio, ojos azules, gorda, delgada, aretes, usar cazadora, usar falda, estilo moderno, barroco, estilo chino
Fondo: hospital, escuela, apartamento, calle, fondo transparente, fondo degradado
Estilo de pintura: estilo realista, estilo de ilustración, monocromo, cómic, retro. Tomas: retrato de cuerpo entero, retrato de media vida, espejo para selfies, rostro frontal, mirando al público, frente a la cámara.
Otros: invierno, nieve, lluvia, colores cálidos, colores verde-naranja
palabra invertida
Si no lo ingresa, la calidad del resultado no será alta y el estilo de pintura colapsará fácilmente. Puede configurarlo como una plantilla fija.
NSFW, desnudo, desnudo, porno, (peor calidad, baja calidad: 1.4), deformiris, pupilas deformadas, (deformadas, distorsionadas, desfiguradas: 1.3), recortada fuera del marco, mal dibujada, mala anatomía, anatomía incorrecta, extremidad extra, falta extremidad, extremidades flotantes, cara clonada (manos y dedos mutados: 1.4), extremidades desconectadas, piernas adicionales, dedos fusionados, demasiados dedos, cuello largo, mutación, mutado, feo, repugnante, amputación, borroso, artefactos jpeg, marca de agua, marca de agua, texto, firma, boceto,
NSFW, desnudez, desnudez, pornografía, (peor calidad, baja calidad: 1.4), iris distorsionados, pupilas distorsionadas, (deformadas, distorsionadas, desfiguradas: 1.3), recortadas, fuera de marco, mal dibujadas, mala interpretación, anatomía incorrecta de extremidades adicionales , extremidades faltantes, extremidades flotantes, caras clonadas (manos y dedos mutados: 1.4), extremidades rotas, piernas extra, dedos fusionados, demasiados dedos, cuellos largos, mutaciones, mutación fea y repugnante, desenfoque de amputación, artefactos jpeg, marca de agua, texto de marca de agua, firma , bosquejo
Cómo guardar plantillas
Guardar la palabra emergente actual como estilo predeterminado
Tiempos de muestreo
Difusión estable se traduce al chino: difusión estable. El principio es que gradualmente agrega ruido a la imagen de entrenamiento y finalmente se convierte en una imagen de ruido completamente aleatoria. Este proceso es como una gota de tinta que se deja caer en un vaso de agua. Se esparcirá lentamente y eventualmente se distribuirá uniformemente en el agua. De ahí el nombre de difusión.
Cuanto mayor sea el número de pasos de iteración de muestreo, mejor será la imagen, pero mayor será el tiempo de cálculo. Sin requisitos especiales, en general, la implementación de muestreo solo debe mantenerse entre 20 y 30 (el valor predeterminado es 20). No hay ningún cambio especial por encima de 30.
Método de muestreo
Sabemos que la difusión estable es un método para generar imágenes basado en el modelo de difusión. Su proceso consiste en utilizar una imagen llena de ruido como referencia para difundirla gradualmente más cerca del objetivo (rápido). Este es el trabajo del lugar del muestreador de difusión. En pocas palabras, estos muestreadores son un algoritmo que después de cada paso compara la imagen generada con la imagen solicitada por el mensaje de texto y luego agrega algunos cambios al ruido hasta que gradualmente alcanza una imagen que coincide con la imagen de descripción del texto.
Existen muchos métodos de muestreo que determinan la calidad de la imagen, pero actualmente solo hay unos pocos recomendados que se utilizan comúnmente.
Euler a
El método de muestreo más rápido, el muestreador más directo, sencillo y estable.
Los requisitos para el número de pasos de muestreo son muy bajos. Al mismo tiempo, a medida que aumenta el número de pasos de muestreo, los detalles no aumentarán. La composición cambiará repentinamente cuando el número de pasos de muestreo aumente a un cierto número. No lo utilice en escenarios de alto paso.
Escenas adecuadas: imágenes bidimensionales, escenas pequeñas.
DPM 2S en Karras
Puede equilibrar la velocidad con la calidad y producir imágenes más precisas y sus detalles.
Dos dimensiones
DPM SDE Karras
No está mal en comparación con 2s. En resumen, la característica principal es que, en comparación con Euler a, habrá más detalles con la misma resolución. Por ejemplo, todo el cuerpo se puede incluir en una imagen pequeña, pero la velocidad de muestreo es más lenta.
Estilo realista, retratos, escenas complejas.
DDIM
Rara vez se usa. Es rápido para producir imágenes y puede generar rápidamente imágenes de alta calidad. Sin embargo, si desea probar una cantidad muy grande de pasos, puede usarlo a medida que aumenta la cantidad de pasos. .
Escenas adecuadas: retratos realistas, escenas complejas.
Restauración facial (generalmente más eficaz para retratos realistas, el 2D es casi inútil)
Mapa de mosaicos (usado para generar textura de patrón)
Restauración de alta resolución
En términos sencillos, significa ampliar la imagen volviéndola a dibujar y agregar algunos detalles mientras la amplía.
Algoritmo de amplificación: solo use el valor predeterminado, Latente, para personas reales: R-ESRGAN 4x, para uso bidimensional: R-ESRGAN 4x Anime6B
Amplitud de redibujado: el impacto de diferentes valores de amplitud de redibujado (normalmente 0,4-0,7 es más adecuado)
Configuraciones de ancho y alto
La mayoría de los modelos están entrenados con una resolución de 512 * 512 y algunos están entrenados con 768 * 768. Por lo tanto, cuando el tamaño de salida es relativamente grande, como 1024 * 1024, la IA intentará incluir dos o tres imágenes en la imagen. la cantidad de contenido en la imagen, habrá varios empalmes de extremidades, varias personas que no están controladas por las entradas, múltiples ángulos, etc. Agregar entradas puede aliviar parcialmente el problema, pero lo más importante es controlar el marco. Primero calcule las imágenes pequeñas y medianas y luego amplíelas para obtener la imagen grande.
Lo más importante es que la generación de imágenes es demasiado grande, el cálculo es lento y es fácil consumir la memoria de video (se recomienda generar imágenes basadas en 512 o 768)
Si tiene una imagen de referencia específica, póngala en PS y modifique el tamaño proporcional r para que los valores de alto y ancho se mantengan entre 512 y 768 píxeles, y el otro tamaño puede ser arbitrario. Si desea un tamaño mayor, utilice la función de restauración HD
Imagen cuadrada 512*512, tenderá a mostrar caras y bustos.
La imagen alta es 512*768, que tenderá a mostrar imágenes de cuerpo completo de pie y sentado.
Generar lote/cantidad
Número de imágenes generadas = lote generado * número de cada lote
Si la configuración de la tarjeta gráfica no es buena, no se recomienda ajustar los parámetros de cantidad. Se recomienda modificarla. Será más rápido generar imágenes por lotes.
Difusión estable
2. Parámetros de interfaz y uso básico del diagrama de Vincent
Parámetros de interfaz
Coeficiente de orientación de palabras rápidas (escala CFG)
Cuanto mayor sea el valor de CFG, más obediente será Ai y más relevante será la imagen generada para la palabra inicial.
El CFG es relativamente seguro en el rango de 5 a 10. Generalmente se recomienda reducir o aumentar entre 7 y 10 según la situación real.
Generalmente predeterminado: 7 es suficiente, ajuste según el contenido de la pantalla
Cuanto menor sea el valor de CFG, más desobediente es Ai y cuanto más libremente puede jugar, más débil será la correlación entre la imagen generada y la palabra clave.
Número de semilla aleatorio
Un parámetro importante utilizado para controlar la aleatoriedad y la diversidad de los resultados generados.
Haga clic en el botón del tamiz para establecer la semilla aleatoria en -1, que es aleatoria
Haga clic en el botón Reciclar para establecer la semilla aleatoria en la semilla aleatoria de la imagen que está mirando en la barra de imágenes de la derecha.
Semilla aleatoria de mutación: ajusta la intensidad de la mutación (un pequeño valor es suficiente, como por ejemplo: 0,001)
generar
Utilice los últimos datos de imagen generados (incluidas palabras positivas y negativas y varios parámetros)
Palabras claras positivas y negativas.
Llamar modelos y otros contenidos
Inserta el estilo preestablecido seleccionado después de la palabra del mensaje actual
Guardar plantilla de Word de aviso
Si desea modificar la plantilla de Word previamente guardada, busque el archivo de estilo debajo del archivo SD, haga clic derecho para abrirlo en el modo Bloc de notas y podrá eliminarlo. (Nota: debe guardar una plantilla antes de que aparezca un archivo)
Instrucciones de uso
Si la generación de la imagen falla y la memoria está llena, intente ajustar el largo, el ancho y el número de pasos hasta que pueda ejecutarse normalmente.
La configuración de intensidad de las palabras clave no debe ser demasiado alta (pruébelo usted mismo y verá)
Nunca escriba palabras clave y palabras clave negativas al revés
Normalmente uso de 20 a 50 para los pasos de pantalla (pero con poca memoria de video, la mayoría de ellos siguen siendo 30) y una intensidad de palabras clave de 7 a 15.
3. Gramática y peso de las palabras clave.
Palabras positivas: en comparación con Midjourney, debe escribirse con mayor precisión y cuidado. Cuantas más descripciones, más cerca estará del contenido deseado, menos descripciones le darán a la IA más espacio para jugar.
Palabras de aviso inverso: contenido que no desea que aparezca
Principios de escritura
Casi todos los modelos solo entienden palabras en inglés.
Todos los símbolos deben utilizar la mitad del ancho en inglés y las frases deben estar separadas por comas de la mitad del ancho.
Se permiten saltos de línea, pero es mejor poner un delimitador (coma inglesa de medio ancho) al final de cada línea.
Principios gramaticales
Cuanto antes sea la palabra, mayor será el peso, por ejemplo
árbol, 1 niña, puede haber un árbol con una niña parada al lado
1niña,árbol, puede haber un retrato de una niña con un árbol de fondo
Por lo tanto, el formato de palabra clave comúnmente utilizado en la mayoría de los casos es (escritura de tres párrafos)
obra maestra, mejor calidad, boceto, 1 niña, soporte, chaqueta negra, fondo de pared, lleno de póster, por ficha,
Gramática avanzada Dibujo paso a paso (la combinación de degradado es el nombre popular, el dibujo paso a paso se acerca más a la intención original)
[tagA: tagB: 0.3] Dibuja la palabra clave A antes del 30% de progreso, dibuja la palabra clave B después del 30% de progreso [cat: dog:0.6] Dibuja un gato antes del 60% de progreso, dibuja un perro después del 60% de progreso
[perro:dragón:6], en el cielo, medio cuerpo, primer plano------Cuando el valor es mayor o igual a 1, significa el número de pasos * dibuja el perro antes del paso, y dibuja el dragón después del * progreso del paso. Puedes pasar Controla el número de pasos y ajusta la proporción entre los dos. A través de diferentes pasos, se puede lograr el gradiente de la palabra clave 1 a la palabra clave 2. Este es el origen del nombre común de gradiente.
La distribución termina dibujando [una niña: 5] en la playa [ ] Los corchetes son reducción de peso. Si quieres que alguien no destaque o sea importante, agrega corchetes a quien no sea importante y suma el número de pasos (. cuanto menor es el valor, menos desea. Cuanto más obvio, cuanto mayor es el valor, menos cosas no deseadas se muestran)
Método de escritura Palabras de calidad de imagen, descripción del tema, fondo, composición.
Palabras de calidad (obra maestra, mejor calidad, etc.)
Descripción del tema (1 chica, pelo largo, vestido azul, sonrisa para la cámara, etc.)
Escenas y entornos (bosque, árbol, flor blanca, día, luz solar, cielo nublado, etc.)
Perspectiva y composición de la imagen (primer plano, cuerpo completo, distante, etc.)
Intente escribir un párrafo de palabras clave según la estructura anterior.
Palabra/composición de calidad de imagen
obra maestra, mejor calidad, 8k, detalle loco, detalle intrincado, ultra detalle, ultra calidad, alto detalle, busto
obra maestra, mejor calidad, 8k, detalles increíbles, detalles intrincados, hiperdetallado, hipercalidad, alto detalle, medio cuerpo,
Descripción del cuerpo principal (un poco más detallada)
1 chica de pelo largo pelirrojo, ojos verdes, vestida con una bufanda y un suéter a rayas, sonriendo levemente a la cámara,
1 niña, cabello largo rojo, ojos verdes, camisa, jeans, sonriendo a la cámara,
¿Cómo se ve el fondo?
Fondo intrincado en la playa, la noche, el cielo estrellado.
Fondo complejo, en la playa, de noche, cielo estrellado.
Si no sabe escribir, puede ir al sitio c y copiar los puntos clave de los excelentes trabajos de otras personas para aprender.
Al copiar palabras clave, recuerde verificar si son consistentes con el nombre del paquete lora local (sin este lora, los resultados generados serán inconsistentes)
Pégalo en el cuadro de palabras clave hacia adelante y haz clic en el primer botón.
Consejos para reducir los elementos adultos.
Positivo: familiar_amigable (ajuste la proporción para ajustar el peso. Cuanto mayor sea la proporción numérica, mayores serán las posibilidades de dibujar niños)
Reverso: nsfw, nude, nude, porn (no apto para el lugar de trabajo, desnudez, desnudez, pornografía), generalmente significa orientado a adultos, se recomienda agregar nsfw cada vez que dibujes
Mano inicial fija
Se recomienda guardarlo como plantilla para facilitar su uso la próxima vez.
Posiciones iniciales simples adelante y atrás
Palabras positivas: obra maestra de mejor calidad, obra maestra, mejor calidad
Palabras de indicación inversa: nsfw, (peor calidad, mala calidad: 1.3) nsfw, (peor calidad, mala calidad: 1.3)
Posturas iniciales ligeramente más largas hacia delante y hacia atrás.
Palabras positivas: obra maestra, mejor calidad, 8k, detalles increíbles, detalles intrincados, hiperdetallado, hipercalidad, alto detalle, ultra detallado,
(Obra maestra, Mejor calidad, Súper calidad, Resolución 8K, Detalle loco, Detalle intrincado. Súper detalle, Alto detalle, Ultra detalle)
Palabras de indicación inversa: NSFW, desnudo, desnudo, pornografía, (peor calidad, baja calidad: 1.4), iris deformado, pupilas deformadas (deformadas, distorsionadas, desfiguradas: 1.3), recortadas, fuera de marco, mal dibujadas, mala anatomía, Anatomía incorrecta. Miembro adicional, miembro faltante, miembros flotantes, cara clonada (manos y dedos mutados: 1.4), miembros desconectados, piernas adicionales, dedos fusionados, demasiados dedos, cuello largo, mutación, mutado, feo, repugnante, amputación, borroso. artefactos jpeg, marca de agua, marca de agua, texto, firma, boceto,
NSFW, Desnudez, Desnudez, Porno, (Mala calidad, Baja calidad: 1.4) Iris distorsionados, Pupilas distorsionadas, (Distorsionadas, Desfiguradas: 1.3) Recortadas, Fuera de marco, Mal dibujadas, Construcción deficiente, Estructuras incorrectas, extremidades adicionales, extremidades faltantes , miembros flotantes, caras clonadas, (manos y dedos mutados: 1.4) miembros desconectados, piernas adicionales, dedos fusionados, dedos adicionales, cuellos largos, mutaciones, mutados, feos, repugnantes, amputación, borrosos, artefactos jpeg, marcas de agua, texto con marcas de agua, firma, boceto
--NSFW no apto para el trabajo foto no apto para el trabajo
Además de estas palabras generales, también puedes agregarlas según las necesidades de la imagen. Por ejemplo, si aparece un perro en la imagen generada, pero no quieres que aparezca en la imagen, puedes agregar ". perro" a la palabra del mensaje inverso.
Cómo hacer retratos realistas en alta definición
Palabras positivas: fotografía, obra maestra, mejor calidad, 8K, HDR, ROWphoto, alta resolución, absurdos:1.2, Kodak portra 400, grano de película, fondo borroso, bokeh:1.2, destello de lente, (color vibrante:1.2).gril
fotografía fotografía
obra maestra, la mejor calidad es de excelente calidad (obra maestra, la mejor calidad).
8K, HDR, foto en FILA, resolución alta, absurdos: 1.2 ES CLARO, ALTA RESOLUCIÓN (8K, HDR, FOTO EN FILA, ALTA RESOLUCIÓN: 1.2
Kodak Portra 400, película granulada, es la característica de la película (Kodak Portra 400, película granulada)
fondo borroso, bokeh:1.2, destello de lente, fondo borroso, desenfoque, aureola
color vibrante: 1.2 es colorido
Ingrese las palabras clave anteriores para obtener una sensación y detalles más atmosféricos.
Separador de palabras rápido
1. Utilice comas en inglés o " " como delimitadores (palabras breves: estilo rococó, sala de estar, ventanales, semilla de color rojo: 3391285208)
2. Hay espacios antes y después del separador y no tendrá ningún efecto.
3. Como MJ, cuanto antes sea la palabra, mayor será el peso.