MindMap Gallery 스테이블 디퓨전 AI 연구 및 개발 개요
스테이블 디퓨전 AI 연구 및 개발 개요에 대한 마인드맵입니다. 마인드맵은 AI 기술 연구와 개발과 관련된 프로젝트의 다양한 단계와 구성 요소를 시각적으로 배열합니다. EdrawMind로 만든 이 마인드 맵은 연구 기획자, 개발자들이 AI 프로젝트의 구조를 체계적으로 이해하고 관리할 수 있도록 돕습니다.
Edited at 2023-12-05 05:38:30스테이블 디퓨전 R&D 개요
단기 목표 (~1월 초)
실습, 활용성 모색
1. 디자인 베리에이션
* 미리 완성된 형태의 결과물을 제작하여 디자인 방향성을 빠르게 파악 * 퍼블리싱 사와의 협업의 커뮤니케이션 비용을 줄일 수 있다.
2. 디테일 및 리터칭 향상
* 일러스트 라이팅 효과 적용 * 의상의 디테일 등을 향상
3. 아이콘 제작
3.1. UI 아이콘
3.2. 오브젝트
4. 배경 제작
* 템플릿 보다 더 디테일하고 의도에 가까운 배경을 빠르게 제작 * 일러스트에 사용할 배경의 베이스로 활용할 리소스로 활용할 수 있다.
4.1. 로비, 로비 오브젝트
4.2. 스토리 배경
중기 목표 (~3월)
리소스 제작
1. 컷신 일러스트 제작
2. 엔딩 일러스트 (일부분 시도),
시험적 도입 * 스탠딩 (레퍼런스 모델)을 활용하여 컷신, 엔딩 일러스트 등 비중이 상대적으로 낮은 일러스트들을 AI를 전면사용하여 제작 * 일러스트 컨셉 및 구도 등은 시나리오/아트 파트에서 기획 * 아트 담당자의 최종 수정 작업은 필요
장기 목표
고도화
1. 제작 공정 시스템화
2. 자체 그림체 개발
3. 애니메이션화
기타
특정 부위에만 LoRa 적용
러프한 선을 깔끔하게 정리
레퍼런스 이미지를 유지하면서 여러 구도 표현
2명 이상의 인물이 등장하는 이미지
기능/팁
리터칭
라이팅
프롬프트 + 가중치
컨트롤넷
brightness 모델
Hugging face에서 다운
업스케일
LLuL - Local Latent upscaLer
특정 부분만 업스케일 적용
해상도 올리기
Multi Diffusion Tiled Vae Extension 사용
hires.fix, Extras보다 빠르고 성능이 좋음
연속성
레퍼런스 유지
컨트롤넷 - Reference Only
img2img와 비슷하지만 SD 모델에 영향을 받지 않고 오직 레퍼런스 이미지만을 참고함
스테이블디퓨전에서 생성한 이미지가 잘 작동함
Reactor
설치 에러 발생
1. 비주얼 스튜디오 커뮤니티 버전 설치
2. 설치할 항목 체크
2.1.
2.2.
2.3.
3. SD - 익스텐션 - Reactor 설치
3.1. roop 익스텐션은 동시 활성화 불가, 에러 발생
3.2. insightface라는 추가 폴더 생성됨
포즈
dwpose
openpose보다 포즈를 더 잘잡는다.
PoseX
문제 해결
서브 주제
Lora 생성
속도 향상
https://www.youtube.com/watch?v=q6srgQanVXI
편의성
설정 프리셋 기능 추가
https://github.com/Gerschel/sd_web_ui_preset_utils
기타
확장자/용량으로 데이터모델 종류 추측
.pt 49kb = embeddings(임베딩) 폴더
.pt 112MB~ 400MB이상 = hypernetworks(하이퍼네트워크) [models\hypernetworks]
.ckpt , .safetensors 2GB ~ 7GB = model & dreambooth & 모델병합 (모델 및 드림부스 ) [models\Stable-diffusion]
.pt , .safetensors , .ckpt 중 업로더가 lora 라고 명시한것은 [models\lora]
Comfy UI 기능
리얼타임 페인팅
https://www.youtube.com/watch?v=pHGyQSr5Yj4
Controlnet 기능
ControlNet은 원본 이미지의 형태(composition)를 유지하면서 디테일을 더하거나 색감을 바꾼 새로운 이미지를 생성해줄 수 있는 툴이다.
Openpose
인물의 동작
Canny
디테일한 선 따기 (색 변경 시 사용)
Depth
이미지의 3D 모양을 인식하여 생성하는 이미지의 composition을 정의할 때 이용한다. 캐릭터 포즈나 구도를 정의할 때 유용하다
fake scribble
이미지에서 loose하게 틀을 따준다. 이미지의 간단한 실루엣으로 새로운 이미지를 생성할 때 이용할 수 있다
MLSD
직선을 통해서 구조물의 형태를 나타내줄 수 있다. 특히 비슷한 구도의 방이나 빌딩을 그릴 때 사용할 수 있다
Segmentation
이미지 내에 있는 물체를 구분해준다. 특히 비슷한 구도의 배경을 그릴 때 사용할 수 있다
HED (Holistically-Nested Edge Detection)
부드러운 outlines를 생성한다. 주로 사용되는 tool로서, canny와 같이 디테일을 제공하지만 노이즈가 적다고 한다. 이미지의 컬러를 다시 입힐 때 사용해볼 수 있다.
pidinet
부드러운 outlines를 생성한다. Scribble과 Hed의 중간.
tile
이미지를 비슷하게 유지하면서 화질을 좋게 할 때 사용 가능. 이미지를 타일로 나눠서 각각 생성하여 합치는 방식이다.
t2ia_style_clipvision
특정 그림의 스타일을 다른 그림에 적용할 수 있다.
Models
익스텐션 전용 모델 끝에 pth 확장자만 다운 받기
https://huggingface.co/lllyasviel/ControlNet-v1-1/tree/main
C:\Users\kjhst\SD\WebUI\webui\extensions\sd-webui-controlnet\models 설치
특정 그림의 스타일을 다른 그림에 적용할 수 있다.
Txt2Img나 Img2Img에서 총 3가지 방식으로 사용할 수 있다.
Txt2Img의 ControlNet 탭에 이미지를 올려두고 생성
Img2Img에 이미지를 올려두고 생성
Img2Img 및 Ixt2Img의 ControlNet 탭에 이미지를 올려두고 생성
Blender를 이용하여 포즈 생성
지금까지는 사진이 있는 상태에서 그 사진의 형태를 뽑아왔다면, 사진이 없어도 캐릭터의 포즈 등을 생성할 수 있는 방법이 있다.
Blender 및 Character bones that look like Openpose for blender를 설치하면 원하는 캐릭터 포즈가 나오도록 조절할 수 있다. 원하는 캐릭터 포즈를 설정했다면 그 포즈대로 ControlNet의 input으로 쓰일 사진들을 저장한다.
Controlnet 활용 팁
https://arca.live/b/aiart/70137576
기능 목록
익스텐션 목록
https://plai.tistory.com/57
https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Extensions
https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Custom-Scripts
Web UI Scripts
txt2img2img
txt2mask
Mask drawing UI
Img2img Video
Advanced Seed Blending
Prompt Blending
Animator
Parameter Sequencer
Alternate Noise Schedules
Vid2Vid
Txt2VectorGraphics
Loopback and Superimpose
Interpolate
Run n times
Advanced Loopback
prompt-morph: 한 프롬프트에서 다른 프롬프트로 변화하는 모습 확인 가능
prompt interpolation: 한 프롬프트에서 다른 프롬프트로 변화하는 모습 확인 가능
Asymmetric Tiling
Force Symmetry
txt2palette
XYZ Plot Script
Expanded-XY-grid
Embedding to PNG
Alpha Canvas
Random grid
Random
Stable Diffusion Aesthetic Scorer
img2tiles
img2mosiac
Test my prompt
Pixel Art
Scripts by FartyPants
Hallucinate
Mr. Negativity
gif2gif
Post-Face-Restore-Again
Infinite Zoom
ImageReward Scorer
Saving steps of the sampling process
Web UI extensions
MultiDiffusion with Tiled VAE
MultiDiffusion
Tiled Vae
VRAM Estimator
Dump U-Net
posex
LLuL
CFG-Schedule-for-Automatic1111-SD
a1111-sd-webui-locon
ebsynth_utility
Lora Block Weight
Kitchen Theme
Bilingual Localization
Composable Lora
Clip Interrogator
Latent-Couple: 특정 구역 별로 서로 다른 프롬프트를 적용하여 이미지를 생성할 수 있게 해줌.
OpenPose Editor: 포즈를 편집하여 ControlNet으로 보낼 수 있는 기능.
SuperMerger
Prompt Translator
Video Loopback
Mine Diffusion
anti-burn
Embedding Merge
gif2gif
cafe-aesthetic
Catppuccin themes
Dynamic Thresholding
Custom Diffusion
Fusion
Pixelization: 이미지 픽셀화 가능.
Instruct-pix2pix
System Info
Steps Animation
Aesthetic Scorer
Discord Rich Presence
Promptgen
haku-img
Merge Block Weighted
Stable Horde Worker
Stable Horde
Multiple hypernetworks
Hypernetwork-Monkeypatch-Extension
Ultimate SD Upscaler
Model Converter
Kohya-ss Additional Networks
Add image number to grid
quick-css
Prompt Generator
model-keyword
sd-model-preview: 여러 모델의 결과를 간단히 확인해볼 수 있는 기능.
Enhanced-img2img
openOutpaint extension
Save Intermediate Images: 이미지 생성의 중간 과정 이미지 저장 기능.
Riffusion
DH Patch
Preset Utilities
Config-Presets
Diffusion Defender
NSFW checker: NSFW 이미지를 검게 표시.
Infinity Grid Generator
embedding-inspector
Prompt Gallery
DAAM
Visualize Cross-Attention
ABG_extension
depthmap2mask
multi-subject-render
Depth Maps
Merge Board
gelbooru-prompt
booru2prompt
WD 1.4 Tagger
DreamArtist
Auto TLS-HTTPS
Randomize
conditioning-highres-fix
Detection Detailer: 얼굴을 자동으로 인식하여 추가 보정 가능.
Sonar
prompt travel
shift-attention: 토큰에 대한 weight가 달라졌을 때 이미지가 어떻게 바뀌는지 확인할 수 있는 기능.
seed travel: Seed가 달라졌을 때 이미지가 어떻게 바뀌는지 확인할 수 있는 기능.
Embeddings editor
Latent Mirroring
StylePile
Push to 🤗 Hugging Face
Tokenizer: CLIP 모델이 프롬프트를 어떻게 tokenize하는지 확인할 수 있는 기능.
novelai-2-local-prompt: NovelAI에서 사용되는 프롬프트를 WebUI에서 사용할 수 있도록 변환해주는 기능.
Booru tag autocompletion: image booru에서 자주 사용되는 tag 힌트를 보여주는 기능.
Unprompted
training-picker
auto-sd-paint-ext
Dataset Tag Editor
Aesthetic Image Scorer
Artists to study
Deforum
Inspiration
Image Browser
Smart Process
Dreambooth
Dynamic Prompts
Wildcards
Aesthetic Gradients
3D Model&Pose Loader
Canvas Editor
문제해결
webui 실행
Stability Matrix
익스텐션 설치 시 실행 오류
appdata 경로에 있는 폴더까지 완전히 지우고 처음 설치과정에서 실행파일이 있는 경로 지정 후 설치하니 해결됨
익스텐션 설치하면 오류가나서 실행이 안됨
재설치해도 동일한 문제 발생
httpx가 원인
프롬프트
리터칭
라이팅
cinematic lighting : 영화적인 조명
dramatic lighting
dynamic light
ray tracing : 인물로 향하는 빛
textile shading : 명암 효과
detailed lighting : 디테일한 조명
beautiful lighting = 아름다운 조명
realistic = 사실적인
beautiful lighting = 아름다운 조명
dslr = DLSR(카메라)로 찍은듯한
soft lighting = 부드러운 조명 광
beautiful lighting = 아름다운 조명
volumetric lighting = 체적의 조명광
카메라/구도
depth of field : 심도
close up = 클로즈 업 스타일
wide shot = 인물을 좀 더 거리감 있게 표현 할 때, 전신 및 배경의 비율을 높일때
Bokeh : 이미지 아웃포커싱 효과
텍스쳐
glossy = 광택나는
Chiaroscuro
명암 대비+
tenebrism
명암 대비+
화풍, 스타일
cartoon = 만화
monochrome = 단색화
game cg = 게임 cg같은
3D = 3d이미지
3d render = 3d 렌더링 이미지
필수&권장
퀄리티 향상
전체 퀄리티 향상
masterpiece, best quality, high quality
디테일 향상
highhly detailed, ultre-detailed, intricate
사실적 표현
realistic
네거티브 권장
저화질, 저품질 방지
lowres, worst quality, bad quality, normal quality, jpeg artifacts, signature, watermark, username, blurry, greyscale, deformed, disfigured, bad art
해상도 정의
4k, 8k
신체/얼굴의 변형, 누락, 오류 등 기형요소 방지
bad anatomy, bad hands, error, missing fingers, disfigured face, extra legs, fewer legs, error legs, ugly, poorly drawn face, mutation, mutated, disconnected limbs, doubled face, mutated hands, mutated fingers, multiple eyebrows, bad proportions, plump, mutilated, duplicate,
그 외 불순요소 제거
text, signature, watermark, username, nsfw
인물
전체 컨셉
full shot body photo of the most creepy artwork in the world
명작 스타일의 전신 표현
dynamic angle
다이나믹한 각도
Kpop idol
Kpop, 아이돌스러운
modelshoot style
모델같은
얼굴
헤어, 피부
looking at each other
서로 마주보다 (둘 일때)
skin spots
피부 반점
bangs
앞머리
hair ornament
머리 장
blush
발그레한
beautiful face
아름다운 얼
high detailed skin
세밀하고 섬세한 피
shiny skin
빛나는 피
눈,코,입
hair
perfect eyes
완벽한 눈 표현
detailed eyes
디테일한 눈 표현
realistic eyes
현실적인 눈 표현
thick lips
두꺼운 입술
looking at viewer
응시하는
seductive smile
유혹적인 미소
aegyo sal
애교
신체
전신
stand
서있는
front view person
정면
full body
전신
dynamic standing
역동적으로 서있는
상체
upper body
상반신 위주 출력
face portrait
얼굴에서 어깨까지
slim waist
슬림한 허리
Collarbone
쇄골
cleavage
앞목이 부분이 드러나는 보이는
하체
의상
헤어
상의
long sleeves
긴소매
rubber suit
고무소재
하의
악세서리
디테일/기타
조합 키워드
dramatic
극적인 표현
sparkling
빛나는
배경/환경 프롬프트
장소/테마
landscape : 풍경
indoors : 실내
outdoors : 야외
기타
No background : 배경 없음
brightness : 명도
Color & Background : 배경 컬러 지정
조합 키워드
Extreme – 극도의
Ultimate – 궁극적인
Hyper – 초월적인
Unprecedented – 전례 없는
Best – 최고의
Supreme – 최상급의
Ultra – 매우
Intense – 강렬한
Powerful – 강력한
Unmatched – 무적의
Unrivaled – 경쟁에서 압도하는
Exceptional – 탁월한
Unsurpassed – 압도적인
Remarkable – 주목할 만한
Strong – 강한
Mighty – 강력한
Vigorous – 활기찬
Robust – 튼튼한
Normal – 정상의
Weak – 약한
Feeble – 연약한
Inadequate – 부족한
Insufficient – 부족한
Powerless – 무력한
Impotent – 힘이 없는
Frail – 연약한
Fragile – 깨지기 쉬운
Delicate – 섬세한
Debilitated – 쇠약한
백업
퀄리티 향상
기본
masterpiece, best quality, high quality,
그외
highly detailed, hyper detail, great composition, ultra detailed, highres, intricate detail, beautiful and aesthetic, extremely detailed cg unity 8k wallpaper, 4k, 8k, floating, depth of field, award winning, masterpiece portrait
Chiaroscuro (명암 배분[대비])
tenebrism (명암 대비 화법)
결합
정도
highly, extremely
묘사
highly, extremely
대상
background, eyes, hair, clothes, anatomy
인물
인원 수: 1girl, 1boy, 1other, solo, single focus, couple focus
의상: cloak (망토), (power) armor, coat, pants
장식: jewelry, (santa, cowboy) hat, scarf, gloves, (leather) belt, socks, headwear, thigh highs
의상 효과: striped, fur trim (털 달림)
시선: looking back, looking at viewer, looking up
신체: long hair, short hair, eyes, open mouth (입 벌림), nose, disheveled hair
표정: serious, grin (씨익), shameful_face, worried_face, smile, doubt expression, tear, evil smile
색상: white, gold, blue, blonde, green
동작: standing, holding weapon, drinking, action, dynamic pose, sitting
종족: elf, dragon
네거티브
lowres, bad anatomy, bad hands, disfigured face, cropped, worst quality, low quality, normal quality, jpeg artifacts, extra digits, extra legs, fewer digits, fewer legs, ugly, watermark, text, error
저해상도, 나쁜 해부학, 나쁜 손, 변형된 얼굴, 자른, 최악의 품질, 낮은 품질, 정상 품질, JPEG 인공물, 여분의 숫자, 여분의 다리, 적은 숫자, 적은 다리, 추한, 워터마크, 텍스트, 오류, nsfw
nsfw
욕설, 포르노, 누드, 고어
(worst quality:1.2), (low quality:1.2), (lowres:1.1), (monochrome:1.1), (greyscale),deformed, bad anatomy, disfigured, poorly drawn face, mutation, mutated, ugly, disgusting, missing limb, floating limbs, disconnected limbs, blurry, doubled face, mutated hands, mutated fingers, multiple eyebrows, multiple views, sketch, child face, woman, girl, (((female))), (chiseled jaw)
(최악의 품질:1.2), (낮은 품질:1.2), (낮은 해상도:1.1), (흑백:1. 1), (회색조), 변형, 나쁜 해부학, 변형된, 잘 못 그린 얼굴, 돌연변이, 돌연변이, 추한, 역겨운, 팔다리가 없는, 떠 있는 팔다리, 팔다리가 끊어진, 흐릿한, 이중 얼굴, 돌연변이 손, 돌연변이 손가락, 여러 눈썹, 여러 뷰, 스케치, 아이 얼굴, 여자, 소녀, (((여성)), (잘려진 턱)
Here's what Penny looked like between each iteration for a clear example of what to expect.
다음은 각 반복 사이에 페니가 어떻게 변했는지 보여주는 예시입니다.
배경
장소: bar, onsen (온천)
컨셉: fantasy, post-apocalypse, ruins, christmas, magical, heaven, paradise, cyberpunk
구성: smoke, flame, thunder, fire, water, light, steam, magic, gift box, flowers, star, shining snow, firework, glowing particles, sky bubbles, splash water,
날씨: snowing, night sky, storm, stormy sky
표현
효과
극적인 빛 효과
dramatic lighting, dynamic light, cinematic lighting
빛이 인물 등으로 향함
ray tracing
명암 효과
textile shading
skill, multicolored_background, cinematic shadows, deep shadows, beautifully lit, dramatic shadows
스타일
수채
anime style, watercolor (medium)
CG, illustration, photorealistic, 3d, animated, ink, pen, copics, graphite, watercolor pencil, spot color
구도
비스듬히
atmospheric perspective, dutch angle
역동적
fisheye, panorama, vanishing point perspective, pov rotated, sideways, upside-down, from above, from behind, from below, dynamic angle
전신
full body
front view, close up, intense angle, cinematic camera, portrait, landscape, wide angle, cinematic shot, action shot, dynamic angle, dramatic angle, intense angle, cinematic angle, dramatic angle
초점
animal focus, eye focus, cloud focus, vehicle focus, weapon focus, soft focus
묘사
energy, power, hero, powerful, breathtaking, amazing, wonderful, shining
화풍
1990s, 1980s, 1800s, renaissance, rococo, retro artstyle
꾸미기
spoken question mark (물음표 마크)
태그 권장
부정적인 프롬프트
https://docs.novelai.net/image/undesiredcontent.html
https://www.reddit.com/r/NovelAi/comments/xwm2ia/get_in_here_and_lets_discuss_nsfw_generation/
civitai 통계
https://rentry.org/toptokens
https://plai.tistory.com/68
부동 주제
unparalleled masterpiece, ultra realistic, 8k, perfect artwork, ((perfect male figure)), mature man, looking at viewer, alluring, clean, ((shiny skin)), intricate detail, prestige, anime-styled black hair, spiked hair, pale, emo, goth, asymmetrical hair, dark eyes, (lips closed), black hooded sweatshirt, pull strings
Negative Prompt:
(worst quality:1.2), (low quality:1.2), (lowres:1.1), (monochrome:1.1), (greyscale),deformed, bad anatomy, disfigured, poorly drawn face, mutation, mutated, ugly, disgusting, missing limb, floating limbs, disconnected limbs, blurry, doubled face, mutated hands, mutated fingers, multiple eyebrows, multiple views, sketch, child face, woman, girl, (((female))), (chiseled jaw)
Here's what Penny looked like between each iteration for a clear example of what to expect.
메인 아이디어
메인 주제
메인 주제
메인 주제