๐Ÿค– ์ด๋ฏธ์ง€ ์ƒ์„ฑ ์›๋ฆฌ

๊ณฝํƒœ์šฑยท2025๋…„ 2์›” 18์ผ
0

ComfyUI

๋ชฉ๋ก ๋ณด๊ธฐ
3/3

VAE (Variational Auto-Encoder)

์ •์˜

  • Variational: ํ™•๋ฅ  ๋ฐ ํ†ต๊ณ„์— ๊ธฐ๋ฐ˜ํ•˜์—ฌ
  • Auto-Encode: input๊ณผ output์„ ๊ฐ™๊ฒŒ ๋งŒ๋“œ๋Š” โ€˜latentโ€™๋ฅผ ์ฐพ์•„๋‚ด๋Š” ๊ธฐ๋ฒ• (์••์ถ•/์••์ถ•ํ•ด์ œ ์•Œ๊ณ ๋ฆฌ์ฆ˜๊ณผ ๋น„์Šท)
  • ~r: ์œ„ ์—ญํ• ์„ ์ˆ˜ํ–‰ํ•˜๋Š” AI ๋ชจ๋ธ
Load VAEVAE Decode

๋น„์œ 

  • ์šฐ๋ฆฌ๊ฐ€ ๊ทธ๋ฆผ์„ ๊ทธ๋ฆฌ๊ณ  ์‹ถ์„ ๋•Œ ์–ด๋–ค ๋ฌผ์ฒด๋ฅผ ๋ณด๋ฉด์„œ ํŠน์ง•(ํ‰๊ท ,ํ‘œ์ค€ํŽธ์ฐจ=latent)์„ ํŒŒ์•…ํ•˜๊ณ  ๋‚˜๋ฉด
  • ํ•ด๋‹น ๋ฌผ์ฒด๋ฅผ ๋ณด์ง€ ์•Š์•„๋„ ์ƒ์ƒ๋งŒ์œผ๋กœ ๊ทธ๋ฆด ์ˆ˜ ์žˆ๋Š” ๊ฒƒ๊ณผ ๋น„์Šทํ•จ

์ƒ์„ธ

  • ์ด๋ฏธ์ง€ ์ƒ์„ฑ ๊ณผ์ •์—์„œ์˜ VAE๋Š” ์ด๋ฏธ์ง€๋ฅผ latent(์ž ์žฌ ๊ณต๊ฐ„)๋กœ ๋ณ€ํ™˜
  • ์ด๋ฏธ์ง€ ๊ฐ€๋กœ/์„ธ๋กœ๋ฅผ 8๋กœ ๋‚˜๋ˆ„๊ณ  ์ƒ‰์ƒ ์ฑ„๋„์€ ๋Š˜๋ฆผ (โ†’ ์ด๋ฏธ์ง€ ๊ฐ€๋กœ ์„ธ๋กœ ํฌ๊ธฐ๋Š” 8์˜ ๋ฐฐ์ˆ˜ ๊ถŒ์žฅ)
  • 768x512 ์ปฌ๋Ÿฌ ์ด๋ฏธ์ง€ โ†’ ๊ฐ€๋กœx์„ธ๋กœxRGB โ†’ 768x512x3 ํ–‰๋ ฌ
  • Flux ๋ชจ๋ธ์˜ VAE (ae) โ†’ (3x5.33..)x(768/8)x(512/8) โ†’ 16x96x64 ํ–‰๋ ฌ
  • ์ธ์ฝ”๋”ฉ ์‹œ ์›๋ณธ ๋ฐ์ดํ„ฐ ์ผ๋ถ€ ์†์‹ค (Flux๋Š” 1/12 ๋งŒํผ) โ†’ ์†์‹ค ์••์ถ•์ด๊ธฐ ๋•Œ๋ฌธ์— ์•„๋ž˜ ๊ทธ๋ฆผ์—์„œ x โ‰  xโ€™
  • AE๋Š” input์ด ๋™์ผํ•˜๋ฉด output์ด ๋™์ผํ•œ๋ฐ
  • ๋…ธ์ด์ฆˆ๋ฅผ ๋„์ž…ํ•œ VAE๋Š” input์ด ๋™์ผํ•ด๋„ output์ด ๋‹ค๋ฅผ ์ˆ˜ ์žˆ์Œ โ†’ ๊ฒฐ๊ณผ๋ฌผ์— ๋ณ€ํ™”๋ฅผ ์ค„ ์ˆ˜ ์žˆ์Œ = ์ฐฝ์˜์„ฑ

AutoEncoder

AutoEncoder

Variational AutoEncoder

Variational AutoEncoder

ControlNet

  • ControlNet์„ ์‚ฌ์šฉํ•˜๋ฉด ์•„๋ž˜์™€ ๊ฐ™์ด ๊ฒฐ๊ณผ ์ด๋ฏธ์ง€์˜ ํ˜•ํƒœ์— ์˜ํ–ฅ์„ ์ค„ ์ˆ˜ ์žˆ์Œ
ControlNet ์›๋ณธ ์ด๋ฏธ์ง€ControlNet ๊ฒฐ๊ณผ ์ด๋ฏธ์ง€
์›๋ž˜ ๊ฒฐ๊ณผ ์ด๋ฏธ์ง€๋ณ€ํ˜•๋œ ๊ฒฐ๊ณผ ์ด๋ฏธ์ง€

์„ค์ •

  • ControlNet ์˜ํ–ฅ๋„(strength)์™€ ์˜ํ–ฅ ์‹œ์ (start/end_percent)์„ ์„ค์ •ํ•  ์ˆ˜ ์žˆ์Œ
  • ControlNet ์˜ํ–ฅ๋„๊ฐ€ ๋‚ฎ์•„์งˆ์ˆ˜๋ก โ€˜ControlNet ์›๋ณธ ์ด๋ฏธ์ง€โ€™ ๋ชจ์Šต์ด ์‚ฌ๋ผ์ง
  • ์•„๋ž˜์™€ ๊ฐ™์ด ์ดˆ๊ธฐ ์‹œ์ ์— ์˜ํ–ฅ์„ ์ค„์ˆ˜๋ก ํฌ์ฆˆ/์œ„์น˜๋Š” ๋น„์Šทํ•ด์ง€์ง€๋งŒ ์„ธ๋ถ€ ๋””ํ…Œ์ผ์€ ์ž์œ ๋กœ์›Œ์ง
๊ฒฐ๊ณผ ์ด๋ฏธ์ง€ (1.0/0.0/1.0)ControlNet ์˜ํ–ฅ๋„๋ฅผ ๋‚ฎ์ถ˜ ์ด๋ฏธ์ง€ (0.3/0.0/1.0)
์ดˆ๊ธฐ ์‹œ์ ์—๋งŒ ControlNet์„ ์ ์šฉํ•œ ์ด๋ฏธ์ง€ (1/0/0.4)์ค‘๊ฐ„ ์‹œ์ ์—๋งŒ ์ ์šฉํ•œ ์ด๋ฏธ์ง€ (0.9/0.1/0.5)

strength

  • strength ๊ฐ’์„ ๋น„์œ ํ•˜์ž๋ฉด ํ•ด๋‹น ๊ฐ’์ด ๋‚ฎ์•„์งˆ์ˆ˜๋ก ์œ„์™€ ๊ฐ™์ด ํ๋ ค์ง„ ์ด๋ฏธ์ง€๊ฐ€ ์ ์šฉ๋œ๋‹ค๊ณ  ํ•  ์ˆ˜ ์žˆ์Œ
  • ๊ทธ๋ž˜์„œ ๊ฐ’์„ ๋‚ฎ๊ฒŒ ์ฃผ๋ฉด ๊ฒฐ๊ณผ ์ด๋ฏธ์ง€ ํ˜•ํƒœ๊ฐ€ ์˜๋„ํ•œ๋Œ€๋กœ ์•ˆ ๋‚˜์˜ฌ ์ˆ˜ ์žˆ์Œ
strength 1.0strength 0.3

์ข…๋ฅ˜

  • Canny - ํ…Œ๋‘๋ฆฌ๋ฅผ ๋•€ โ†’ ๋ฌด๋‚œํ•œ ์„ ํƒ
  • OpenPose - ์ธ๋ฌผ์˜ ์ž์„ธ/ํ‘œ์ •/์† ์œ„์น˜๋ฅผ ๋ถ„์„ํ•จ โ†’ ์ธ๋ฌผ์ผ ๋•Œ
  • Depth - ์ด๋ฏธ์ง€์˜ ๊นŠ์ด๋ฅผ ๋ถ„์„ํ•จ โ†’ ๊ฑด๋ฌผ/์‚ฌ๋ฌผ/ํ’๊ฒฝ ๋“ฑ ์ด๋ฏธ์ง€์— ๊นŠ์ด๊ฐ์ด ์žˆ์„ ๋•Œ

์ฐธ๊ณ 
ComfyUI: Advanced Understanding (Part 1~3) - Latent Vision

profile
์ด์œ ์™€ ๋ฐฉ๋ฒ•์„ ์•Œ๋ ค์ฃผ๋Š” ๋ฉ”๋ชจ์žฅ ๊ฒธ ๋ธ”๋กœ๊ทธ (Frontend, AI, ๊ฒฝ์ œ, ์ฑ…)

0๊ฐœ์˜ ๋Œ“๊ธ€