Vision Transformer๋ ์ปดํจํฐ ๋น์ ์์ ์์ ํฐ ์ ์ฌ๋ ฅ์ ๋ณด์ฌ์ฃผ์์ผ๋ฉฐ, human body pose estimation์ ์ ์ฉ๋์ด ์ฐ์ํ ์ฑ๋ฅ์ ์ป์์ต๋๋ค. ๊ธฐ์กด์ ViTPose์์๋ vision transformer๋ฅผ pose estimation tas
Inpaint Anything ๋ ผ๋ฌธ์ 23๋ 4์์ ๋ฐํ๋์์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ Segment Anything Model(SAM)์ ๊ธฐ๋ฐ์ผ๋ก ํ ์ด๋ฏธ์ง ์ธํ์ธํ ์์คํ ์ ์๊ฐํฉ๋๋ค. ์ด ํ๋ ์์ํฌ๋ ๋ค์๊ณผ ๊ฐ์ ์ฃผ์ ๊ธฐ๋ฅ์ ์ ๊ณตํฉ๋๋ค.Remove Anything: ์ฌ์ฉ์
generator๊ฐ discriminator๊ฐ ๋ชป ๋ง์ถ๋ ํด๋์ค๋ฅผ ํ์ ํด์ ๊ทธ ํด๋์ค๋ง ๊ณ์ ์์ฑํด์ discriminator๊ฐ ์ ๋ถ ์ค๋ถ๋ฅํ๋๋ก ํ๋๊ฒ ์ฆ generator๊ฐ local minima์ ๊ฐํ ๊ฒ์ด๋ค. Problem with BCE lossGAN์์ bi
๋ณธ ๊ธ์์๋ CVPR์์ 22๋ ๋์ ๋ฐํ๋ MetaFormer is Actually What You Need for Vision, Yu et al.์ ๋ํด ๊ฐ๋จํ๊ฒ ์ ๋ฆฌํ๊ฒ ์ต๋๋ค.๋ ผ๋ฌธ์์๋ ์ผ๋ฐํ๋ ํธ๋์คํฌ๋จธ ์ํคํ ์ฒ๋ฅผ ์ ์ํฉ๋๋ค.์ฌ๊ธฐ์ ๊ธฐ์กด ํธ๋์คํฌ๋จธ ๊ตฌ์กฐ์์ Sel
Inception ์ํคํ ์ฒ๋ ์ด๊ธฐ์ GoogLeNet์ผ๋ก ์๋ ค์ ธ ์์์ผ๋ฉฐ, ์ดํ Inception v2, Inception v3 ๋ฑ ๋ค์ํ ๋ฒ์ ์ด ๋ฐํ๋์์ต๋๋ค. Inception v4๋ 2016๋ ์ ์๊ฐ๋์์ผ๋ฉฐ, ๊ทธ ์ดํ๋ก๋ ๋ค์ํ ๊ฐ์ ์ด ์ด๋ฃจ์ด์ง ๊ฒ์ผ๋ก ์๋ ค์ ธ ์์ต
Pre-trained Language Model (PLM) ํจ์จ์ ์ผ๋ก finetuningํ๊ธฐ, PEFT ๋ฐฉ๋ฒ๋ก ``LoRA``, ``prompt tuning``, ``prefix tuning``
๊นํ ์ค์น ๋งค๋ด์ผ์ฒ๋ผ sudo ์ ๊ทผ์ด ๋ถ๊ฐํ server์์ stable diffusion ์ค์นํ๊ธฐ
์ค๋ ์๊ฐํ๋ BLIP(paper)๋, 2022๋ ๋ฐํ๋ ๋ ผ๋ฌธ์ผ๋ก vision-language understanding tasks์ generation-based tasks ๋ชจ๋ ์ ์ฐํ๊ฒ ์ฌ์ฉํ ์ ์๋๋ก ์ํคํ ์ฒ๋ฅผ ์ค๊ณํ์๊ณ , ํฉ์ฑ๋ ์บก์ ์ ์์ฑํ๊ณ ๊ธฐ์กด
github link : https://github.com/AUTOMATIC1111/stable-diffusion-webui/์ ๋ ํฌ์งํ ๋ฆฌ๋ฅผ cloneํ๊ณ webui-user.bat ํ์ผ์ ๋๋ธํด๋ฆญํ์ฌ ์คํํ๋ฉด ๋๋ค.์ด๋ python์ ์ฐพ์ ์ ์๋ค๋ ์๋ฌ๊ฐ
SlowFast Networks for Video Recognition ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ
CLIP์ OpenAI๊ฐ 2021๋ ๋ฐํํ์ผ๋ฉฐ, ์ด๋ฏธ์ง ์ธ์ ์ ๋ ์ด๋ธ์ด ์๋ ค์ง์ง ์์ ๋ฐ์ดํฐ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ฌ์ ํ์ต์ํค๋๋ฐ ์ฌ์ฉ๋๋ค. CLIP ๋ฐฉ๋ฒ๋ก ์ ํต์ฌ์ Image Encoder์ Text Encoder๋ฅผ Contrastive Learning ๋ฐฉ๋ฒ์ผ๋ก ํ์ตํ๋ค๋
๋ด๋ง๋๋ก ๋ง๋ ๋ฉ๋ด์ถ์ฒ์์คํ ์งํ๊ณผ์ ์ ๊ฐ๋ตํ๊ฒ ์ ๋ฆฌํด๋ดค๋ค. ํ๋ก์ ํธ๋ ๋ฐ์ดํฐ ์์ง ๋จ๊ณ๋ถํฐ ์ถ์ฒ๋ฐฉ์ ์ ๊ตฌํ, ํ๊ฐ์งํ ๊ณ ๋ฏผ๊น์ง ๋ค์ํ ๊ณผ์ ์ ๊ฑฐ์ณค๋ค.
๊ณต๋ชจ์ ๋ช 2023 ๊ฐ์๊ตฌ ๋น ๋ฐ์ดํฐ ํ์ฉ ๊ณต๋ชจ์ ๊ณต๋ชจ๊ธฐ๊ฐ ~ 23. 3. 24. 18:00์งํ๊ธฐ๊ฐ 23. 3. 10. ~ 23. 3. 24. (์ฝ 2์ฃผ)์งํ์ธ์ 4๋ช ๐๏ธ ๋ ธ์ ํ์ด์ง๐ แแ ฎแซแแ ฅแจแแ ฉแแ ฉแแ ฅ.pdf ๐ฌ githubํ์๋ค๊ณผ ํจ๊ป ์ฃผ์ ์ ๋ถ์ ํ๋ก์ธ์ค๋ฅผ
transformer ๊ธฐ๋ฐ์ ๋ชจ๋ธ์ ์ด์ฉํ๋ ค๊ณ ํ ๋ downstream task๋ฅผ ์ ์ฉํ๊ธฐ ์ํ ์์ ๋ฐ์ดํฐ๋ฅผ ์ํด full fine tuning ํ๋ ๊ฒ์ด ๋นํจ์จ์ ์ด๋ค.๋ฐ๋ผ์ transformer์ ์ข์ generalization ์ฑ๋ฅ์ ์ ์งํ๋ฉด์ ๊ธฐ์กด์ pretr
commit ํ pushํ๋๋ฐ ํ์ผ ํฌ๊ธฐ๊ฐ 100MB๊ฐ ๋์ด๊ฐ์๋ค์๊ณผ ๊ฐ์ ์๋ฌ๋ด์ ๋remote: error: File file4.ipynb is 150.45 MB; this exceeds GitHub's file size limit of 100.00 MBremote
์ด๋ฒ ๋ ผ๋ฌธ์ 2016๋ ๋ฐํ๋ ๋ ผ๋ฌธ์ผ๋ก VAE์ RNN๊ตฌ์กฐ๋ฅผ ์ถ๊ฐํ์ฌ ๊ตฌ์กฐํ๋ ์ด๋ฏธ์ง ํด์์ด ๊ฐ๋ฅํ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์์ต๋๋ค. ๊ฐ์ฒด์ ๋ํด ๋ช ์์ ์ผ๋ก ์ถ๋ก ํ๋ ๊ตฌ์กฐํ๋ ์ด๋ฏธ์ง ๋ชจ๋ธ์์ ํจ์จ์ ์ธ ์ถ๋ก ์ ์ํ ํ๋ ์์ํฌ ์ ์ํ๋ค.ํ scene์ ์์๋ค์ ์ฃผ๋ชฉํ๊ณ ์ฅ๋ฉด์
ViTPose ์ ๋ฆฌํ๋ค๊ฐ ViTPose ์ดํด๋ณด๊ณ , ์ด๋ฏธ์ง ํ์คํฌ์์ CNN ๊ธฐ๋ฐ ๋ชจ๋ธ๊ณผ ViT๊ฐ ์ด๋ค ๊ตฌ์กฐ์ ์ฐจ์ด์ ์ด ์์๊น ์ดํด๋ณด๋ค๊ฐ ๊ฑฐ์ฌ๋ฌ ์ฌ๊ธฐ๊น์ง ์จ ์ด์ผ๊ธฐ ๊ฑฐ์ฌ๋ฌ ์จ ์์ ยทยทยท 1) ViTPose: Simple Vision Transformer Baselin
"Causal Effect Inference with Deep Latent-Variable Models"์ 2017๋ NIPS (Neural Information Processing Systems) ์ปจํผ๋ฐ์ค์์ ๋ฐํ๋ ๋ ผ๋ฌธ์ ๋๋ค. ์ด ๋ ผ๋ฌธ์ ๋ฅ๋ฌ๋๊ณผ ์ ์ฌ ๋ณ์ ๋ชจ๋ธ์
์ดํ์ ๋์ '์คํ ์ธ์ฝ๋์ ๋ชจ๋ ๊ฒ' ์ ํ๋ธ ๊ฐ์๋ฅผ ๋ฃ๊ณ ์ ๋ฆฌํ ๋ ธํธ์ ๋๋ค.
์ด ๋ ผ๋ฌธ์์๋ ViTPose๋ผ๋ ๊ฐ๋จํ ๋ฒ ์ด์ค๋ผ์ธ ๋ชจ๋ธ์ ํตํด์ ๋ค์ํ ์ธก๋ฉด(๋ชจ๋ธ ๊ตฌ์กฐ์ ๋จ์ํจ, ๋ชจ๋ธ ํฌ๊ธฐ์ ํ์ฅ์ฑ, ํ๋ จ ํจ๋ฌ๋ค์์ ์ ์ฐ์ฑ, ๋ชจ๋ธ ๊ฐ ์ง์ ์ ๋ฌ ๊ฐ๋ฅ์ฑ)์์ ์์ธ ์ถ์ ์