# VISION

End-to-End Object Detection with Transformers
이 논문은 object detection을 direct set prediction problem으로 보는 새로운 방법을 제시한다. 위 접근 방식은 detection pipeline을 간소화하고자 hand-designed components(non-maximum supp

Swin Transformer V2: Scaling Up Capacity and Resolution
large-scale NLP 모델은 signs of saturation없이 language 작업의 성능을 현저하게 향상시켰고 few-shot capabilities의 인간의 성능을 보인다. 이 논문은 CV에서 large-scale models을 탐구하는 것을 목표로 한

You Look Only Once : Unified, Real-Time Object Detection (YOLO) 논문 리뷰
You Look Only Once : Unified, Real-Time Object Detection(2016) Paper Review

Is Space-Time Attention All You Need for Video Understanding?
최근 자동차 충돌 대회에서 huggingface의 timesformer을 사용해보았다. 실제 핵심 기술을 자세히 알고자 위 논문을 리뷰해보았다. Abstract video classification에 self-attention에만 기반한 conv연산이 없는 접근방식

[DeiT 관련 논문 리뷰] 03-AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
이번 글에서는 AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE(2021)을 리뷰하겠습니다. 본 논문에서는 Vision Transformer 모델을 소개합니다.

[DeiT 관련 논문 리뷰] 01-개요
DeiT 모델을 이해하기 위해 세 개의 논문을 순차적으로 리뷰하도록 하겠습니다. Distilling the Knowledge in a Neural Network(2015) 이 논문에서 DeiT의 훈련 전략의 기초가 되는 distillation에 대해 이해하겠습니다.

You Only Look Once: Unified, Real-Time Object Detection
abstract 이 논문은 new approach to object detection인 YOLO를 제시한다. 이전 object detection은 detection에서 classifiers을 수행한다. 하지만 YOLO는 spatially separated boundi

논문분석: CoCa: Contrastive Captioners are Image-Text Foundation Models
Abstract large-scale pretrained foundation models은 빠르게 down- stream tasks로 바꿀 수 있어서 vision에서 인기가 많다. 이 논문은 Contrastive Captioner (CoCa) 를 소개한다. cont

논문 분석: Learning Transferable Visual Models From Natural Language Supervision
CoCa논문을 읽으며 알게된 사실이 주요 기술이 CLIP이나 SimVLM을 모방했다는 것이다. 그래서 CLIP을 우선적으로 공부 후 찾아봐야겠다 결정하고 CLIP 논문을 분석했다.computer vision의 SOTA는 predetermined object catego
DDIM_sampler 코드분석
DDIMsampler코드보통 ddim_sampler = DDIMSampler(model) 같이 model만 넘겨주는 듯또한 보통 (B H W C)의 이미지를 (B C H W)이미지로 변환 후 모델로 넘겨야함ddim_sampler 객체 생성 후 와 같이 바로 sample

Neural Shape Deformation Priors
동기: 기존의 ARAP 등의 deformation 방식은 triangle 구조에는 dependent 하지만 global한 prior 정보는 이용하지 못한다. (Global한 prior 정보의 예로는 머리와 발은 움직이는 방식이 다르다는 것) 딥러닝을 통해 prior를
canny2image 코드분석(수정)
ControlNet_canny2image 코드 분석 > from share import * import config > import cv2 import einops import gradio as gr import numpy as np import torch impo

ViT와 SwinT를 사용하여 Image classification task 수행(CIFAR-10)
최근 Image classification 문제를 해결해보면서 ViT를 사용해보았다.ViT의 논문을 읽고 코드 작성법을 익혀서 사용해보며 작은 데이터에 최적인 더 작은 모델을 찾게 되었고 SwinT의 논문을 읽게 되었다.이 둘을 CIFAR-10 데이터로 2epoch의
SGM(Seeded Graph Maching) Network를 알아보자!
시작하며, 직전에 소개한 superglue에서 조금 더 진화한 network인 Seeded Graph Matching network에 대한 글을 써보려고 합니다. superglue는 query, key, value를 활용해 self-, cross- attention을

CS231n Lecture 13
이번 시간은 generator 모델을 주로 다뤘다. VAE나 GAN을 스터디때 많이 다뤄서 정말 반가웠다. supervised & unsupervised 보통 ML 입문자들이 큰 부류로 나눌때 먼저 배우는 걸 늦게 가르쳐줘서 특이하단 생각도 들었다. supervi
SuperGlue 톺아보기
시작하며, 최근에 저는 강화학습 기반 물체 재배열 알고리즘 개발을 졸업 프로젝트로 진행하고 있습니다. 기존에 진행했던 연구의 한계를 찾아 개선하는 방향으로 전개했습니다. 구체적으로, object matching module이 naive하게 구현되어 있어서 이 module의 accuracy를 높이는 쪽으로 연구하고 있습니다. 그러던 중, 조교님의 추천으로 ...

CS231n Lecture 12
Visualizing and Understanding 첫번째 layer의 weight를 시각화해보면 image에서 oriented edge를 찾는걸 볼 수 있다. Feature을 찾는 것이라 볼 수 있다. 필터들이 layer가 깊어지면서, 합성곱이 이뤄지고 점점 더