# VISION

108개의 포스트
post-thumbnail

End-to-End Object Detection with Transformers

이 논문은 object detection을 direct set prediction problem으로 보는 새로운 방법을 제시한다. 위 접근 방식은 detection pipeline을 간소화하고자 hand-designed components(non-maximum supp

5일 전
·
0개의 댓글
·
post-thumbnail

Swin Transformer V2: Scaling Up Capacity and Resolution

large-scale NLP 모델은 signs of saturation없이 language 작업의 성능을 현저하게 향상시켰고 few-shot capabilities의 인간의 성능을 보인다. 이 논문은 CV에서 large-scale models을 탐구하는 것을 목표로 한

2023년 5월 22일
·
0개의 댓글
·
post-thumbnail

You Look Only Once : Unified, Real-Time Object Detection (YOLO) 논문 리뷰

You Look Only Once : Unified, Real-Time Object Detection(2016) Paper Review

2023년 5월 14일
·
0개의 댓글
·
post-thumbnail

Is Space-Time Attention All You Need for Video Understanding?

최근 자동차 충돌 대회에서 huggingface의 timesformer을 사용해보았다. 실제 핵심 기술을 자세히 알고자 위 논문을 리뷰해보았다. Abstract video classification에 self-attention에만 기반한 conv연산이 없는 접근방식

2023년 4월 25일
·
0개의 댓글
·
post-thumbnail

[DeiT 관련 논문 리뷰] 03-AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

이번 글에서는 AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE(2021)을 리뷰하겠습니다. 본 논문에서는 Vision Transformer 모델을 소개합니다.

2023년 4월 13일
·
4개의 댓글
·
post-thumbnail

Vision Transformer(ViT) 논문 리뷰

ViT(비전 트랜스포머) 논문 읽기

2023년 4월 9일
·
0개의 댓글
·
post-thumbnail

[DeiT 관련 논문 리뷰] 01-개요

DeiT 모델을 이해하기 위해 세 개의 논문을 순차적으로 리뷰하도록 하겠습니다. Distilling the Knowledge in a Neural Network(2015) 이 논문에서 DeiT의 훈련 전략의 기초가 되는 distillation에 대해 이해하겠습니다.

2023년 4월 7일
·
7개의 댓글
·
post-thumbnail

You Only Look Once: Unified, Real-Time Object Detection

abstract 이 논문은 new approach to object detection인 YOLO를 제시한다. 이전 object detection은 detection에서 classifiers을 수행한다. 하지만 YOLO는 spatially separated boundi

2023년 4월 4일
·
0개의 댓글
·
post-thumbnail

Multiple Object Tracking(MOT)

multiple object tracking 개념 정리

2023년 3월 19일
·
0개의 댓글
·
post-thumbnail

논문분석: CoCa: Contrastive Captioners are Image-Text Foundation Models

Abstract large-scale pretrained foundation models은 빠르게 down- stream tasks로 바꿀 수 있어서 vision에서 인기가 많다. 이 논문은 Contrastive Captioner (CoCa) 를 소개한다. cont

2023년 3월 15일
·
0개의 댓글
·
post-thumbnail

논문 분석: Learning Transferable Visual Models From Natural Language Supervision

CoCa논문을 읽으며 알게된 사실이 주요 기술이 CLIP이나 SimVLM을 모방했다는 것이다. 그래서 CLIP을 우선적으로 공부 후 찾아봐야겠다 결정하고 CLIP 논문을 분석했다.computer vision의 SOTA는 predetermined object catego

2023년 3월 8일
·
0개의 댓글
·

DDIM_sampler 코드분석

DDIMsampler코드보통 ddim_sampler = DDIMSampler(model) 같이 model만 넘겨주는 듯또한 보통 (B H W C)의 이미지를 (B C H W)이미지로 변환 후 모델로 넘겨야함ddim_sampler 객체 생성 후 와 같이 바로 sample

2023년 3월 7일
·
0개의 댓글
·
post-thumbnail

Neural Shape Deformation Priors

동기: 기존의 ARAP 등의 deformation 방식은 triangle 구조에는 dependent 하지만 global한 prior 정보는 이용하지 못한다. (Global한 prior 정보의 예로는 머리와 발은 움직이는 방식이 다르다는 것) 딥러닝을 통해 prior를

2023년 3월 6일
·
0개의 댓글
·

canny2image 코드분석(수정)

ControlNet_canny2image 코드 분석 > from share import * import config > import cv2 import einops import gradio as gr import numpy as np import torch impo

2023년 3월 5일
·
0개의 댓글
·
post-thumbnail

ViT와 SwinT를 사용하여 Image classification task 수행(CIFAR-10)

최근 Image classification 문제를 해결해보면서 ViT를 사용해보았다.ViT의 논문을 읽고 코드 작성법을 익혀서 사용해보며 작은 데이터에 최적인 더 작은 모델을 찾게 되었고 SwinT의 논문을 읽게 되었다.이 둘을 CIFAR-10 데이터로 2epoch의

2023년 3월 4일
·
0개의 댓글
·

SGM(Seeded Graph Maching) Network를 알아보자!

시작하며, 직전에 소개한 superglue에서 조금 더 진화한 network인 Seeded Graph Matching network에 대한 글을 써보려고 합니다. superglue는 query, key, value를 활용해 self-, cross- attention을

2023년 3월 4일
·
0개의 댓글
·
post-thumbnail

CS231n Lecture 13

이번 시간은 generator 모델을 주로 다뤘다. VAE나 GAN을 스터디때 많이 다뤄서 정말 반가웠다. supervised & unsupervised 보통 ML 입문자들이 큰 부류로 나눌때 먼저 배우는 걸 늦게 가르쳐줘서 특이하단 생각도 들었다. supervi

2023년 3월 4일
·
0개의 댓글
·
post-thumbnail

[Feature Matching] Feature Descriptor 비교

Feature Descriptor 비교해 보기

2023년 2월 28일
·
0개의 댓글
·

SuperGlue 톺아보기

시작하며, 최근에 저는 강화학습 기반 물체 재배열 알고리즘 개발을 졸업 프로젝트로 진행하고 있습니다. 기존에 진행했던 연구의 한계를 찾아 개선하는 방향으로 전개했습니다. 구체적으로, object matching module이 naive하게 구현되어 있어서 이 module의 accuracy를 높이는 쪽으로 연구하고 있습니다. 그러던 중, 조교님의 추천으로 ...

2023년 2월 24일
·
0개의 댓글
·
post-thumbnail

CS231n Lecture 12

Visualizing and Understanding 첫번째 layer의 weight를 시각화해보면 image에서 oriented edge를 찾는걸 볼 수 있다. Feature을 찾는 것이라 볼 수 있다. 필터들이 layer가 깊어지면서, 합성곱이 이뤄지고 점점 더

2023년 2월 24일
·
0개의 댓글
·