# clip

15개의 포스트

Feature Engineering_1

ML101601featureengineering.ipynb Impute 6 Different Ways to Compensate for Missing Values In a Dataset 결측치 비율에 따른 범주형 변수 처리 방법(권장) 5~10% : 어떤 방법으로 하든 상관없음 약 15% 정도 : 최빈값 대체 15% 이상 : 결측치 추정 방식 적용 Single Imputation Multiveriate Imputation Outlier Handling Handling Categorical Variables Tip label encoding : 회귀모델에는 적용하면 안

2023년 8월 26일
·
0개의 댓글
·
post-thumbnail

[CVPR 2023]Finetune like you pretrain: Improved finetuning of zero-shot vision models

https://openaccess.thecvf.com/content/CVPR2023/html/GoyalFinetuneLikeYouPretrainImprovedFinetuningofZero-ShotVisionModelsCVPR2023_paper.html Main Contribution 이 논문에서는 자연스럽고 간단한 방법인 contrastive pre-training 방법을 모방하는 것을 통해 일관적으로 좋은 성능을 내는 fine-tuning 방법론에 대해 소개한다. 이를 통해 위 방법이 image-text model을 fine-tuning하는 "standard" fine-tuning 방법이 될 수 있다는 것을 주장한다. Introduction 최근 image와 text를 jointly pre-trained하는 large-scale의 모델(CLIP or ALGIN)이 개발되어졌고, zero-shot classification

2023년 8월 23일
·
0개의 댓글
·

[IJCV 2023]How Does Fine-tuning Impact Out-of-Distribution Detection for Vision-Language Models ?

https://arxiv.org/abs/2306.06048 Abstract 최근, CLIP같은 모델이 out-of-distribution (OOD) detection과 generalization performance에서 아주 뛰어난 성능을 보여주고 있다. 그런데, 이러한 zero-shot in-distribution (ID) accuracy는 종종 downstream dataset에서 제한적이기 때문에, prompt learning과 같은 CLIP-based fine-tuning methods를 통한 ID classification 그리고 OOD generalization의 성능 향상이 등장하고 있다. 그런데, 이러한 fine-tuning이 few-shot downstream task에서 OOD detection에 어떤 영향을 주는지 잘 알려져 있지 않고 있다. **따라서, 이 논문에서는 multi-modal concept matching으로써의 OOD detecti

2023년 8월 22일
·
0개의 댓글
·
post-thumbnail

[논문 리뷰] Learning Transferable Visual Models From Natural Language Supervision

Abstract 기존 CV 분야의 SOTA 모델은 사전에 정의된 object categories들의 데이터셋만을 예측하도록 학습되었다. 이러한 supervised 부분이 generality와 usability를 제한한다. 추가적인 labeled data가 필요하기 때문이다. 이미지에 대해 텍스트로 바로 학습하는 방법이 더 유용할 것이다. 4억개의 데이터셋으로 caption과 이미지 간 예측하는 사전학습 방법을 통해 SOTA image representation을 학습하는데 효과적이었다. 사전학습 이후, natural language로 학습된 visual concepts를 reference해 모델의 zero-shot transfer를 가능하게 해주었다. 30개가 넘는 CV, OCR, 영상 인식 등의 task들에서 fully supervised 방식만큼 좋은 성능을 보였다. code: https://github.com/OpenAI/CLIP

2023년 8월 6일
·
1개의 댓글
·
post-thumbnail

[CLIP 논문 리뷰](Learning Transferable Visual Models From Natural Language Supervision)

[CLIP] Learning Transferable Visual Models From Natural Language Supervision *본 템플릿은 DSBA 연구실 이유경 박사과정의 템플릿을 토대로 하고 있습니다. 1. 논문이 다루는 Task Task: Zero-Shot Image Classification Input: Image Output:Text Zero-shot : 어떻게 하면 Training set에 없는 보지 않은 데이터를 예측할까?, 어떻게 하면 데이터에 없는 새로운 클래스를 분류할까? 기

2023년 6월 14일
·
1개의 댓글
·
post-thumbnail

논문 분석: Learning Transferable Visual Models From Natural Language Supervision

CoCa논문을 읽으며 알게된 사실이 주요 기술이 CLIP이나 SimVLM을 모방했다는 것이다. 그래서 CLIP을 우선적으로 공부 후 찾아봐야겠다 결정하고 CLIP 논문을 분석했다. Abstract computer vision의 SOTA는 predetermined object categories에서 예측하도록 훈련된다. 이런 제한된 형태는 다른 vision task를 위한 새로운 labeling과 데이터가 필요하기 때문에 일바성과 유용성을 제한한다. image에 대한 raw text를 직접 학습하는 것이 supervision에 훨씬 광범위한 소스를 주는 대안이다. 이 논문은 인터넷의 400M 데이터쌍을 사용해 어떤 caption이 어떤 image와 함께 할지 예측하는 방식의 pretraining이 SOTA 이미지 표현을 학습하는 효율적이고 확장가능한 방법임을 논증한다. pretraining 후 자연어를 사용해 학습된 시각적 개념을 참조하여 downstream task에 z

2023년 3월 8일
·
0개의 댓글
·

[CSS] none vs hidden

display: none과 visibility: hidden 공통점 요소가 페이지에서 보이지 않는다. 스크린리더기에서 무시되므로, 메뉴를 접을 때와 같이 사용자에게 숨겨야 하는 경우가 아니라면 접근성 측면에서 적합하지 않다. 차이점 전자는 요소의 공간도 존재하지 않고, 후자는 요소가 공간을 정상적으로 차지한다. display:none;과 DOM none은 DOM에서 제거된 것처럼 보이나, 요소에 액세스할 수 있다. div를 생성하고 display:none; 속성을 준 후, DOM이 실시간으로 반영되는 getElementsBy~로 테스트해보니, 가져올 수 있었다! display: none; 사용 밑의 사진을 보면, 메뉴를 접을 때 display: none;을 사용하는 것을 볼 수 있다. ![](https://velog.velcdn.com/images/kimhayeon/post/592c77ea-8368-4c12-9a16-5

2023년 3월 7일
·
0개의 댓글
·
post-thumbnail

CLIP

Domain Shift train data와 test data를 같은 sample distribution에서 뽑았다고 가정할시 generation 문제를 경험합니다. CLIP 논문에서 딥러닝 모델이 인간보다 성능이 낮은 이유를 train dataset에서 'in-distribution performance'를 향상시키도록 학습하기 때문이라고 지적합니다. 그렇기에 앞서 얘기한 train data와 test data의 distribution 차이를 'Domain(Distribution) shift'라고 칭합니다. 이러한 문제를 해결하기 위해 'Domain Generation' 연구가 진행되고 있습니다. Domain Generation에서는 domain에서 불변(invariant)한 features를 뽑는데 집중합니다. Robustness 도메인 변화에 효과적인 모델이라면 robustness가 높을거라 추론할 수 있습니다. E

2022년 12월 16일
·
0개의 댓글
·
post-thumbnail

Self-Supervised Learning

Self-Supervised Learning Supervision을 위한 대량의 labelled data를 얻기 위해서는 많은 cost를 사용해야한다. unlabelled dataset만으로 task-agnostic하게 데이터를 잘 표현하는 좋은 'representation'을 얻기위해 연구가 시작되었다. 즉 unlabelled dataset으로부터 좋은 representation을 얻고자하는 학습방식으로 representation learning의 일종이다. unsupervised learning과 다른 점은 label(y) 없이 input(x) 내에서 target으로 쓰일만 한 것을 정해서 즉 self로 task를 정해서 supervision방식으로 모델을 학습한다. self-supervised learning의 task를 pretext task라고 부른다. 해당 task를 통해 학습한 모델을 downstream task에 transfer하여

2022년 12월 15일
·
0개의 댓글
·
post-thumbnail

[GDSC/ML] CLIP 이해를 위한 Transformer & GPT 리뷰📎

Attention Is All You Need 정리 Improving Language Understanding by Generative Pre-Training 정리 CLIP 참고 영상 CLIP: Connecting Text and Images Traditional Supervised Image Classifiers 한계 Fine-Tuning 없이 새로운 downstrea

2022년 11월 17일
·
0개의 댓글
·
post-thumbnail

앙상블 모델로 이미지 분류 성능을 높여보자

문제 & 데이터셋 출처: kaggle notebook 캐글에 게시된 intel image classification 데이터셋을 활용하여 간단하게 이미지 분류기 앙상블 모델을 실험해보았다. 실제 현업에서 마지막 classifier에 ML 모델을 도입하여 성능 개선을 이뤄본 경험이 있어 다른 데이터셋에도 적용해보고 싶었기 때문이다. 데이터셋은 아래와 같은 6개의 클래스, 총 24.3k장으로 구성되어 있다. EDA를 직접 자세히 진행해보지는 않았으나 산과 바다, 거리, 빌딩 등 비교적 명확한 경계를 가지고 있는 이미지들로 보인다. 다시 말

2022년 11월 2일
·
0개의 댓글
·

🛫제주도 관광지 추천 모델

Introduction 제주도 관광지 추천 모델은 여행지를 쉽게 선정하기위한 모델입니다. 이미지, 자연어(카테고리, 키워드 등)을 이용해 유사도를 계산하고 여행지를 추천하는 시스템을 구현하였습니다. 구현 결과(왼쪽 : 네비게이션 API 최적 경로 | 오른쪽 : 직선 거리 최적 경로) image Contents 1. 프로젝트 소개 2. 데이터 수집 및 전처리 관광지 데이터 숙박 데이터 3. 모델링 이미지 특징 추출 및 유사도 측정 음식 라벨링

2022년 5월 31일
·
0개의 댓글
·
post-thumbnail

[간단정리] Hierarchical Text-Conditional Image Generation with CLIP Latents(DALL-E2)

https://openai.com/dall-e-2/ CLIP같은 Contrastive 모델들은 이미지로부터 Robust representation을 학습할 수 있다고 알려져있음. 저자들은 이렇게 학습한 representation을 이용해 Image Generation을 수행하는 2-stage model을 제안함 Stage 1 : image embedding을 생성하는 prior network Stage 2 : image embedding으로부터 image를

2022년 5월 10일
·
0개의 댓글
·
post-thumbnail

[논문 리뷰] StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery

StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery StyleCLIP은 StyleGAN2와 CLIP이 결합한 모델로 2021년 ICCV에 Oral로 발표된 논문이다. 간단하게 latent vector를 text로 제어해서 새로운 이미지를 생성하는 모델이다. paper : StyleCLIP 본격적인 논분 리뷰에 앞서 CLIP이 뭔지부터 간단하게 살펴보자. Background CLIP CLIP은 올해 1월 Open API에서 공개한 모델이다. 기존의 CNN은 이미지의 특징을 뽑아내고 분류하고자 하는 클래스의 개수에 맞춰서 그에 맞게 분류를 하는 형태를 가지고 있는 반면에 CLI

2021년 9월 20일
·
1개의 댓글
·
post-thumbnail

[Bouncing Ball] clip()으로 도형에 이미지 넣고 애니메이션 적용

벽에 부딪히는 공 애니메이션 > 이번 글에서 다룰 내용 clip 사용하기 캔버스에 이미지 그리기 공에 이미지 넣기 clip된 그림에 애니메이션 적용 반복 및 랜덤 함수를 통해 공 여러개 생성 clip 사용하기 보라색 상자와 핑크색 공 핑크색 공에 보라색 상자 넣기 clip() 기능을 사용해 핑크색 공 안에 보라색 상자를 넣을 수 있다 즉, 핑크색 공은 보라색 상자 내부에만 존재 ![](https://images.velog.io/images/jehjong/post/9f76fe7b-1d71-41ad-b724-6d5cede6fc

2021년 2월 5일
·
0개의 댓글
·