# Computer Vision

317개의 포스트

Image inpainting(6)

"Learning Pyramid-Context Encoder Network for High-Quality Image Inpainting" 논문을 리뷰해보는 시간을 갖겠습니다. Abstract & Introduction High quality image inpainting은 missing area를 plausible(그럴듯한, 원본 이미지와 최대한 비슷하다...

4일 전
·
0개의 댓글

[Project_OCR]Yolo v3로 news 단락 구분 모델 만들기

Tesseract ocr은 해당 이미지 내 가장 많은 글자 크기를 기준으로 하기 때문에, 다수 글자보다 크거나 작은 것들이 이미지로 인식됨신문 클래스 4개 - 영자 신문신문 로고 / 기사 제목 / 줄글 / 이미지make./darknet detector train ./n

6일 전
·
0개의 댓글

10. 3D Understanding

3D가 AI에서 중요한 이유우리가 3D세상에 살고 있기 때문에, AI를 통해 사람들에게 도움을 주기 위해서는 3D에 대한 이해가 필요하다.그렇다면 우리는 3D를 어떻게 관찰하고 인지할 수 있을까?3D를 2D로 변환하여 관찰하는데 이를 projection이라 한다.e.g

2022년 5월 13일
·
0개의 댓글

9. Multi-modal Learning

사람이 여러 개의 감각기관을 활용하여 문제를 해결하듯이 딥러닝에도 이를 적용해보자.한 type의 데이터가 아닌 다른 특성을 갖는 데이터 type들을 같이 사용하는 활용하는 학습법 e.g.) Text , audio data 각각의 데이터들은 서로 다른 타입으로 자료구

2022년 5월 13일
·
0개의 댓글

8. Conditional Generative Model

sketch된 영상을 실제 사진과 같은 이미지로 변환해주는 과정을 생각해보자어떻게 보면 언어가 다를 때 번역하는 것과 같아서 서로 다른 두 도메인을 translation한다는 task이다.이 때 하나의 정보가 주어졌기 때문에, 이것을 condition되었다 또는 조건이

2022년 5월 13일
·
0개의 댓글

7. Autograd

Automatic gradient의 약자로 Automatic differentiation라고도 불린다.기본적으로 행렬 연산을 하는 라이브러리로 대부분 DL library의 고유한 기능이다.과거에는 gradient를 일일히 손으로 계산하고 backward 를 수식으로 전

2022년 5월 12일
·
0개의 댓글

6. CNN Visualization

black box 모델인 CNN의 내부 동작을 가시화하는 방법들에 대해 설명CNN을 구성해서 어떤 task의 데이터셋으로 입력과 출력을 주고 학습을 했음에도 잘 되지 않는 경우가 있는데 이 때는 왜 안되는걸까? 를 알아보기 위해 시각화를 진행한다.ZFNetdeconvo

2022년 5월 12일
·
0개의 댓글

5. Object Detection

지금까지의 기술은 영상을 인식하고 semantic segmentation까지 할 수 있었다.여기서 더 advance된 기법은 자동차들 중에 같은 종류의 자동차가 있는지와 같은 인스턴스 구분이 가능해진 Instance segmentation과 panoptic segmen

2022년 5월 12일
·
0개의 댓글

4. Semantic segmentation

지난번의 image classification을 영상 단위가 아닌 픽셀단위로 수행하는 것하나의 픽셀이 어느 객체인지를 구분하는 문제 → 하나의 영상 안에 있는 모든 객체를 검출semantic segmentation을 사용하게 되면 object들이 나눠지게 되고 이 특징

2022년 5월 12일
·
0개의 댓글

3. Image Classification 2

AlexNet부터 VGGNet으로 가면서 더 깊은 네트워크가 더 좋은 성능을 낸다는 것을 확인하였다.모델의 깊으면 더 복잡한 관계에 대해 학습이 가능하고, receptive field를 가지기 때문에 신중히 결론을 내릴 수 있기에 좋은 성능이 나온다.이 논리라면 깊이를

2022년 5월 12일
·
0개의 댓글

2. Annotation Data Efficient Learning

우리가 학습에 사용하는 데이터는 모두 사람이 보기 좋게 찍은 사진들이지만, 실제 데이터들은 어떻게 들어올지 모르는 데이터들이다.우리의 데이터셋이 real data를 충분하게 표현하지 못한다면 여러 문제가 발생한다. eg ) 밝은 영상으로만 이루어진 데이터로 모델을

2022년 5월 12일
·
0개의 댓글

YoLo v4

Region proposal 단계가 없고, 전체 이미지에서 bounding box 예측과 classification을 동시에 예측한다.따라서, 이미지 또는 물체를 전체적으로 관찰하여 추론하는 것으로 맥락적 이해가 높은 모델이다.CNN의 정확도를 향상시키는 feature

2022년 5월 12일
·
0개의 댓글

Faster R-CNN

Sota를 달성한 object detection network들은 객체 위치를 예측하기 위해 region proposal 알고리즘에 의존한다. SPPnet과 Fast R-CNN 같은 발전으로 네트워크 실행시간을 단축시킬 수 있었지만, region proposal을 계산

2022년 5월 12일
·
0개의 댓글

Fast R-CNN

Fast R-CNN은 R-CNN의 한계점을 보완하고자 제안되었다. region of interest 마다 CNN 연산을 하기 때문에 속도가 느리다. → ROI pooling을 통해 해결multi-stage piplines이기 때문에 end-to-end로 학습하지 못한다

2022년 5월 12일
·
0개의 댓글

R-CNN

object detection의 성능은 지난 몇 년 동안 정체되었다. 지금까지 최고의 성능을 나타내는 방법은 여러 low-level의 이미지 특징을 high-level 특징과 결합하는 복잡한 앙상블 시스템이었다.논문에서는 이전 최고 결과와 비교하여 mAP를 30% 향상

2022년 5월 12일
·
0개의 댓글

ResNet

Abstract신경망이 깊어질수록 학습하기는 어렵다. 이 논문에서는 이전의 네트워크보다 상당히 깊은 네트워크를 학습하기 용이하게 하기 위한 잔차 학습(residual learning)을 제시한다. 함수를 새로 만드는 것 대신 잔차를 학습에 사용하는 것으로 layer를

2022년 5월 12일
·
0개의 댓글

Image inpainting(5)

"Context Encoders: Feature Learning by Inpainting” 논문을 리뷰해보는 시간을 갖겠습니다. Abstract context-based pixel 예측을 통해 unsupervised visual feature learning algorithm을 제시. Context Encoder라는 이름의 모델이고, 임의의 Image의...

2022년 5월 12일
·
0개의 댓글

VGGNet

논문은 큰 이미지 인식 설정 시 Convolution 네트워크의 깊이가 정확도에 미치는 영향을 조사한다. Vggnet은 3x3의 작은 filter들을 이용하여 네트워크를 점점 깊게 쌓으며 검증하였고, 그 결과 상당한 개선이 이루어졌다. 또한, vggnet을 이용해 Im

2022년 5월 11일
·
0개의 댓글

AlexNet

AbstractImageNet LSVRC-2010 대회에서 1000개의 클래스의 120만 고해상도 이미지를 분류하기 위해 대규모 deep convolution network를 훈련했다.신경망은 6천만 개의 파라미터와 65만개의 뉴런과 5개의 convolution lay

2022년 5월 11일
·
0개의 댓글

1. Image Classification 1

사람의 지능은 인지능력과 지각능력 기억과 이해 및 사고능력 까지의 넓은 영역을 의미AI는 바로 이 사람의 지능을 컴퓨터 시스템으로 구현하는 것사람은 5개의 감각을 활용해 세상과 상호작용을 하며 학습을 한다. 또한, 5개의 오감 말고도 교차값과 다중값을 통해 더 유용한

2022년 5월 11일
·
0개의 댓글