Lecture1. Introduction and Historical Context

Song Chae Won·2023년 6월 30일
0

Deep-Learning

목록 보기
1/1
post-thumbnail

Lecture1. Introduction and Historical Context

컴퓨터 비전이란?(Computer Vision)

최근 인터넷 트래픽 중 80퍼가 비디오 데이터일 만큼 엄청난 양의 시각적 데이터들이 쏟아져 나오고 있다. 이 데이터들을 효과적으로 이해하고 분석해서, 컴퓨터가 인간의 시각적인 인식능력을 가질 수 있도록 알고리즘을 개발하기 시작했고, 이것을 컴퓨터 비전이라 한다. ➡️ 인간이 시각적으로 하는 일을 대행하도록 시스템 구축

인터넷 트래픽 중 80%는 인터넷 비디오 데이터였고, 인터넷의 데이터 대부분이 시각적인 자료였다. 이러한 시각적 자료 혹은 데이터를 암흑 물질(Dark Physics)라고 표현했는데, 시각 데이터를 이해하고 해석하기 어려우며 이를 해결할 수 있는 알고리즘이 개발의 필요성을 강조했다.

Vision의 시작

컴퓨터 비전이 어떻게 발전되어 왔는지를 보기 전에, 가장 먼저 시각의 중요성에 대해 알아보자. 약 5억 4천만 년 전, 천만 년이라는 아주 짧은 시간 동안에 생물의 종이 드라마틱하게 증폭되었고, 많은 가설들 중 앤드류 파커(Andrew Parker)는 그 시기즈음 최초의 눈이 생겨났다고 말한다. 시각이 생김으로써 생물들이 보다 능동적으로 먹이를 찾아다니고, 위험으로부터 자신을 지킬 수 있었다는 것. 비전의 시작에서부터 현재에 이르기까지 시각은 무엇보다 중요한 것.

Computer Vision의 역사

▶️ 1950년대

  • Hubel과 Wiesel
    그들은 생물의 시각적 메커니즘을 알고싶어했고, 이를 위해 고양이 뇌에 전극을 꽂아 실험을 진행하였음. 고양이에게 어떠한 시각적 자극을 주어야 고양의 뇌의 1차 시각 피질의 뉴런들이 격렬하게 반응할지에 대해 실험을 진행한 결과, 1차 시각 피질에는 다양한 종류의 세포가 존재하는데, 그 중 시각적 input의 edges가 움직일 때 반응하는 꽤 단순한 세포에 초점을 맞추었을 때,

"시각 처리는 edges와 같은 단순한 구조로 시작되어 점점 복잡한 요소들을 처리하고, 궁극적으로 실제 시각적 input을 인지할 수 있게된다."

▶️ 1960년 초

  • 최초의 박사학위 논문인 Larry Roberts의 Block World. 그는 사물들을 기하학적 모양으로 단순화하고, 이를 통해 시각적 세상을 재구성하는 연구를 진행

▶️ 1966년

  • MIT Summer Project

▶️ 1970년대

  • David Marr의 책 VISION 저술. 컴퓨터 비전의 기본서
  • Stanford, SRI에서는 단순한 모양이나 기하학적 구성을 통해 복잡한 객체를 단순화시키는 방법을 제안.

▶️ 1980년대

  • David Lowe는 어떻게 하면 단순한 구조로 재구성할 수 있을지를 고민하여 lines, edges, straight lines의 조합들로 구성한 객체 분할로 변경

▶️ 1999/2000년대

  • 기계학습

  • SVM(Support Vector Machine), Boosting, Graphical models, 초기 NN(Neural Network)

  • Paul Viola, Michael Jones: 실시간 얼굴인식 성공(2001)

  • David Lowe: SIFT feature

  • 특징기반 객체 인식 알고리즘

  • 변화에 좀 더 강인하고 불변한 특징을 발견

  • 이미지 전체를 매칭하던 것에서 ➡️ 중요한 특징들을 찾아내어 다른 객체에 매칭시키는 것이 더 쉽다!

  • Spatial Pyramid Matching, Support Vector Algorithm: 인터넷과 카메라의 발전으로 실험데이터들의 질이 급격히 상승하며 양질의 데이터셋을 모으기 위한 움직임이 이어짐

  • PASCAL Visual Object Challenge(VOC): 알고리즘 테스트에 사용되었고, 밑의 그래프는 2007년부터 2012까지의 객체인식 성능을 보여준다.

  • ImageNet: 가장 큰 데이터셋을 만들어 Overfitting을 방지하고 일반화 능력을 키워 이 세상 모든 객체들을 인식할 준비를 하였고 ILSVRC 대회를 열어 해당 데이터셋으로 지속적인 알고리즘 테스트를 진행하며 CNN의 오류율을 10% 초반까지 감소시킴

Convolutional Neural Networks(CNN)

여기서 주목해야할것은 2012년도의 CNN으로 오류율을 급격히 감소시킨다는 것. 이 수업에서는 CNN을 중점적으로 다룬다. CNN의 등장 배경은 연산 속도의 증가와 데잍 셋의 증가이며 이는 오류율 감소에 큰 역할을 함!

🔻 앞으로 다룰 주제들

  • image classification
  • object detection
  • image captioning
profile
@chhaewxn

0개의 댓글