최근 인터넷 트래픽 중 80퍼가 비디오 데이터일 만큼 엄청난 양의 시각적 데이터들이 쏟아져 나오고 있다. 이 데이터들을 효과적으로 이해하고 분석해서, 컴퓨터가 인간의 시각적인 인식능력을 가질 수 있도록 알고리즘을 개발하기 시작했고, 이것을 컴퓨터 비전이라 한다. ➡️ 인간이 시각적으로 하는 일을 대행하도록 시스템 구축
인터넷 트래픽 중 80%는 인터넷 비디오 데이터였고, 인터넷의 데이터 대부분이 시각적인 자료였다. 이러한 시각적 자료 혹은 데이터를 암흑 물질(Dark Physics)라고 표현했는데, 시각 데이터를 이해하고 해석하기 어려우며 이를 해결할 수 있는 알고리즘이 개발의 필요성을 강조했다.
컴퓨터 비전이 어떻게 발전되어 왔는지를 보기 전에, 가장 먼저 시각의 중요성에 대해 알아보자. 약 5억 4천만 년 전, 천만 년이라는 아주 짧은 시간 동안에 생물의 종이 드라마틱하게 증폭되었고, 많은 가설들 중 앤드류 파커(Andrew Parker)는 그 시기즈음 최초의 눈이 생겨났다고 말한다. 시각이 생김으로써 생물들이 보다 능동적으로 먹이를 찾아다니고, 위험으로부터 자신을 지킬 수 있었다는 것. 비전의 시작에서부터 현재에 이르기까지 시각은 무엇보다 중요한 것.
▶️ 1950년대
"시각 처리는 edges와 같은 단순한 구조로 시작되어 점점 복잡한 요소들을 처리하고, 궁극적으로 실제 시각적 input을 인지할 수 있게된다."
▶️ 1960년 초
▶️ 1966년
▶️ 1970년대
▶️ 1980년대
객체 분할
로 변경▶️ 1999/2000년대
기계학습
SVM(Support Vector Machine), Boosting, Graphical models, 초기 NN(Neural Network)
Paul Viola, Michael Jones: 실시간 얼굴인식 성공(2001)
David Lowe: SIFT feature
특징기반 객체 인식
알고리즘
변화에 좀 더 강인하고 불변한 특징을 발견
이미지 전체를 매칭하던 것에서 ➡️ 중요한 특징들을 찾아내어 다른 객체에 매칭시키는 것이 더 쉽다!
Spatial Pyramid Matching, Support Vector Algorithm: 인터넷과 카메라의 발전으로 실험데이터들의 질이 급격히 상승하며 양질의 데이터셋을 모으기 위한 움직임이 이어짐
PASCAL Visual Object Challenge(VOC): 알고리즘 테스트에 사용되었고, 밑의 그래프는 2007년부터 2012까지의 객체인식 성능을 보여준다.
ImageNet: 가장 큰 데이터셋을 만들어 Overfitting을 방지하고 일반화 능력을 키워 이 세상 모든 객체들을 인식할 준비를 하였고 ILSVRC 대회를 열어 해당 데이터셋으로 지속적인 알고리즘 테스트를 진행하며 CNN의 오류율을 10% 초반까지 감소시킴
여기서 주목해야할것은 2012년도의 CNN으로 오류율을 급격히 감소
시킨다는 것. 이 수업에서는 CNN을 중점적으로 다룬다. CNN의 등장 배경은 연산 속도의 증가와 데잍 셋의 증가이며 이는 오류율 감소에 큰 역할을 함!
🔻 앞으로 다룰 주제들