How using CV?
Tesla Autopilot
![](https://velog.velcdn.com/images/pluto_0905/post/0f85dc05-9234-4856-89cf-6284c77229fa/image.png)
Medical AI
![](https://velog.velcdn.com/images/pluto_0905/post/cac3fba6-976b-40f1-8b27-14e245618e82/image.png)
NeRF (Neural Radiance Field)
![](https://velog.velcdn.com/images/pluto_0905/post/202b209f-a68a-4997-90a9-547716f03dbe/image.png)
Neural Radiance Fields는 3차원 장면을 디지털로 재구성하는 데 사용되는 딥러닝 기반 기술
Why CNN?
Multi Layer Perceptron
- MLP는 input layer → hidden layers → output layer로 구성
- Input layer의 neuron 개수는 tabular data의 feature 수와 동일
- 각 feature가 neuron에 대응되기 때문!
- MLP는 tabular data 를 학습하는 데 최적화 되어있음
MLP in CV
- 이미지를 MLP의 input layer에 입력하려면 이미지를 flatten 해야함
- 이미지를 flatten하면 어떤 단점이 있을까?
![](https://velog.velcdn.com/images/pluto_0905/post/8a2b4c77-5877-4ede-983e-ee8ba8ada18b/image.png)
이미지의 Locality 특성
- Spatial locality: 같은 물체라도 이미지마다 크기가 다름
- Positional invariance: 같은 물체라도 다른 위치에 있을 수 있음
![](https://velog.velcdn.com/images/pluto_0905/post/03ec165f-c64c-49f9-b54d-5a7a5317b62e/image.png)
Convolution Filter
- Convolution filter를 사용하면 이미지를 flatten하지 않고 연산 가능
- Object의 구조와 주변 정보를 함께 연산할 수 있음
- 같은 필터를 이미지 전체에 적용하여, 다른 위치에 똑같은 물체가 있는 경우 같은 연산을 수행
![](https://velog.velcdn.com/images/pluto_0905/post/f62c5ad9-28b7-4a63-8c66-90233b0eea2c/image.png)
CNN의 한계점
- Convolution filter로 locality를 쉽게 파악 가능했지만 다음과 같은 한계점이 있음
- 이미지 안에서 멀리 떨어진 객체끼리 관련성을 파악하기가 어려움
- 이미지의 각 파트가 이미지 이해에서 얼마나 중요한지, 얼마나 서로 관련이 있는지 평가할 수 없음
CNN 한계 극복을 위해 고안
- NLP에서 제안된 Transformer를 computer vision에 적용하여 해결
- 이를 기반으로 data-centric AI 시대의 도래
- Natural Language Processing (NLP) task를 위해 고안
- Long-range dependency : 문장 안에서 멀리 떨어진 단어끼리도 서로 관계지을 수 있음
- Self-attention mechanism : 각 단어들이 얼마나 서로 관련있는지 평가
![](https://velog.velcdn.com/images/pluto_0905/post/5e9edf56-dd23-4244-a12e-e36da51301f5/image.png)
ViT & Swin
- Transformer 구조를 computer vision에 적용하여 해결한 ViT (Vision Transformer) 등장
- 더 나아가 CNN 특성을 ViT에 다시 적용한 Swin Transformer