cs231n 4강 summary & questions

Parker cho·2022년 1월 25일
0

cs231n

목록 보기
7/7
post-thumbnail

4강

목차

Backpropagation

cost function 의 값이 최소가 되도록하는 W 와 b를 찾을 수 있도록하는 알고리즘

예시 1

q=x+y,qx=1,qy=1q = x+y,\frac{\partial q}{\partial x} = 1,\frac{\partial q}{\partial y} = 1
f=qz,fq=z,fz=qf = qz,\frac{\partial f}{\partial q} = z,\frac{\partial f}{\partial z} = q
fx=?,fy=?,fz=?\frac{\partial f}{\partial x} = ?, \frac{\partial f}{\partial y} = ?, \frac{\partial f}{\partial z} = ?

풀이 1

Gradient flow

Paterns in backword flow

  • Add gate(Gradient distributor)
  • Max gate(Gradient router)
  • Mul gate(Gradient switcher)

Vectorized Operations

연산에 필요한 모든 행렬은 자코비안 행렬로 표현가능

아래와 같은 그림에서 연산은 각 요소마다 영향을 끼치기 때문에 자코비안행렬은 대각행렬임
$$ $$

Vectorized Example

q=Wx,fW=?,fx=?q = Wx, \frac{\partial f}{\partial W} = ?, \frac{\partial f}{\partial x} = ?

Questions 4

Q1. 다음 그래프에서 f(x,y,z) 함수를 정의하고 연쇄법칙을 활용해 dx dy dz를 구하시오.

Q2. 그래프의 끝에서 부터 gradient 값을 구 할 때 local gradient 와 ? gradient 값을 구해 현재 노드에서의 gradient 값을 구할 수 있다 ? 에 들어갈 용어를 적으시오.

Q3-1. add gate, max gate, mul gate 의 역할을 설명하시오.

Q3-2. 해당 역할이 어떻게 수행 될 수 있는지 수식을 활용해 설명하시오.

Q4. 아래와 같이 여러 노드로부터 gradient 값이 전파 될 경우 upstream 값은 어떻게 정의해야 하는지 설명하시오.

Q5. 아래 그림과 같이 input vector 가 3개 output vector가 3개인 operation이 있을 때 정의되는 jacobian matrix는 어떤 특징을 지니는지 설명하시오.

profile
true nobility is being superior to your former self

0개의 댓글