중간에 존재하는 변수들에 이름은 q로 설정
우리가 최종적으로 찾길 원하는 것은 x, y, z에 대한 f의 gradient
먼저 우리는 노드의 local gradient를 구할 수 있음 ()
이때 backpropagation이 어떻게 동작하는지 살펴보면,
이제 우리는 x와 y의 값에 대한 바로 직전 노드의 gradient를 찾고자 함
이후 계산된 gradient 값을 해당 노드와 연결된 상류 노드로 전달
비선형 함수를 사용하는 것이 중요한 이유는, 선형 레이어로만 이루어진 함수는 아무리 깊게 쌓는다고 해도 결국 선형 함수일 뿐이다. 이는 결국 단순한 task만 수행이 가능하며, 복잡한 task를 수행하기 위해서는 부적합하다. 따라서, 비선형 함수를 사용하는 것이다.