인공지능/DeepLearning from Scratch 2
DeepLearning from scratch2 - 1.3.2 미분과 기울기 (딥러닝 학습)
엘엠에스
2019. 7. 11. 00:49
(* DeepLearning from scratch2 서적을 학습한 후 정리한 내용임 )
y = f(x) 함수에서 "x에 관한 y의 미분"은 "∂y/∂x"라고 표현한다.
"x에 대한 y의 미분"은 "x를 조금 변화 시킬 때 y값이 변화하는 정도"를 의미한다. 또는 "y에 대한 x의 영향도" 를 의미한다. 수학적으로 보면 x의 임의의 위치에 대한 기울기를 의미하기도 한다.
L = f(x), L은 스칼라 값, x는 벡터인 경우 ,
x의 i번째 원소 xi 에 대한 L의 미분은 ∂L / ∂xi 이다.
따라서, 벡터 X에 대한 미분도 가능한다.
∂L / ∂x = (∂L/∂x1, ∂L/∂x2, ∂L/∂x3, .... ∂L/∂xn)
위의 식처럼 벡터의 각 원소에 대한 미분을 정리한 것을 기울기라고 한다.
행렬에도 기울기를 생각할 수 있다.
W 가 m × n 행렬인 경우 L = g(W) 공식에 대한 미분 즉 기울기는 다음과 같다.
여기서 중요한 것은 W 와 ∂L / ∂W의 형상이 같다는 것이다.
즉 임의의 행렬 형상과 해당 행렬을 미분한 기울기 행렬의 형상이 같다