(* DeepLearning from scratch2 서적을 학습한 후 정리한 내용임 )

 

y = f(x) 함수에서 "x에  관한 y의 미분"은 "∂y/x"라고 표현한다.

"x에 대한 y의 미분"은 "x를 조금 변화 시킬 때 y값이 변화하는 정도"를 의미한다. 또는 "y에 대한 x의 영향도" 를 의미한다. 수학적으로 보면 x의 임의의 위치에 대한 기울기를 의미하기도 한다.

L = f(x), L은 스칼라 값, x는 벡터인 경우 ,

x의 i번째 원소  xi 에 대한 L의 미분은 L / xi 이다.

따라서, 벡터 X에 대한 미분도 가능한다.

 

  L / x = (L/x1, L/x2, L/x3, .... L/xn)

 

위의 식처럼 벡터의 각 원소에 대한 미분을 정리한 것을 기울기라고 한다.

 

행렬에도 기울기를 생각할 수 있다.

W 가 m × n 행렬인 경우 L = g(W) 공식에 대한 미분 즉 기울기는 다음과 같다.

 

여기서 중요한 것은 W 와  L / W의 형상이 같다는 것이다.

즉  임의의 행렬 형상과 해당 행렬을 미분한 기울기 행렬의 형상이 같다

 

 

 

 

 

 

+ Recent posts