I'm Lim

Xavier Initialization 본문

Deep Learning/Weight Initialization

Xavier Initialization

imlim 2022. 10. 23. 20:19

Paper

Glorot, Xavier, and Yoshua Bengio. "Understanding the difficulty of training deep feedforward neural networks." Proceedings of the thirteenth international conference on artificial intelligence and statistics. JMLR Workshop and Conference Proceedings, 2010.

Xavier Initialization 

 논문에서 나온 Random Initialization의 문제점은 다음 그림과 같다.

 

 

보이다시피, 학습이 시작되자마자 마지막 레이어가 0으로 수렴해버린다. 저자는 이 현상이 마지막 레이어의 bias 값이 너무 빨리 학습되어서일 것이라고 추측하였다. 즉, Back propagation 연산 과정 중 $X_j$가 안정적이지 못해 흔들리고 있을 때, 이 값과 관련없는 $\dfrac {\partial E}{\partial b}$가 수렴해버린다는 것 같다. 이러한 현상 때문에 학습의 속도가 느리고, 형편없는 일반화 결과가 나온다고 한다.

Xavier Initialization 증명

Xavier Initialization 공식

- Xavier Uniform Initialization

 

  • $X \sim U(-\sqrt{\dfrac {6}{fan_{in} + fan_{out}}}, \sqrt{\dfrac {6}{fan_{in} + fan_{out}}})$

- Xavier Normal Initialization

 

  • $X \sim N(0, \dfrac {2}{fan_{in} + fan_{out}})$

Xavier Initialization 특징

  Xavier Initialization은 tanh를 activation function을 사용했을 때를 기준으로 제시된 논문이다. 그 근거로, 만약 sigmoid를 사용하면 $E[X] = E[Y] = 0$의 가정을 위배하기 때문에 이 Xavier Initialization이 성립하지 않는다. 

 

  다만, Bengio, Yoshua. "Practical recommendations for gradient-based training of deep architectures." Neural networks: Tricks of the trade. Springer, Berlin, Heidelberg, 2012. 437-478. 논문에 따르면, Xavier Initialization의 표준 편차에 4를 곱한 값을 이용하면 실험적으로 잘 동작한다고 한다.

'Deep Learning > Weight Initialization' 카테고리의 다른 글

Kaiming He initialization  (0) 2022.10.29
Lecun Initialization  (0) 2022.10.23
Random Initialization  (0) 2022.10.23
Zero Initialization  (0) 2022.10.23
Weight Initialization  (1) 2022.09.30
Comments