- Convolution 종류
- SPP-Net
- LeNet 구현
- image classification
- Weight initialization
- deep learning
- 딥러닝
- object detection
- overfeat
- Optimizer
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- Today
- Total
목록Optimizer (5)
I'm Lim
Introduction 딥러닝은 optimizer로 Gradient Descent 기반의 기법을 사용합니다. 그러나, Quasi-Newton Method라는 다른 대안도 있습니다. 이 글에서는 왜 Quasi-Newton Method가 아닌 Gradient Descent을 사용하는지에 대해 알아보려고 합니다. Gradient Descent Gradient Descent의 기본적인 공식은 아래와 같습니다. θ=θ−η∇θJ(θ) Gradient Descent은 극소점을 찾는 것이 그 목적입니다. 위 식을 보면 알 수 있듯이, J(θ) 즉, 기울기가 0이 되버리는 순간에는 더 이상 θ가 변하지 않고, ..

Paper Ruder, Sebastian. "An overview of gradient descent optimization algorithms." arXiv preprint arXiv:1609.04747 (2016). 논문이 가지는 의미 다양한 optimization 기법을 통해 어떠한 이유로 optimization이 발전해왔는지에 대해 고찰해볼 수 있다. 또한, 어떤 optimization 기법을 사용해야 될지에 관한 직관을 키울 수 있다. 1. Adaptive momentum Estimation Optimizer (Adam) AdaGrad 계열 Optimizer 정리에서 사용하였던 gt를 다시 정의 해보면 gt=∇θtJ(θt,i)이다. Adam..

Paper Ruder, Sebastian. "An overview of gradient descent optimization algorithms." arXiv preprint arXiv:1609.04747 (2016). 논문이 가지는 의미 다양한 optimization 기법을 통해 어떠한 이유로 optimization이 발전해왔는지에 대해 고찰해볼 수 있다. 또한, 어떤 optimization 기법을 사용해야 될지에 관한 직관을 키울 수 있다. 1. Adaptive Gradient (AdaGrad) AdaGrad Optimizer는 기존의 learning rate 파라미터를 가변적으로 조절함으로써 성능을 개선시키기위해서 고안되었다. 자세히 말하자면, 많이 업데이트되는 파라미터의 learning rate는..

Paper Ruder, Sebastian. "An overview of gradient descent optimization algorithms." arXiv preprint arXiv:1609.04747 (2016). 논문이 가지는 의미 다양한 optimization 기법을 통해 어떠한 이유로 optimization이 발전해왔는지에 대해 고찰해볼 수 있다. 또한, 어떤 optimization 기법을 사용해야 될지에 관한 직관을 키울 수 있다. 1. Momentum Gradient Descent 글에서도 설명했다시피 BGD, SGD, Mini-batch GD는 local minimum이나 saddle point를 잘 빠져나오지 못한다. 이는 다시말해 손실함수가 global minimum으로 도달하지 못해..

Weight Optimization이란? 딥러닝 네트워크를 모델링 한 후, 이 모델에서 출력하는 예측값과 실제값과의 error를 이용해서 모델의 weight를 update 시키는 방법 Loss function 예측값과 실제값의 error를 정의하는 함수. 대표적인 예로 회귀문제에는 MSE Loss를 loss function가 있고, 분류문제에는 Cross Entorpy Loss가 있다. 위 그림은 MSE Loss를 시각화 시킨 것이다. 주목할만한 점은 x축이 w이고, y축이 J(w)라는 것이다. w는 weight를 의미하고, J(w)는 Loss function을 의미한다. 즉, J(w)는 w라는 가중치 행렬을 가진 모델의 예측값과 결과값의 차이다. 따라서, $J(w) = {\dfrac {1}{N}} \S..