'Optimizer' 태그의 글 목록

Notice

Recent Posts

Link

Tags more

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Archives

Today

Total

관리 메뉴

목록Optimizer (5)

I'm Lim

Gradient Descent / Newton Method

Introduction 딥러닝은 optimizer로 Gradient Descent 기반의 기법을 사용합니다. 그러나, Quasi-Newton Method라는 다른 대안도 있습니다. 이 글에서는 왜 Quasi-Newton Method가 아닌 Gradient Descent을 사용하는지에 대해 알아보려고 합니다. Gradient Descent Gradient Descent의 기본적인 공식은 아래와 같습니다. $\large {\theta = \theta - \eta \nabla_{\theta} J(\theta)}$ Gradient Descent은 극소점을 찾는 것이 그 목적입니다. 위 식을 보면 알 수 있듯이, $J(\theta)$ 즉, 기울기가 0이 되버리는 순간에는 더 이상 $\theta$가 변하지 않고, ..

Deep Learning/Fundamental 2022. 12. 28. 20:52

Adam Optimizer

Paper Ruder, Sebastian. "An overview of gradient descent optimization algorithms." arXiv preprint arXiv:1609.04747 (2016). 논문이 가지는 의미 다양한 optimization 기법을 통해 어떠한 이유로 optimization이 발전해왔는지에 대해 고찰해볼 수 있다. 또한, 어떤 optimization 기법을 사용해야 될지에 관한 직관을 키울 수 있다. 1. Adaptive momentum Estimation Optimizer (Adam) AdaGrad 계열 Optimizer 정리에서 사용하였던 $g_t$를 다시 정의 해보면 $g_t = \nabla_{\theta_t} J(\theta_{t,i})$이다. Adam..

Deep Learning/Optimization 2022. 9. 28. 23:09

AdaGrad / AdaDelta / RMSprop

Paper Ruder, Sebastian. "An overview of gradient descent optimization algorithms." arXiv preprint arXiv:1609.04747 (2016). 논문이 가지는 의미 다양한 optimization 기법을 통해 어떠한 이유로 optimization이 발전해왔는지에 대해 고찰해볼 수 있다. 또한, 어떤 optimization 기법을 사용해야 될지에 관한 직관을 키울 수 있다. 1. Adaptive Gradient (AdaGrad) AdaGrad Optimizer는 기존의 learning rate 파라미터를 가변적으로 조절함으로써 성능을 개선시키기위해서 고안되었다. 자세히 말하자면, 많이 업데이트되는 파라미터의 learning rate는..

Deep Learning/Optimization 2022. 9. 26. 22:21

Momentum / Nesterov Accelerated Gradient

Paper Ruder, Sebastian. "An overview of gradient descent optimization algorithms." arXiv preprint arXiv:1609.04747 (2016). 논문이 가지는 의미 다양한 optimization 기법을 통해 어떠한 이유로 optimization이 발전해왔는지에 대해 고찰해볼 수 있다. 또한, 어떤 optimization 기법을 사용해야 될지에 관한 직관을 키울 수 있다. 1. Momentum Gradient Descent 글에서도 설명했다시피 BGD, SGD, Mini-batch GD는 local minimum이나 saddle point를 잘 빠져나오지 못한다. 이는 다시말해 손실함수가 global minimum으로 도달하지 못해..

Deep Learning/Optimization 2022. 9. 21. 23:44

Optimizer

Weight Optimization이란? 딥러닝 네트워크를 모델링 한 후, 이 모델에서 출력하는 예측값과 실제값과의 error를 이용해서 모델의 weight를 update 시키는 방법 Loss function 예측값과 실제값의 error를 정의하는 함수. 대표적인 예로 회귀문제에는 MSE Loss를 loss function가 있고, 분류문제에는 Cross Entorpy Loss가 있다. 위 그림은 MSE Loss를 시각화 시킨 것이다. 주목할만한 점은 x축이 w이고, y축이 J(w)라는 것이다. w는 weight를 의미하고, J(w)는 Loss function을 의미한다. 즉, J(w)는 w라는 가중치 행렬을 가진 모델의 예측값과 결과값의 차이다. 따라서, $J(w) = {\dfrac {1}{N}} \S..

Deep Learning/Optimization 2022. 8. 9. 15:12

Prev 1 Next

목록Optimizer (5)

I'm Lim

티스토리툴바