- LeNet 구현
- 딥러닝
- Optimizer
- Convolution 종류
- image classification
- SPP-Net
- Weight initialization
- deep learning
- overfeat
- object detection
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- Today
- Total
목록deep learning (27)
I'm Lim
Zero Initialization Zero Initialization은 딥러닝 모델의 가중치 초기화 방법 중 하나이고, 가중치와 편향값의 초기 값을 모두 0으로 설정한다. Zero Initialization의 문제점 흔히 알려져있는 Zero Initialization의 문제점은 모든 가중치의 값이 동일하게 업데이트 된다는 것이다. ( $S_i = \Sigma W_i * X_i$ ) 그러나, Softmax를 통과하고 Cross Entropy를 거친 딥러닝 모델의 Back Propagation 연산과정을 직접 진행하면서 몇가지의 의문점이 생겼다. Zero initialization 의문점 다음은 출력층에 Softmax를 사용하고, Loss function으로 Cross Entropy를 가지는 딥러닝 모델의..
Weight Initialization 가중치 초기화는 딥러닝을 학습 시킬 때 중요한 요소 중 하나이다. 1. 보통 딥러닝 모델을 학습시킬 때는 경험적으로 학습시키는 경우가 많은데, 이럴 경우 기준점이 있어야한다. 2. 실제 모델 학습할 때, 표현의 다양성에 영향을 끼칠 수 있다. Zero Initialization Activation function이 모두 ReLU이고, Fully Connected Layer를 모델링하였다고 가정하자. 이때, Weight 값들을 모두 0으로 초기화하면 어떤 현상이 발생할까? 순전파로 이동하면서 모두 같은 출력 값을 가지게 될 것이다. ( $y_i = \sigma (w_1 * x_1 + w_2 * x_2 + ...$)) 따라서, 역전파시 동일한 backpropagatio..
Paper Ruder, Sebastian. "An overview of gradient descent optimization algorithms." arXiv preprint arXiv:1609.04747 (2016). 논문이 가지는 의미 다양한 optimization 기법을 통해 어떠한 이유로 optimization이 발전해왔는지에 대해 고찰해볼 수 있다. 또한, 어떤 optimization 기법을 사용해야 될지에 관한 직관을 키울 수 있다. 1. Adaptive momentum Estimation Optimizer (Adam) AdaGrad 계열 Optimizer 정리에서 사용하였던 $g_t$를 다시 정의 해보면 $g_t = \nabla_{\theta_t} J(\theta_{t,i})$이다. Adam..
Paper Ruder, Sebastian. "An overview of gradient descent optimization algorithms." arXiv preprint arXiv:1609.04747 (2016). 논문이 가지는 의미 다양한 optimization 기법을 통해 어떠한 이유로 optimization이 발전해왔는지에 대해 고찰해볼 수 있다. 또한, 어떤 optimization 기법을 사용해야 될지에 관한 직관을 키울 수 있다. 1. Adaptive Gradient (AdaGrad) AdaGrad Optimizer는 기존의 learning rate 파라미터를 가변적으로 조절함으로써 성능을 개선시키기위해서 고안되었다. 자세히 말하자면, 많이 업데이트되는 파라미터의 learning rate는..
Paper Ruder, Sebastian. "An overview of gradient descent optimization algorithms." arXiv preprint arXiv:1609.04747 (2016). 논문이 가지는 의미 다양한 optimization 기법을 통해 어떠한 이유로 optimization이 발전해왔는지에 대해 고찰해볼 수 있다. 또한, 어떤 optimization 기법을 사용해야 될지에 관한 직관을 키울 수 있다. 1. Momentum Gradient Descent 글에서도 설명했다시피 BGD, SGD, Mini-batch GD는 local minimum이나 saddle point를 잘 빠져나오지 못한다. 이는 다시말해 손실함수가 global minimum으로 도달하지 못해..
Global Minimum loss function에서 loss 값이 가장 작은 지점. 이 지점에 도달하는 것이 딥러닝 학습의 최종 목표이다. Local Minimum Global Minimum이 아닌 극소점. 이것이 문제가 되는 이유는 딥러닝에서는 Gradient Descent를 이용하여 가중치 업데이트를 하는데 ($\theta = \theta - \eta * J(\theta)$; BGD) 극소점에서는 모든 가중치들의 기울기 값이 0이 되므로 더이상 가중치를 업데이트 시키지 못하기 때문이다. Saddle Point - Paper : Dauphin, Yann N., et al. "Identifying and attacking the saddle point problem in high-dimensional..
Paper Ruder, Sebastian. "An overview of gradient descent optimization algorithms." arXiv preprint arXiv:1609.04747 (2016). 논문이 가지는 의미 다양한 optimization 기법을 통해 어떠한 이유로 optimization이 발전해왔는지에 대해 고찰해볼 수 있다. 또한, 어떤 optimization 기법을 사용해야 될지에 관한 직관을 키울 수 있다. 1. Vanilla Gradient Descent (Batch Gradient Descent; BGD) 하이퍼 파라미터 - $\eta$ : learning rate로써 계산된 loss function의 gradient를 얼만큼 weight 업데이트시 반영할 것인가..
Weight Optimization이란? 딥러닝 네트워크를 모델링 한 후, 이 모델에서 출력하는 예측값과 실제값과의 error를 이용해서 모델의 weight를 update 시키는 방법 Loss function 예측값과 실제값의 error를 정의하는 함수. 대표적인 예로 회귀문제에는 MSE Loss를 loss function가 있고, 분류문제에는 Cross Entorpy Loss가 있다. 위 그림은 MSE Loss를 시각화 시킨 것이다. 주목할만한 점은 x축이 w이고, y축이 J(w)라는 것이다. w는 weight를 의미하고, J(w)는 Loss function을 의미한다. 즉, J(w)는 w라는 가중치 행렬을 가진 모델의 예측값과 결과값의 차이다. 따라서, $J(w) = {\dfrac {1}{N}} \S..