- overfeat
- deep learning
- SPP-Net
- Convolution 종류
- object detection
- image classification
- Optimizer
- 딥러닝
- LeNet 구현
- Weight initialization
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- Today
- Total
목록전체 글 (56)
I'm Lim
Vanishing gradient & Exploding gradient 모델의 성능 개선을 위해 가장 우선적으로 고려해볼 수 있는 경우는 모델의 레이어를 깊이 쌓는 일이다. 하지만, 레이어를 깊이 쌓으면 학습 도중에 가중치의 기울기가 사라지는 현상 혹은 폭발적으로 커지는 현상이 발생한다. 이를 각각 Vanishing gradient / Exploding gradient problem이라 한다. 1. Vanishing gradient 1 ) Vanishing gradient의 원인 딥러닝은 Back propagation 연산 시, Activation function의 편미분 값과 모델의 가중치 값들을 이용하게 된다. Activation function 글에서 살펴봤듯이, sigmoid나 tanh를 사용하게..
1. Activation function Vanishing gradient나 Exploding gradient 문제를 이야기하기 앞서 대표적인 Activation function을 소개해야할 것 같다. 1 ) Sigmoid Sigmoid 함수의 수식은 $\sigma (x) = \dfrac {1}{1 + e^{-x}}$이다. Sigmoid 함수의 미분 식은 $\sigma'(x) = \sigma(x)(1-\sigma(x))$이다. 주목할 점은 $ 0 \leq \sigma'(x) \leq 0.25$라는 것이다. 2 ) Tanh tanh 함수의 식은 $tanh(x) = \dfrac {e^x - e^{-x}}{e^x + e^{-x}}$다. tanh 함수의 미분 식은 $tanh'(x) = 1 - tanh^{2}(x..
Paper Xie, Saining, et al. "Aggregated residual transformations for deep neural networks." Proceedings of the IEEE conference on computer vision and pattern recognition. 2017. Abstract ResNext는 기존의 모듈기반의 Image Classification 모델과 같이 모듈을 반복적으로 쌓는 구조를 갖는다. 그러나, ResNext는 기존의 모델에서 필수적인 요소로 여겨지던 "Width"와 "Depth"에 "Cardinality"라는 요소를 도입하였다. Cardinality를 증가시키는 것이 width나 depth를 증가시키는 것보다 성능 개선에 훨씬 효과적이라고..
Paper Chollet, François. "Xception: Deep learning with depthwise separable convolutions." Proceedings of the IEEE conference on computer vision and pattern recognition. 2017. Abstract Xception은 Inception 모듈을 depthwise seperable convolution의 관점으로 바라본다. 이 관점으로 새로운 모듈을 만들고, 이를 적용시켜 Inception v3보다 성능을 높였다. Xception은 Inception v3와 같은 수의 파라미터를 가지는데 성능이 더 높았다. 논문에서는 파라미터의 수가 같았기 때문에 Xception의 성능 개선은 표현..
Paper Iandola, Forrest N., et al. "SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and< 0.5 MB model size." arXiv preprint arXiv:1602.07360 (2016). Abstract & Introduction CNN 구조가 복잡해짐에 따라 모델이 요구하는 메모리가 증가하였다. CNN 모델의 크기를 줄이는 것은 세가지의 이점이 있다. 1 ) 분산 학습시 서버 간에 주고 받아야 할 데이터가 줄어든다. 2 ) 자율주행을 위해 클라우드에서 모델을 불러올 때, 작은 대역폭을 요구할 수 있다. 3 ) FPGA나 제한된 메모리를 요하는 하드웨어에 올릴 수 있다. 위 세가지의 이점을 실현시키기 위해..
Paper Huang, Gao, et al. "Densely connected convolutional networks." Proceedings of the IEEE conference on computer vision and pattern recognition. 2017. Abstract ResNet 논문에서 레이어 간 shortcut connection을 이용하였을 때 더욱 안정적이고, 빠르게 학습 함을 보였다. ResNet이 레이어 간의 shotcut connection을 가지는 구조라면, DenseNet은 이전 모든 레이어와 현재 레이어에 shortcut connection을 가지는 구조다. 따라서, ResNet의 shortcut connection의 개수가 $L$개라면, DenseNet은 $\d..
Paper Szegedy, Christian, et al. "Inception-v4, inception-resnet and the impact of residual connections on learning." Thirty-first AAAI conference on artificial intelligence. 2017. Abstract 본 논문은 GoogLeNet의 Inception 모듈과 ResNet의 residual 모듈을 결합하여 Inception 모듈을 개선시킨 Inception v4에 대해 설명한다. Residual Inception Blocks 1. Stem module 위 모듈 구조를 Stem이라고 한다. Stem은 이미지를 직접적으로 입력으로 받는 모듈이다. 1 ) 초반부 3 x 3 Co..
Paper He, Kaiming, et al. "Identity Mappings in Deep Residual Networks." arXiv preprint arXiv:1603.05027 (2016) Abstract 본 논문에서는 Residual Block의 연산과정에 대해 분석하고, 이를 통해 새로운 Residual Block을 고안한다. Introduction 기존 ResNet 논문에서는 Fig. 1 (a)의 residual block을 사용했다. 이를 수식으로 풀면 다음과 같다. 여기서, $h(x_l)$는 identity mapping을 의미하며, $F(x_l, W_l)$은 residual mapping을 의미한다. 또한, $f(y_l)$은 ReLU activation을 적용시킨다는 의미다. 저자의..