I'm Lim

[논문 구현] LeNet

imlim — Mon, 27 Mar 2023 08:41:12 +0900

1. LeNet 구현

위 그림을 참조하여 아래와 같이 코드 구현을 진행하였습니다.

class LeNet(nn.Module):
    def __init__(self):
        super(LeNet, self).__init__()
        self.conv1 = nn.Conv2d(in_channels=1, out_channels=6, kernel_size=5, stride=1, padding=0)
        self.conv2 = nn.Conv2d(in_channels=6, out_channels=16, kernel_size=5, stride=1, padding=0)
        self.conv3 = nn.Conv2d(in_channels=16, out_channels=120, kernel_size=5, stride=1, padding=0)
       
        self.fc1 = nn.Linear(in_features=120, out_features=84)
        self.fc2 = nn.Linear(in_features=84, out_features=10)

        self.avg_pool = nn.AvgPool2d(kernel_size=2, stride=2, padding=0)

    def forward(self, x):
        x = self.avg_pool(F.tanh(self.conv1(x)))
        x = self.avg_pool(F.tanh(self.conv2(x)))
        x = F.tanh(self.conv3(x))

        x = x.view(x.size(0), -1)

        x = F.tanh(self.fc1(x))
        x = self.fc2(x)

        return x

※ Loss function으로 CrossEntropyLoss를 사용하였습니다.

※ Optimizer로 SGD를 사용하였습니다.

2. LeNet 학습 결과

학습을 위해 MNIST 데이터 셋을 사용하였고, Batch size : 128, epoch : 100, Learning Rate : 1e-3, Weight decay : 1e-5으로 설정하였습니다.

그다지 어렵지 않은 MNIST 데이터 셋이라 그런지 Overfitting은 발생하지 않았습니다.

[논문 정리] Fast R-CNN

imlim — Sun, 19 Feb 2023 16:21:03 +0900

Paper

Girshick, R. (2015). Fast r-cnn. In Proceedings of the IEEE international conference on computer vision (pp. 1440-1448).

Abstract

Fast R-CNN 모델은 기존의 R-CNN, SPP-Net, Overfeat과 달리 Classification과 Regression을 동시에 학습을 진행합니다. 또한, SPP-Net과 유사하게 학습시 입력으로 한장의 이미지만을 사용합니다. 그 결과, VGG-16을 기준으로 R-CNN에 비해 학습시간이 9배 빨랐고, SPP-Net에 비해 3배 빨랐다고합니다. 성능적인 측면에서도 mAP를 66%를 기록하면서 R-CNN보다 좋은 성능을 보였습니다.

R-CNN and SPP-Net

1. 여러단계의 학습 과정

R-CNN은 우선 ImageNet으로 학습된 모델을 fine-tuning시키고, SVM을 통해 classifier를 정의한 후 bounding box regressor를 학습시킵니다.

2. 학습 시간 및 메모리

SVM과 bounding box regressor의 학습을 위해 selective search를 통해 얻은 모든 proposal들을 메모리에 올려야합니다. 이는 대략 수백 기가바이트에 달한다고 합니다. 또한, VOC 07기준 2.6일이 소요됩니다.

3. Object detection is slow

테스트 시, R-CNN은 한장을 처리하는 데 대략 47초가 걸린다고 합니다.

SPP-Net은 모든 proposal들을 입력으로 사용하는 것이 아니라, 한장의 이미지만을 입력으로 사용함으로써 R-CNN에 비해 테스트 시간을 10배에서 100배정도 단축시켰습니다. 하지만, SPP-Net은 R-CNN의 구조를 그대로 사용하였기 때문에 Classifier와 Regressor를 따로 학습시킵니다. 또한, SVM과 Regressor의 학습이 CNN 네트워크에 영향을 끼치지 못한다는 단점이 존재합니다.

Fast R-CNN은 다음과 같은 장점을 가지고 있습니다.

R-CNN과 SPP-Net보다 성능이 좋습니다.
Classifier와 Regressor를 동시에 학습합니다.
학습이 모든 네트워크에 영향을 미칩니다.
디스크 용량이 요구되지 않습니다.

Fast R-CNN architeture and training

Fast R-CNN architecture

Fast R-CNN의 학습과정은 다음과 같습니다.

전체 이미지를 입력으로 이용하여 CNN 네트워크에 통과시킵니다.
Region proposal을 통해 얻은 proposal들을 이용하여 고정된 길이의 feature vector를 추출합니다.
feature vector를 두개의 fc layer의 입력으로 사용하여 classifier를 위한 출력 값과 regressor를 위한 출력값을 추출합니다.

The ROI pooling layer

ROI pooling layer는 CNN network와 fc layer 사이에 위치합니다. ROI pooling layer의 출력은 fc layer의 입력으로 사용되는데, 이 크기를 맞춰주기 위한 변환작업이라 생각할 수 있습니다.

ROI pooling layer의 처리과정은 다음과 같습니다.

입력 이미지를 CNN network에 통과시켜 feature를 추출합니다.
Region proposal을 통해 얻은 proposal들을 이용하여 feature의 경계를 제한합니다.
경계를 가지는 feature에 max-pooling을 적용하여 feature map 크기를 고정된 H x W로 변환시킵니다.
이 feature를 fc layer의 입력으로 사용합니다.

※ ROI pooling layer는 Spatial Pyramid Pooling의 특수한 경우로 볼 수 있습니다.

Initializing from pre-trained networks

Fast R-CNN은 Backbone 모델로 VGG 16을 사용하고, 학습을 위해서 모델을 변형시킵니다.

마지막 max pooling을 ROI pooling layer로 교체합니다. VGG 16 fc layer의 입력은 feature map 크기가 7 x 7이어야 하므로 이에 맞게 H와 W를 7 x 7로 고정시킵니다.
fc layer의 마지막 단을 classifier (K+1차원 벡터)와 regressor ((K+1) x 4차원 벡터)로 교체합니다.
VGG-16의 입력이 두가지 데이터를 입력으로 받도록 교체합니다 (전체 이미지, proposals).

Fine-tuning for detection

앞서 SPP-Net은 CNN 네트워크가 학습시 업데이트 되지 못한다고 하였습니다.

1. SPP-Net과 R-CNN이 학습하는 방식은 너무 비효율적입니다.

이 모델들은 학습 샘플들을 구성할때, 각기 다른 이미지들로부터 하나의 ROI 샘플들을 추출하여 입력으로 사용합니다. 이를 해결하기 위해, Fast R-CNN은 N개의 이미지를 정하고, ROI를 R / N개를 추출하여 학습에 사용한다고 합니다.

정리하자면, 기존 SPP-Net과 R-CNN은 N = 128, R = 128인 반면, Fast R-CNN은 N = 2, R = 128로 지정하여 학습 샘플을 추출하였습니다.

우선, 이 방식은 계산량을 줄입니다. R-CNN은 128개의 이미지 모두 selective search를 진행하고, 하나의 ROI를 추출하는 것에 비해, Fast R-CNN은 2개의 이미지에 한해 selective search를 진행하고, 64개의 ROI를 추출하기 때문에 계산량이 줄어듭니다. 이 방식은 기존의 방식보다 Fast R-CNN이 64배 정도 빠르다고 합니다.

예를 들어, 128개의 이미지가 있고, ROI를 64번 학습시키는 데 드는 계산량을 구해보겠습니다. (Selective search 계산량 : a)

N = 2, R = 128인 Fast R-CNN의 경우, 128개의 이미지 전체를 학습하는 데 걸리는 계산량은 2 x a x 64 가 됩니다 (Selective search x 배치 이미지 개수 x (전체 이미지 개수 / 배치 이미지 개수)).

그에 반해, R-CNN은 128 x a x 64가 됩니다 (Selective search 개수 x 배치 이미지 개수 x (64 / ROI 개수)).

아마, 이러한 논리로 Rast R-CNN이 64배정도 더 빠르다고 하지 않았나 추측하고 있습니다.

2. Fast R-CNN은 한번에 학습합니다.

세 단계로 이루어진 (Fine-tuning, SVM 학습, regressor 학습) R-CNN과 달리 Fast R-CNN은 이를 한번에 처리합니다. 따라서, CNN network들이 업데이트가 가능해집니다.

Mutli task loss

한번에 학습하기 위해서, Fast R-CNN은 classifier와 regressor의 loss를 아래와 같이 하나로 합칩니다.

$L_{cls} (p, u)$는 Classifier의 loss로써 cross entropy loss로 생각하면 됩니다.

$L_{loc} (t^u, v)$는 Regressor의 loss로써 MSE loss를 생각하면 됩니다. ( 자세히 말하면, MSE와 MAE를 둘다 사용 )

$\lambda$는 Regressor를 얼만큼 반영할 것인가에 대한 파라미터인데 논문에서는 그냥 1을 사용했다고 합니다.

마지막으로, $[u \ge 1]$는 해당 입력이 positive라면 1을, negative라면 0을 줌으로써 background class의 경우 regressor 학습을 진행하지 않도록 합니다.

※ Positive : ground truth와의 IOU가 0.5이상인 것. (미니 배치 중 25%) // Negative : ground truth와의 IOU가 [0.1, 0.5)인 것. (미니 배치 중 75%)

Fast R-CNN detection

1. Training Fast R-CNN

종합해보자면, Fast R-CNN은 아래와 같은 과정으로 학습을 진행합니다.

1 ) Hierarchical sampling

위에서 설명한대로 N : 2과 R : 128로 하이퍼 파라미터를 설정한 후, 2개의 이미지에 대해 selective search를 통해 이미지 당 64개의 proposal들을 추출합니다. 이후, positive sample과 negative sample로 나눈 후, 미니 배치를 구성합니다.

2 ) Feature extractor

위의 미니 배치를 수정된 VGG 16의 입력으로 사용하여 ROI Pooling layer까지 통과시키고, feature를 추출합니다.

3 ) The ROI pooling layer

proposal들을 이용하여 추출한 feature의 경계를 정하고, ROI pooling layer를 통과시켜 7 x 7 feature map을 얻습니다. (VGG 기준)

4 ) Fully connected layer

7 x 7 feature map을 flatten 시키고, fc layer에 통과시킵니다. 이를 통한 출력은 K+1 차원의 벡터 (classifier)와 (K+1) x 4차원의 벡터 (regressor)입니다.

5 ) Multi task loss

이후, 이 값들을 가지고 위에서 설명한 multi task loss를 구하여 학습을 진행합니다.

Discussion

Fast R-CNN은 R-CNN과는 달리 원본 이미지를 학습에 사용합니다. 이는 SPP-Net과 유사합니다. 하지만, SPP-Net은 R-CNN의 구조를 그대로 사용하여 fine-tuning, SVM, Regressor가 모두 따로 학습되고, 이는 CNN 네트워크가 학습 시 업데이트가 되지 못하는 구조를 가집니다. 이를 해결하기 위해, Fast R-CNN은 fine-tuning, classifier, regressor를 한번에 업데이트 시킵니다.

[논문 정리] SPP-Net

imlim — Thu, 9 Feb 2023 21:57:35 +0900

Paper

He, K., Zhang, X., Ren, S., & Sun, J. (2015). Spatial pyramid pooling in deep convolutional networks for visual recognition. IEEE transactions on pattern analysis and machine intelligence, 37(9), 1904-1916.

Abstract

기존의 CNN 모델 ( e.g, VGGNet, GoogLeNet, etc ) 등은 224 크기의 고정된 이미지 사이즈를 입력으로 사용합니다. 논문에서는 이것이 성능 저하를 야기할 수 있다고 주장합니다. 이를 해결하기 위해, Spatila Pyramid Pooling 개념을 도입하여 위와 같은 제한을 없앴습니다. 그 결과, Classification과 Object detection 분야에서 우수한 성능을 기록했다고 합니다.

SPP-Net은 Object Detection 학습을 위해 단 한장의 이미지만 입력으로 사용합니다. 그 결과, R-CNN과 거의 유사한 성능을 보임과 동시에 inference time이 24에서 102배 더 빨랐다고 합니다.

Spatial Pyramid Pooling

Overfeat에서도 말씀드렸다시피, Classification 모델이 고정된 이미지 크기를 입력으로 받는 이유는 Fully Connected Layer 때문입니다. SPP-Net은 마지막 Conv 레이어에 SPP Layer를 적용함으로써 이러한 제한을 제거하였다고 합니다.

SPP-Net은 고정된 이미지크기라는 제약이 없기 때문에 아래와 같이 Crop / Warp과정이 생략됩니다.

1. Spatial Pyramid Pooling의 장점

입력 이미지의 크기와 무관하게 spatial pyramid pooling layer의 출력의 길이는 동일합니다.
spatial pyramid pooling은 여러 spatial bins를 가질 수 있습니다. ( 여러 max pooling을 동시에 적용가능 )
입력 이미지의 크기와 무관하므로 다양한 scale로부터 feature를 추출할 수 있습니다.

2. R-CNN과의 차이점

R-CNN은 Selective search로부터 추출한 proposal들을 전부 CNN의 입력으로 사용했습니다. 하지만, SPP-Net은 이러한 과정없이 원본 이미지를 입력으로 사용하여 단 한번의 CNN 연산을 거칩니다.

Training the Network

1. Single-size training

입력이미지를 224 x 224로 Crop하여 사용합니다.

2. Multi-size training

SPP-Net은 어떠한 크기의 이미지도 입력으로 사용할 수 있습니다. 그렇기 때문에, 180 x 180 과 224 x 224의 이미지 크기를 입력으로 사용하여 에폭마다 입력의 크기를 번갈아가면서 학습을 진행합니다.

SPP-Net for Image Classification

ImageNet 학습을 위한 Baseline 모델로는 ZF-5, AlexNet-5, Overfeat-5/7을 선택했습니다. ( 각 모델 이름 뒤 숫자는 conv layer 개수 ) 또한, 4-level pyramid를 택했는데 {6 x 6, 3 x 3, 2 x 2, 1 x 1}입니다.

결과는 위와 같이 SPP를 적용하고, Multi-size로 학습시킨 모델이 성능이 가장 우수함을 알 수 있습니다.

SPP-Net for Object Detection

R-CNN은 2000개의 proposal들을 selective search를 통해 추출하고, 227 크기로 resize한 이미지를 입력으로 사용합니다. 다시 말해, 이미지당 2000개의 이미지가 반복적으로 연산하여 많은 시간을 소요하게 됩니다.

SPP-Net은 전체 이미지를 단 한번만 사용해 feature를 추출합니다. 따라서, R-CNN보다 훨씬 더 짧은 시간을 소요합니다.

1. Detection Algorithm

Detection의 과정은 아래와 같습니다.

입력 이미지에 selective search를 적용해 2000개의 proposal들을 얻습니다.
CNN모델의 입력으로 사용하여 feature map들을 추출합니다.
2000개의 proposal 좌표를 이용하여 feature map의 경계를 제한합니다.
경계가 제한된 feature map을 SPP Layer의 입력으로 사용합니다.
SPM Layer의 출력을 FC Layer의 입력으로 사용합니다.
R-CNN의 SVM과 동일한 방식으로 클래스를 분류합니다.
(bb의 경우) R-CNN의 Box Regressor와 동일한 방식으로 bounding box를 예측합니다.

[ 1 ] https://www.youtube.com/watch?v=wGa6ddEXg7w&list=PL1GQaVhO4f_jLxOokW7CS5kY_J1t1T17S&index=73

2. Detection Results

결과는 표에서도 알 수 있듯이 SPP-Net을 이용한 model이 R-CNN과 유사한 성능을 보이지만, inference time은 훨씬 빨랐음을 보여줍니다.

Appendix & Question

1. R-CNN과의 차이점

논문에서도 강조하다시피, R-CNN과의 가장 큰 차이점은 CNN 모델의 연산횟수다. R-CNN은 selective search로부터 얻은 proposal들을 전부 CNN 모델의 입력으로 사용하는 반면, SPP-Net은 원본 이미지 단 하나만을 CNN 모델의 입력으로 사용한다. 이후, 학습 방식 자체는 동일하다.

2. Overfeat과의 차이점

Overfeat은 region proposal을 통해 얻은 proposal들을 CNN 모델의 입력으로 사용하지 않는다는 점에서는 유사하지만 region proposal이 feature에 영향을 끼치진 않는다. 그에 반해, SPP-Net은 feature map의 경계를 region proposal을 통해 결정한 후, SPP Layer의 입력으로 사용된다.

[논문 정리] Overfeat

imlim — Sun, 5 Feb 2023 14:21:36 +0900

Paper

Sermanet, P., Eigen, D., Zhang, X., Mathieu, M., Fergus, R., & LeCun, Y. (2013). Overfeat: Integrated recognition, localization and detection using convolutional networks. arXiv preprint arXiv:1312.6229.

Introduction

Overfeat 논문은 classification 문제와 detection 문제를 하나의 공유된 네트워크를 통해 학습시킵니다. 개인적인 생각으로 이 논문의 가장 핵심은 feature map을 sliding window의 관점으로 해석했다는 점입니다.

Classification

1. Feature extractor

Overfeat 모델도 R-CNN 모델처럼 feature extractor를 위해 ImageNet 데이터셋을 이용하여 사전 학습된 모델을 이용합니다. CNN 모델은 AlexNet에서 약간의 수정을 거친 모델을 사용합니다.

[ 1 ] fast model

[ 2 ] Accurate model

논문에서는 입력으로 221 pixels를 사용하였다는 것으로 미루어보아 Accurate model을 기준으로 설명하였음을 유추할 수 있습니다.

2. Mutli-scale Classification

AlexNet은 test 시에 [모서리 부분 4개, 중앙 부분 1개 + Horizontal Flip]을 사용하여 총 10개의 이미지를 테스트로 사용합니다. 하지만, 저자는 이것이 이미지의 많은 영역을 무시할 뿐 아니라, 한 가지 scale을 이용하기 때문에 CNN 모델의 성능을 최대화시키는 scale이 아닐 가능성이 있다고 주장합니다. 또한, Pooling이 많이 들어가게 되면 여러픽셀들이 하나의 값으로 압축됩니다 (Layer 5의 출력). 이는 성능저하를 일으킬 것이라 주장합니다.

[ 3 ] 6-scale feature maps

위 문제들을 해결하기 위해서 6개의 scale을 입력으로 사용하고, Layer 5에 Pooling 적용 전 값을 추출합니다. (Layer 5 pre-pool)

이후, 아래와 같은 과정을 거칩니다.

3 x 3 max pooling을 overlap되지 않게 픽셀을 1칸씩 이동하면서 3 x 3번 추출합니다. ( Layer 5 post-pool )
Layer 6의 입력 feature 크기는 5 x 5이고, sliding window방식으로 적용한다고 합니다. ( Classifier map pre-reshape)
2의 출력을 하나로 합칩니다. ( Classifier map size )

3. ConvNet and Sliding Window Efficiency

그림에서도 보이다시피, 이미지의 크기가 늘어나도 receptive field는 동일함을 알 수 있습니다. 이는 feature map의 한 픽셀이 window의 역할을 수행함을 암시합니다.

Localization

해당 논문은 Localization을 위해 ILSVRC 2012 데이터셋을 사용했기 때문에 R-CNN에서 domain-specific finetuning 부분을 진행하지 않은 것으로 보입니다.

1. Regressor Training

regressor를 학습시키기 위해, 위에서 설명한 Layer 5 post-pool의 출력을 사용합니다. 이후, 아래 그림과 같이 4096 채널과 1024 채널, 마지막으로 4개의 채널을 가지는 hidden layer를 사용하여 regression을 진행합니다.

[ 4 ] regressor example of 6 x 7 input shape

학습을 위해 feature extractor 부분을 freeze 시켰다고 합니다 ( Layer 1 - 5 ). 또한, 실제 바운딩 박스와 IOU가 0.5 미만인 것은 regressor의 학습에서 제외시켰다고 합니다 ( 이 정도면 regression window가 객체를 포함하지 않는다고 판단 ).

2. Combining Predictions

위와 같이 학습을 진행하고, 결과를 추출하게 된다면 굉장히 많은 바운딩박스를 예측하게 됩니다. 기존의 방식은 NMS를 통해 bounding box를 merge 하였지만, 해당 논문은 다른 방식으로 bounding box merge를 진행합니다. 상세한 과정은 다른 블로그에 자세히 설명되어 있으므로 생략합니다.

Appendix & Question

1. R-CNN과의 차이점

Overfeat 논문은 R-CNN과는 달리 selective search 등을 통한 region proposal을 진행하지 않는다. 대신, 6가지 scale을 입력으로 사용하여 얻은 spatial location을 window처럼 취급한다.

[개념 정리] Non Max Suppression

imlim — Tue, 24 Jan 2023 16:56:39 +0900

1. Non Max Suppression (NMS)

1 ) NMS 개념

Selective Search를 통해 region proposal을 하면 과도하게 많은 영역을 제안하게 됩니다. 이는 학습시간을 오래 걸리게 하고, 실시간 적용을 힘들게 하는 주요 원인 중 하나라고 볼 수 있습니다. 따라서, 제안된 영역의 개수를 줄이는 방안이 필요했고, 그중 하나가 Non Max Supperession입니다.

Non Max Suppression은 재밌는 2개의 아이디어를 가지고 있습니다.

올바르게 제안된 영역은 Confidence Score가 높을 것이다.
한 객체를 기준으로 영역 간 IOU가 높다면 이것은 같은 객체를 가르킬 가능성이 높다.

2 ) NMS 알고리즘

제안된 영역의 Confidence Score를 모두 구하고, confidence threshold보다 작은 영역들은 모두 제거한다.
Confidence Score를 기준으로 내림차순 정렬을 진행한다.
정렬된 Confidence Score의 순서대로 모든 box와의 IOU를 구한 후, IOU threshold보다 크다면 제거한다.
3의 과정을 반복한다.

이런 식으로 진행하게 되면, 객체가 존재할 확률이 크고, 객체 간 IOU가 작은 영역들만 남게 됩니다.

아래의 그림에서 적절한 Confidence threshold와 IOU threshold를 사용한다면 초록색 영역만 남길 수 있을 겁니다.

2. Soft NMS

여기서 하나의 의문점이 생깁니다. 만약, 클래스가 같은 객체가 겹쳐있다면 어떻게 되느냐입니다. 기존의 NMS 알고리즘을 이용하면 아래의 그림의 초록색 영역이 3의 과정에서 제거됩니다.

당연히, 초록색 영역이 제거되면 AP 성능이 감소하게 됩니다. 이를 해결하기 위해서 기존의 NMS 알고리즘을 개선시킨 것이 Soft NMS 알고리즘입니다.

Soft NMS 알고리즘은 NMS 알고리즘의 3번째 과정을 수정시킨 것입니다.

기존의 NMS는 IOU threshold 이상일 때 영역을 제거해버리는 방식이었다면, Soft-NMS는 Confidence score를 낮추는 방식을 택합니다. Confidence score를 낮추는 방식은 IOU threshold를 기준보다 크면 Confidence score를 낮추는 이산적 방식 ( 1 ) 과 가우시안 함수를 이용하여 연속적으로 Confidence score를 낮추는 방식 ( 2 ) 이 있습니다.

( 1 ) 이산적으로 confidence score

( 2 ) 연속적으로 confidence score

Soft NMS 방식은 영역을 제거하는 것이 아니라 Confidence score를 줄이는 방식이기 때문에 알고리즘 종료 전에 confidence threshold 이하인 영역을 제거해주는 작업이 필요합니다.

Reference

[ 1 ] Bodla, Navaneeth, et al. "Soft-NMS--improving object detection with one line of code." Proceedings of the IEEE international conference on computer vision. 2017.

[논문 정리] R-CNN

imlim — Tue, 24 Jan 2023 02:01:33 +0900

Paper

Girshick, R., Donahue, J., Darrell, T., & Malik, J. (2014). Rich feature hierarchies for accurate object detection and semantic segmentation. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 580-587).

Introduction

저자는 R-CNN 모델이 첫 번째로 ILSVRC 2012 우승 모델인 AlexNet을 사용하여 성능을 기존 모델 대비 30% 이상 올렸다는 점과 파인튜닝을 통해 성능을 향상했다는 점을 논문의 핵심 포인트로 꼽았습니다.

R-CNN은 이름 그대로 Region Proposal과 CNN 모델을 결합시킨 모델입니다. 논문에서는 R-CNN을 학습시키기 위해 PASCAL VOC 데이터 셋을 사용했습니다. PASCAL VOC는 train 데이터와 val 데이터를 합쳐도 12000개가량으로 CNN모델을 학습시키기에 부족했고, 저자는 이를 해결하기 위해 ImageNet 데이터셋으로 학습된 AlexNet에 파인튜닝을 하였다고 합니다.

Object detetcion with R-CNN

R-CNN 모델은 세가지의 프로세스로 구성됩니다.

1. Region proposal

R-CNN은 region propsal을 위해 Selective search 방식을 이용합니다. (Sliding window 방식도 고려는 했으나, CNN 모델의 Receptive field의 크기와 Stride가 커서 사용하지 않았다고 합니다)

2. Feature Extraction

AlexNet 모델에 Selective Search를 통해 얻은 proposal들을 전부 집어넣고, 일곱 번째 단의 출력인 4096차원의 feature vector를 추출합니다. CNN 모델은 고정된 이미지 크기를 입력으로 받기 때문에 이미지 크기를 Resize 시켜야 합니다. 저자는 이미지의 크기나 이미지 가로 세로 비율을 고려하지 않고, proposal 주변 16픽셀을 포함하여 Resize 시켰다고 합니다.

※ CNN이 고정된 이미지 크기를 입력으로 받는 것은 classifier 역할을 하는 fully connected layer 때문입니다. 이에 관련된 내용은 Overfeat 논문에서 나옵니다.

3. SVM

학습된 CNN 모델으로부터 얻은 feature vector들을 이용하여 클래스 별로 SVM을 학습합니다. SVM은 객체인지 아닌지 판별하는 역할을 합니다. ( 즉, PASCAL VOC는 클래스가 20개이므로 21개의 SVM을 요구합니다 )

요약하자면, R-CNN은 다음과 같은 과정을 거칩니다.

[ 1 ] R-CNN process

Selective search를 통하여 proposal들을 추출
각 proposal을 학습된 AlexNet의 입력으로 사용하여 일곱 번째 단의 출력 ( feature ) 추출
클래스에 해당하는 feature를 이용하여 SVM 학습

CNN 모델 학습 ( Feature Extractor )

1. Supervised pre-training

위에서 나온 AlexNet 모델을 학습시키기 위해 우선 ImageNet 데이터를 이용하여 학습을 진행합니다. 이는 Image Classification 학습을 의미합니다.

※ R-CNN 모델은 그 목적이 Object Detection이므로 Classification이 목적인 ImageNet 데이터 셋에 학습된 AlexNet을 Auxiliary dataset에 학습되었다고 말합니다.

2. Domain-specific fine-tuning

Pre-trained된 AlexNet을 가져와서 마지막 단의 Linear Layer의 출력 클래스 개수만 데이터 셋에 맞게 바꾼 뒤, 모델을 파인튜닝시킵니다.

※ 이 때, Selective search를 통해 얻은 proposal들이 입력으로 사용되는데, 실제 객체의 위치 (바운딩 박스)와의 IOU가 0.5 이상이라면 positive, 그렇지 않으면 negative로 둡니다. ( Positive는 객체에 해당하는 클래스이고, Negative는 Background인 듯합니다 )

※ positive에서 32개의 샘플, negative에서 96개의 샘플을 가져와 미니배치 사용하여 학습을 진행합니다.

Test

Selective search의 fast mode를 이용하여 2000개의 proposal들을 추출하여 이를 CNN 모델의 입력으로 사용합니다. 그 이후, Non Max Supperession을 통해 겹치는 영역들을 제거한다고 합니다.

Pascal VOC 2010 Result

표에서 보이다시피, R-CNN이 기존의 모델들보다 우수함을 알 수 있습니다.

Bounding Box regression

예측된 바운딩 박스는 당연히 실제 바운딩 박스와 차이가 나기 때문에 이 오차를 줄이고자 AlexNet의 5번째 Conv Layer에 Pooling이 적용된 출력을 feature로 사용하여 ridge regression을 진행하였다고 합니다. 선형 회귀를 위해, 아래의 식을 사용합니다.

$\hat{G}$ 는 예측 바운딩 박스입니다. 즉, 우리가 찾고 싶은 것은 $\hat{G}$ = $G$가 되도록 하는 $d(P)$입니다. 이를 만족하는 $d(P)$를 $t$라고 하면 아래와 같이 나타낼 수 있습니다.

$d(P)$를 $t$ 에 근사화시키는 릿지 회귀를 식으로 나타내면 아래와 같고, 이것이 bounding box regression입니다.

Reference

[ 1 ] https://towardsdatascience.com/r-cnn-fast-r-cnn-faster-r-cnn-yolo-object-detection-algorithms-36d53571365e

Appendix & Question

1. SVM vs Softmax Layer

: 처음 논문을 읽을 때는 Domain-Specific fine-tuning과정에서 이미 분류를 위한 학습을 진행하였는데 왜 SVM을 사용하는지가 이해가 되지 않았다. 해답은 Appendix에 나와있었는데 SVM을 사용한 이유는 성능이 더 잘 나와서라고 한다.

: Domain-specific fine-tuning과정으로 객체 분류 학습을 진행하고, 다시 한번 SVM을 통해 객체 분류 학습을 시킨게 맞다.

2 ) Bounding Box

: Result 표에서 R-CNN과 R-CNN BB가 분리된 것을 보고, R-CNN는 bounding box를 어떻게 예측하는지에 대한 의문이 생겼다.

: 해답은 표에서 나온 R-CNN은 bounding box regression을 진행하지 않는다. 그 이유는 Selective search를 통해 얻은 proposal 자체가 bounding box이기 때문이다. ( 파이썬을 이용하여 Selecitive search를 이미지에 적용하면 bounding box 좌표를 반환한다 )

: R-CNN은 selective search를 통해 추출한 고정된 bounding box의 객체여부를 다루는 문제로 볼 수 있다 ( SVM ). 여기서 한발 더 나아가, R-CNN BB는 selective search를 통해 얻은 bounding box의 좌표를 실제 bounding box에 근사화하는 작업 ( Ridge regression )까지 진행한다고 볼 수 있다.

[명령어 정리] git repo 생성부터 git commit까지

imlim — Fri, 30 Dec 2022 09:32:33 +0900

git init

git을 생성하고 싶은 폴더 위에서 git init 명령어를 사용

git add

1. git add의 역할

git이 추적하고 있지 않은 파일을 추적하도록 합니다 (파일을 생성한 경우).

수정한 파일을 git이 추적하도록 합니다 (이미 커밋까지 한 파일을 수정한 경우).

2. git add 사용법

git add <파일 이름> : 특정 파일을 git의 Staging area로 올립니다.
git add . : 생성 및 수정한 파일 전부를 한번에 Staging area로 올립니다.

git commit

1. git commit의 역할

체크포인트를 생성합니다.
커밋을 함으로써 Staging area에 있던 파일들을 Repository로 올립니다.

2. git commit 사용법

git commit -m "커밋 메시지" : 커밋 메시지가 짧을 때, 편집기 없이 간편하게 커밋하기 위해 사용합니다.
git commit : 커밋 메시지가 길어서 편집기를 이용해야할 때 사용합니다.
git commit --amend : 커밋을 실수로 진행한 경우, 해당 파일의 커밋을 덮어씁니다.
git commit -a -m "커밋 메시지" : git add와 커밋을 동시에 수행해줍니다.

Git Example (CLI)

1. Example

Git_Practice라는 폴더에 first.txt라는 파일을 만들었고, 이를 git을 활용하여 버전관리를 하고 싶다는 상황을 가정하겠습니다. 그러기 위해서는 Git_Practice 폴더 위에서 아래와 같이 진행하면 됩니다.

git init : Git_Practice라는 폴더를 git repository로 생성.
git add . / git add first.txt : first.txt를 Staging area로 올림. (파일이 하나밖에 없으므로 둘 중 어느 명령어도 상관 없음)
git commit -m "커밋 내용" : 체크포인트 생성과 이를 설명할 커밋 메시지 생성. ( 저는 first commit이라는 내용을 사용했습니다)

2. Result ( gitKraKen을 통해 시각화하였습니다. )

1 ) Repository / branch

Git_Practice라는 폴더가 Repository가 된 것을 확인할 수 있고, master라는 이름의 branch가 생성되었음을 알 수 있습니다

(git init을 진행하면 기본적으로 master라는 이름의 branch를 생성합니다).

2 ) Commit

git add와 git commit을 진행하면, 위와 같이 master branch가 해당 파일을 repository에 등록하게 됩니다.

이러한 커밋정보는 git log 혹은 git log --oneline 명령어를 통해서 확인가능합니다.

Conclusion

결론적으로, 위와 같이 파일을 커밋하면 git에서 해당 파일을 추적하게 됩니다. 즉, 파일 내용을 수정하면 파일의 상태를 tracked에서 modified로 변경하여 commit을 요구합니다.

Gradient Descent / Newton Method

imlim — Wed, 28 Dec 2022 20:52:19 +0900

Introduction

딥러닝은 optimizer로 Gradient Descent 기반의 기법을 사용합니다. 그러나, Quasi-Newton Method라는 다른 대안도 있습니다. 이 글에서는 왜 Quasi-Newton Method가 아닌 Gradient Descent을 사용하는지에 대해 알아보려고 합니다.

Gradient Descent

Gradient Descent의 기본적인 공식은 아래와 같습니다.

$\large {\theta = \theta - \eta \nabla_{\theta} J(\theta)}$

Gradient Descent은 극소점을 찾는 것이 그 목적입니다. 위 식을 보면 알 수 있듯이, $J(\theta)$ 즉, 기울기가 0이 되버리는 순간에는 더 이상 $\theta$가 변하지 않고, 이는 극점을 뜻합니다. 또한, 기울기의 반대방향으로 $\theta$를 업데이트 시킴으로써 극대가 아닌 극소점을 찾아가는 방식입니다.

Newton Method

Newton Method은 함수의 기울기가 0이 되는 지점을 찾는 방식입니다. 수식은 아래와 같습니다.

$\large {x_{n+1} = x_n + \dfrac {f'(x_n)}{f''(x_n)}}$

이를 행렬로 확장시키게 되면 아래와 같습니다.

$\large {X_{n+1} = X_n + \nabla^2 f(X_n)^{-1} f(X_n)}$

위 식은 이차미분을 진행해야 된다 큰 문제를 갖습니다 (이는 컴퓨터 계산량을 아주 많이 높이게 됩니다). 따라서, 이 이차미분을 근사화 시키겠다는 것이 Quasi-Newton Method 입니다.

Quasi-Newton Method

그러면, 이차미분의 문제가 풀렸으니 Quasi-Newton Method 쓰면 되지 않나? 라는 의문이 당연히 생깁니다. 그러나, Loss function이 완벽한 이차함수를 이루지 않는 이상 Quasi-Newton Method는 불안정하다고 합니다 [ 1 ]. 따라서, Loss function 대부분이 이차함수가 아닌 딥러닝에서는 Gradient Descent를 optimizer로 채택한 것 같습니다.

Reference

[ 1 ] https://stats.stackexchange.com/questions/253632/why-is-newtons-method-not-widely-used-in-machine-learning

[개념 정리] Convolution 연산 종류

imlim — Wed, 28 Dec 2022 20:10:57 +0900

Introduction

2012년 AlexNet의 ILSCVRC 2012년 이후로 CNN 기반의 딥러닝 모델이 컴퓨터 비전 분야에서 큰 활약을 하고 있습니다. 그에 따라, 가장 기초적인 (Naive) Convolution 연산도 다양한 발전이 있었습니다. PyTorch 프레임워크에서 가지는 하이퍼 파라미터를 기준으로 다양한 Convolution 연산들을 정리하고, 어떤 논문에서 아래 개념들이 사용되었는지 정리하는 시간을 가지려고 합니다.

1. Naive Convolution

1 ) 개념 및 해당 개념을 사용한 논문

가장 흔히 알려져있고, 자주 사용되는 Convolution입니다. Torch에서 Conv2d가 이 Convolution 연산에 해당합니다. LeNet 논문에서도 설명하였듯이, 기존 Linear 레이어의 여러가지 한계때문에 탄생했습니다. 아래의 그림처럼 Conv연산은 2D에서 동작하여 Local feature들을 잘 추출한다는 특징이 있습니다.
CNN 기반 모델이라면 해당연산을 사용하지 않은 논문을 찾기가 더 힘들다고 할 정도로 매우 많이 사용됩니다.

Naive Convolution [ 1 ]

2 ) 파라미터 소개 및 설명

Torch.nn.Conv2d [ 2 ]

In_channels & out_channels : 입력 채널의 수와 출력 채널의 수를 결정하는 파라미터

- CNN기반 딥러닝 모델은 레이어가 깊어질수록 feature map의 크기는 줄여가고 channel의 수는 키우는 형태를 갖습니다.

- 추후에 말씀드리겠지만, Xception 논문 기준으로 channel의 수는 중요한 의미를 갖게 됩니다 (channel dimension).
kernel_size : 필터의 커널사이즈를 가리키는 파라미터

- 커널사이즈는 쉽게 말해서 "얼만큼 볼거냐?"로 말할 수 있습니다. 즉, Convolution 필터가 연산을 처리하는 영역의 크기를 뜻합니다.

- 커널 사이즈는 LeNet과 AlexNet에서는 레이어가 깊어질수록 점점 작아지는 형태를 가졌습니다. 하지만, VGGNet 이후로 3 x 3으로 고정하여 사용되기 시작했습니다.
stride : 필터의 연산을 얼만큼의 간격을 두고 진행할 것인지를 의미하는 파라미터

- stride는 얼만큼의 간격을 두고 Conv연산을 진행할지에 관한 파라미터입니다. 예를 들어, 7 x 7 이미지가 존재하는데 3 x 3 Conv와 stride를 2로 두었다고 가정하겠습니다. 그렇다면, 출력 feature map의 크기는 3 x 3이 됩니다.

- 연산량을 줄이기 위해서 stride를 키울 수도 있겠지만, 이 역시 VGGNet 이후로 1 x 1으로 고정되었습니다. 다만, feature map의 크기를 줄이기 위한 Pooling 연산시에 kernel의 크기와 stride 크기를 2로 두어 절반으로 줄이는 형태로 자주 사용됩니다.
Padding & Padding_mode : feature map의 가장자리를 채우는 파라미터

- Padding은 LeNet 논문에서는 feature map 가장자리의 연산 횟수와 중앙의 연산 횟수가 일치하지 않다는 문제점을 보완하기 위해 사용된다고 하였지만, 이후에는 feature map의 크기를 유지시키기 위한 목적으로 사용됩니다.

- Padding은 여러가지 방식이 있습니다. 0으로 채우는 zero padding도 있고, 원래 feature map을 대칭하여 채울 수도 있습니다. 주로 0을 사용하는 것 같지만, padding_mode에서 여러가지 파라미터를 통해 padding을 수행할 수 있습니다.
bias : bias의 여부를 결정하는 파라미터

- 이 파라미터가 True면 Conv 연산이 출력하는 feature map에 학습가능한 bias를 추가합니다 (기본적으로 True).

2. Dilated Convolutions

1 ) 개념 및 해당 개념을 사용한 논문

Atrous Convolution으로도 불리며, Segmentation 분야의 DeepLab 계열이 적극적으로 활용합니다.
동일한 컴퓨터 계산량으로 더 넓은 영역을 커버해서, 실시간으로 처리해야하는 경우 자주 사용된다고 합니다.

Atrous Convolution [ 1 ]

2 ) 파라미터 소개 및 설명

dilation : 커널의 간격을 결정하는 파라미터

- 위 그림 (dilation=2)에서 보이는 것처럼 dilation은 커널의 간격을 결정합니다. 컴퓨터 계산량을 유지하면서도 마치 5 x 5 Conv 연산처럼 동작합니다.

3. Group Convolution

1 ) 개념 및 해당 개념을 사용한 논문

Group Convolution은 ResNext 논문에서 Cardinality라는 개념을 도입하면서 사용된 Conv 연산입니다.
이 연산은 입력 채널을 group의 개수만큼 나눈 후, 각각 conv 연산을 수행합니다.

2 ) 파라미터 소개 및 설명

groups : ResNext의 cardinality 파라미터

- 이 파라미터는 완벽히 ResNext에서 설명한 것과 동일하기 때문에 자세한 설명은 생략하겠습니다.

4. Transposed Convolution

1 ) 개념 및 해당 개념을 사용한 논문

deconvolution으로도 불렸던 연산입니다 (실제로는 Conv연산의 역연산이 아닌 Tranpose 연산이라 Transposed Convolution으로 불립니다).
ZFNet에서 Transposed Convolution을 이용하여 Convolution 레이어의 시각화를 진행했습니다. 뿐만 아니라, Encoder-Decoder 구조의 Decoder에서도 feature map의 크기를 복원하기 위해 자주 사용됩니다.

Transposed Convolution [ 1 ]

2 ) 파라미터 소개 및 설명

Torch.nn.ConvTranspose2d

전반적인 파라미터 역할 자체는 Conv2d와 동일합니다. 그러나, 연산과정이 차이가 존재합니다.
자세한 연산 과정은 어떤 분이 자세히 설명해주셔서 https://cumulu-s.tistory.com/29를 참조하시면 될것 같습니다.

Reference

[ 1 ] https://towardsdatascience.com/types-of-convolutions-in-deep-learning-717013397f4d

[ 2 ] https://pytorch.org/docs/stable/generated/torch.nn.Conv2d.html

[개념 정리] Object Detection Region Proposal

imlim — Tue, 27 Dec 2022 11:59:15 +0900

Region Proposal

Object Detection은 여러 개의 객체가 한 사진 내에 존재할 수 있다고 했습니다. 따라서, 이 여러 개의 객체를 어떻게 탐지하고 분류할 것인가에 대해 생각해봐야 하는데 "사진 내 객체가 있는 영역들을 분할하여 각각의 분할된 사진을 입력으로 사용하여 분류 및 바운딩 박스 예측을 수행한다." 정도가 가장 직관적인 것 같습니다. 사진 내 객체가 있는 영역들을 분할하기 위해 대표적으로 아래 두 가지 방식을 사용합니다.

1 ) Sliding window

제일 간단한 방법으로는 사진을 필터로 분할하는 것입니다. 예시를 들자면, 아래의 사진에서 빨간색 크기의 필터를 통해서 사진을 여러개로 분할하는 것입니다. 그다음에 커널 사이즈를 키운 필터를 통해 이 과정을 반복합니다 (필터가 객체를 제대로 담지 못할 수 있기 때문에).

Sliding window [ 1 ]

이러한 방식은 여러가지 커널 사이즈를 가진 필터들이 사진을 분할하기 때문에 분할된 사진의 개수가 너무 많아진다는 단점이 존재합니다 (과도한 수의 사진이 문제인 이유는 모든 사진이 각각 CNN 모델의 입력으로 사용되어 컴퓨터 연산량을 키우기 때문입니다).

위에서 나온 단점을 해결하기 위해 딥러닝 모델 내에서 sliding window를 처리하는 방식으로 발전하였습니다.

Sliding window in CNN model [ 2 ]

그림에 대한 자세한 설명은 Overfeat 논문 정리에 있으므로 간단한 설명만 하겠습니다. 14 x 14 크기의 사진이 CNN 모델의 입력으로 사용되었을 때 모든 영역을 커버하는 값 하나가 최종적으로 나오게 됩니다 (1 stage 이후, 5 x 5 Conv 연산을 거친 1 x 1을 의미합니다). 같은 논리로 16 x 16 크기를 가진 사진에 이 모델을 적용하면 값이 4개가 나오게 됩니다.

따라서, 이 모델은 14 x 14 커널 사이즈, stride 2를 가진 필터를 이용하여 sliding window 기법을 적용시킨 것과 같은 효과를 가집니다.

2 ) Selective Search

Selective Search 방식은 Sliding window처럼 CNN 모델 내에서 처리하는 것이 아니라, 물체가 있을만한 영역을 분할하고 이를 입력으로 사용합니다. Selective Search는 다음과 같은 과정을 거칩니다.

Capture All Scales : 사진 내 객체의 크기가 제각각이기 때문에 다양한 크기의 필터를 사용하여 검출합니다.
Diversification : 여러가지의 전략 (컬러, 질감, 형태, 크기)으로 분할된 영역들을 그룹화합니다.

Selective Search [ 3 ]

위 그림은 selective search의 결과를 나타냅니다. 보이다시피, 객체를 잘 검출해 내는 것을 볼 수 있습니다.

하지만, Selective Search는 CNN 모델 내에서 동작하는 방식이 아니기때문에 end-to-end 학습이 불가능하고, 추론 시간도 길어진다는 치명적인 단점이 존재합니다.

Reference

[ 1 ] https://www.youtube.com/watch?v=5e5pjeojznk

[ 2 ] Sermanet, Pierre, et al. "Overfeat: Integrated recognition, localization and detection using convolutional networks." arXiv preprint arXiv:1312.6229 (2013).

[ 3 ] Uijlings, Jasper RR, et al. "Selective search for object recognition." International journal of computer vision 104.2 (2013): 154-171.