- LeNet 구현
- deep learning
- image classification
- Weight initialization
- object detection
- SPP-Net
- overfeat
- Convolution 종류
- Optimizer
- 딥러닝
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- Today
- Total
I'm Lim
[개념 정리] Object Detection Region Proposal 본문
Region Proposal
Object Detection은 여러 개의 객체가 한 사진 내에 존재할 수 있다고 했습니다. 따라서, 이 여러 개의 객체를 어떻게 탐지하고 분류할 것인가에 대해 생각해봐야 하는데 "사진 내 객체가 있는 영역들을 분할하여 각각의 분할된 사진을 입력으로 사용하여 분류 및 바운딩 박스 예측을 수행한다." 정도가 가장 직관적인 것 같습니다. 사진 내 객체가 있는 영역들을 분할하기 위해 대표적으로 아래 두 가지 방식을 사용합니다.
1 ) Sliding window
제일 간단한 방법으로는 사진을 필터로 분할하는 것입니다. 예시를 들자면, 아래의 사진에서 빨간색 크기의 필터를 통해서 사진을 여러개로 분할하는 것입니다. 그다음에 커널 사이즈를 키운 필터를 통해 이 과정을 반복합니다 (필터가 객체를 제대로 담지 못할 수 있기 때문에).
이러한 방식은 여러가지 커널 사이즈를 가진 필터들이 사진을 분할하기 때문에 분할된 사진의 개수가 너무 많아진다는 단점이 존재합니다 (과도한 수의 사진이 문제인 이유는 모든 사진이 각각 CNN 모델의 입력으로 사용되어 컴퓨터 연산량을 키우기 때문입니다).
위에서 나온 단점을 해결하기 위해 딥러닝 모델 내에서 sliding window를 처리하는 방식으로 발전하였습니다.
그림에 대한 자세한 설명은 Overfeat 논문 정리에 있으므로 간단한 설명만 하겠습니다. 14 x 14 크기의 사진이 CNN 모델의 입력으로 사용되었을 때 모든 영역을 커버하는 값 하나가 최종적으로 나오게 됩니다 (1 stage 이후, 5 x 5 Conv 연산을 거친 1 x 1을 의미합니다). 같은 논리로 16 x 16 크기를 가진 사진에 이 모델을 적용하면 값이 4개가 나오게 됩니다.
따라서, 이 모델은 14 x 14 커널 사이즈, stride 2를 가진 필터를 이용하여 sliding window 기법을 적용시킨 것과 같은 효과를 가집니다.
2 ) Selective Search
Selective Search 방식은 Sliding window처럼 CNN 모델 내에서 처리하는 것이 아니라, 물체가 있을만한 영역을 분할하고 이를 입력으로 사용합니다. Selective Search는 다음과 같은 과정을 거칩니다.
- Capture All Scales : 사진 내 객체의 크기가 제각각이기 때문에 다양한 크기의 필터를 사용하여 검출합니다.
- Diversification : 여러가지의 전략 (컬러, 질감, 형태, 크기)으로 분할된 영역들을 그룹화합니다.
위 그림은 selective search의 결과를 나타냅니다. 보이다시피, 객체를 잘 검출해 내는 것을 볼 수 있습니다.
하지만, Selective Search는 CNN 모델 내에서 동작하는 방식이 아니기때문에 end-to-end 학습이 불가능하고, 추론 시간도 길어진다는 치명적인 단점이 존재합니다.
Reference
[ 1 ] https://www.youtube.com/watch?v=5e5pjeojznk
[ 2 ] Sermanet, Pierre, et al. "Overfeat: Integrated recognition, localization and detection using convolutional networks." arXiv preprint arXiv:1312.6229 (2013).
[ 3 ] Uijlings, Jasper RR, et al. "Selective search for object recognition." International journal of computer vision 104.2 (2013): 154-171.
'Object Detection' 카테고리의 다른 글
[개념 정리] Non Max Suppression (0) | 2023.01.24 |
---|---|
[논문 정리] R-CNN (0) | 2023.01.24 |
[개념 정리] Object Detection Metric (0) | 2022.12.25 |
[데이터 셋] COCO dataset (1) | 2022.12.24 |
[데이터 셋] PASCAL VOC dataset (0) | 2022.12.24 |