- SPP-Net
- Optimizer
- Weight initialization
- Convolution 종류
- overfeat
- object detection
- 딥러닝
- image classification
- LeNet 구현
- deep learning
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- Today
- Total
목록object detection (9)
I'm Lim
Paper Girshick, R. (2015). Fast r-cnn. In Proceedings of the IEEE international conference on computer vision (pp. 1440-1448). Abstract Fast R-CNN 모델은 기존의 R-CNN, SPP-Net, Overfeat과 달리 Classification과 Regression을 동시에 학습을 진행합니다. 또한, SPP-Net과 유사하게 학습시 입력으로 한장의 이미지만을 사용합니다. 그 결과, VGG-16을 기준으로 R-CNN에 비해 학습시간이 9배 빨랐고, SPP-Net에 비해 3배 빨랐다고합니다. 성능적인 측면에서도 mAP를 66%를 기록하면서 R-CNN보다 좋은 성능을 보였습니다. R-CNN and S..
Paper He, K., Zhang, X., Ren, S., & Sun, J. (2015). Spatial pyramid pooling in deep convolutional networks for visual recognition. IEEE transactions on pattern analysis and machine intelligence, 37(9), 1904-1916. Abstract 기존의 CNN 모델 ( e.g, VGGNet, GoogLeNet, etc ) 등은 224 크기의 고정된 이미지 사이즈를 입력으로 사용합니다. 논문에서는 이것이 성능 저하를 야기할 수 있다고 주장합니다. 이를 해결하기 위해, Spatila Pyramid Pooling 개념을 도입하여 위와 같은 제한을 없앴습니다. 그..
Paper Sermanet, P., Eigen, D., Zhang, X., Mathieu, M., Fergus, R., & LeCun, Y. (2013). Overfeat: Integrated recognition, localization and detection using convolutional networks. arXiv preprint arXiv:1312.6229. Introduction Overfeat 논문은 classification 문제와 detection 문제를 하나의 공유된 네트워크를 통해 학습시킵니다. 개인적인 생각으로 이 논문의 가장 핵심은 feature map을 sliding window의 관점으로 해석했다는 점입니다. Classification 1. Feature extractor..
1. Non Max Suppression (NMS) 1 ) NMS 개념 Selective Search를 통해 region proposal을 하면 과도하게 많은 영역을 제안하게 됩니다. 이는 학습시간을 오래 걸리게 하고, 실시간 적용을 힘들게 하는 주요 원인 중 하나라고 볼 수 있습니다. 따라서, 제안된 영역의 개수를 줄이는 방안이 필요했고, 그중 하나가 Non Max Supperession입니다. Non Max Suppression은 재밌는 2개의 아이디어를 가지고 있습니다. 올바르게 제안된 영역은 Confidence Score가 높을 것이다. 한 객체를 기준으로 영역 간 IOU가 높다면 이것은 같은 객체를 가르킬 가능성이 높다. 2 ) NMS 알고리즘 제안된 영역의 Confidence Score를 모두..
Paper Girshick, R., Donahue, J., Darrell, T., & Malik, J. (2014). Rich feature hierarchies for accurate object detection and semantic segmentation. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 580-587). Introduction 저자는 R-CNN 모델이 첫 번째로 ILSVRC 2012 우승 모델인 AlexNet을 사용하여 성능을 기존 모델 대비 30% 이상 올렸다는 점과 파인튜닝을 통해 성능을 향상했다는 점을 논문의 핵심 포인트로 꼽았습니다. R-CNN은 이름 그대로 Regio..
Region Proposal Object Detection은 여러 개의 객체가 한 사진 내에 존재할 수 있다고 했습니다. 따라서, 이 여러 개의 객체를 어떻게 탐지하고 분류할 것인가에 대해 생각해봐야 하는데 "사진 내 객체가 있는 영역들을 분할하여 각각의 분할된 사진을 입력으로 사용하여 분류 및 바운딩 박스 예측을 수행한다." 정도가 가장 직관적인 것 같습니다. 사진 내 객체가 있는 영역들을 분할하기 위해 대표적으로 아래 두 가지 방식을 사용합니다. 1 ) Sliding window 제일 간단한 방법으로는 사진을 필터로 분할하는 것입니다. 예시를 들자면, 아래의 사진에서 빨간색 크기의 필터를 통해서 사진을 여러개로 분할하는 것입니다. 그다음에 커널 사이즈를 키운 필터를 통해 이 과정을 반복합니다 (필터가..
1. Object detection이란? Object detection이란 사진 내 물체의 위치를 파악하는 것을 뜻합니다. Image Localization 문제와는 다르게 Object detection 문제는 한 사진 내에 여러 가지 객체가 존재할 수 있습니다. 또한, Image Classification 문제와는 다르게 Object detection 문제는 분류뿐만 아니라 객체가 어느 위치에 존재하는지에 관한 정보를 예측해야 합니다. 위에서 말한 객체가 어느 위치에 존재하는지에 관한 정보를 바운딩 박스가 담고 있습니다. 바운딩 박스는 Classification이 아닌 Regression 문제이므로 얼마큼 실제 바운딩 박스와 유사한지를 평가해야 합니다. 따라서, Object detection 문제는 I..
COCO 데이터 셋 COCO 데이터 셋은 PASCAL VOC 2012 데이터 셋과 마찬가지로 Object Detection 분야와 Segmentation 분야에서 보편적인 데이터 셋입니다. YOLO v4, DeepLab 등의 우수한 모델들이 학습을 위해 이 데이터셋을 사용하였습니다. 1. Data Download COCO 데이터 셋 다운로드 링크 : https://cocodataset.org/#download 위 링크에 접속하면 연도 별로 정리된 COCO 데이터 셋을 확인할 수 있는데 2017 Train/Val/Test을 데이터 셋으로 사용하겠습니다. 2. Data Load COCO 데이터 셋은 torchvision.datasets의 CocoDetection을 이용하여 호출할 수 있습니다. import ..