- image classification
- LeNet 구현
- SPP-Net
- overfeat
- 딥러닝
- Convolution 종류
- Optimizer
- deep learning
- Weight initialization
- object detection
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- Today
- Total
목록전체 글 (56)
I'm Lim
Introduction 2012년 AlexNet의 ILSCVRC 2012년 이후로 CNN 기반의 딥러닝 모델이 컴퓨터 비전 분야에서 큰 활약을 하고 있습니다. 그에 따라, 가장 기초적인 (Naive) Convolution 연산도 다양한 발전이 있었습니다. PyTorch 프레임워크에서 가지는 하이퍼 파라미터를 기준으로 다양한 Convolution 연산들을 정리하고, 어떤 논문에서 아래 개념들이 사용되었는지 정리하는 시간을 가지려고 합니다. 1. Naive Convolution 1 ) 개념 및 해당 개념을 사용한 논문 가장 흔히 알려져있고, 자주 사용되는 Convolution입니다. Torch에서 Conv2d가 이 Convolution 연산에 해당합니다. LeNet 논문에서도 설명하였듯이, 기존 Linear..
Region Proposal Object Detection은 여러 개의 객체가 한 사진 내에 존재할 수 있다고 했습니다. 따라서, 이 여러 개의 객체를 어떻게 탐지하고 분류할 것인가에 대해 생각해봐야 하는데 "사진 내 객체가 있는 영역들을 분할하여 각각의 분할된 사진을 입력으로 사용하여 분류 및 바운딩 박스 예측을 수행한다." 정도가 가장 직관적인 것 같습니다. 사진 내 객체가 있는 영역들을 분할하기 위해 대표적으로 아래 두 가지 방식을 사용합니다. 1 ) Sliding window 제일 간단한 방법으로는 사진을 필터로 분할하는 것입니다. 예시를 들자면, 아래의 사진에서 빨간색 크기의 필터를 통해서 사진을 여러개로 분할하는 것입니다. 그다음에 커널 사이즈를 키운 필터를 통해 이 과정을 반복합니다 (필터가..
1. Object detection이란? Object detection이란 사진 내 물체의 위치를 파악하는 것을 뜻합니다. Image Localization 문제와는 다르게 Object detection 문제는 한 사진 내에 여러 가지 객체가 존재할 수 있습니다. 또한, Image Classification 문제와는 다르게 Object detection 문제는 분류뿐만 아니라 객체가 어느 위치에 존재하는지에 관한 정보를 예측해야 합니다. 위에서 말한 객체가 어느 위치에 존재하는지에 관한 정보를 바운딩 박스가 담고 있습니다. 바운딩 박스는 Classification이 아닌 Regression 문제이므로 얼마큼 실제 바운딩 박스와 유사한지를 평가해야 합니다. 따라서, Object detection 문제는 I..
COCO 데이터 셋 COCO 데이터 셋은 PASCAL VOC 2012 데이터 셋과 마찬가지로 Object Detection 분야와 Segmentation 분야에서 보편적인 데이터 셋입니다. YOLO v4, DeepLab 등의 우수한 모델들이 학습을 위해 이 데이터셋을 사용하였습니다. 1. Data Download COCO 데이터 셋 다운로드 링크 : https://cocodataset.org/#download 위 링크에 접속하면 연도 별로 정리된 COCO 데이터 셋을 확인할 수 있는데 2017 Train/Val/Test을 데이터 셋으로 사용하겠습니다. 2. Data Load COCO 데이터 셋은 torchvision.datasets의 CocoDetection을 이용하여 호출할 수 있습니다. import ..
Introduction 해당 글은 Object Detetcion 분야 학습에 주로 사용되는 dataset을 정리하고, Torchvision에서의 데이터 호출 방법에 대해 상세히 알아보고자 작성하였습니다. 데이터 셋 선정기준은 "A survey on performance metrics for object detection algorithms" [1] 라는 논문을 참고하여 선택하였습니다. PASCAL VOC Challenge Object detection 분야에서 가장 보편적인 데이터셋입니다. 그 중에서도 PASCAL VOC 2012라는 데이터 셋은 R-CNN 모델에서부터 YOLO v3모델까지 학습 데이터셋으로 사용되었습니다. 1. Data Load PASCAL VOC 데이터셋을 호출하기 위해서 Torchv..
Paper Howard, Andrew, et al. "Searching for mobilenetv3." Proceedings of the IEEE/CVF international conference on computer vision. 2019. Introduction 본 논문의 목적은 모바일 환경에서 정확도와 레이턴스간의 trade-off를 최적화시키는 것이다. 이를 위해, MobileNet v3는 NASNet과 같이 Neural Architecture Search 알고리즘을 사용하였다고 한다. Efficient Mobile Building Blocks MobileNet v3의 특징은 아래와 같다. 1 ) SENet에서 사용하던 Squeeze operation과 Excitation operation을 적..
Paper He, Tong, et al. "Bag of tricks for image classification with convolutional neural networks." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019. Abstract 본 논문은 ResNet 모델의 Ablation study로써, ResNet-50의 top-1 accuracy를 75.3%에서 79.29%까지 개선시켰다고 한다. 또한, Image Classification 모델의 성능개선이 object detection이나 semantic segmentation과 같은 응용분야의 성능을 개선시킨다고 한다. Introduct..
Paper Sandler, Mark, et al. "Mobilenetv2: Inverted residuals and linear bottlenecks." Proceedings of the IEEE conference on computer vision and pattern recognition. 2018. Introduction 논문 발표 당시, Image Classification 모델들은 성능을 올리기 위해 파라미터의 수를 키웠고, 이는 모바일 기기나 임베디드 시스템에 탑재할 수 있는 범위를 넘어섰다. 본 논문의 모델인 MobileNet v2는 성능을 유지하면서, 요구 메모리와 연산의 수를 크게 줄였다고 한다. 이를 위해 Inverted residual structure를 제안하였는데, inverted..