0. Abstract
โข
SSD, discretizes the output space of bounding boxes into a set of default boxes over different aspect ratios and scales per feature map location
โ ๊ฐ feature map์์ ๋ค๋ฅธ ๋น์จ๊ณผ ์ค์ผ์ผ์ default box๋ก bounding box์ output ๊ณต๊ฐ์ ๋๋๋ค.
feature map? grid
default box? ์ฐ๋์ ์ ๋ฐ์ด๋ฉ ๋ฐ์ค๋ก ๋
ผ๋ฌธ์์๋ ํ ์
๋น 4 ๋๋ 6์ผ๋ก ์ค์ ํ๋ค.
1. Introduction
โข
object detection์ ์ค์๊ฐ์ผ๋ก ๋น ๋ฅด๊ฒ ์ฒ๋ฆฌํด์ผ ํ๋ค๋ task๋ฅผ ๊ฐ์ง๋ค.
โข
YOLO๋ ์ฒ๋ฆฌ๊ฐ ๋น ๋ฅด์ง๋ง ์ ํ๋๊ฐ ๋ฎ์
โข
Faster R-CNN์ ์ฐ์ฐ๋์ด ๋ง๊ณ , ์ฒ๋ฆฌ๊ฐ ๋๋ฆฌ์ง๋ง ์ ํ๋๋ ๋์
โ ์ฒ๋ฆฌ ์๋์ ์ ํ๋! ๋ ๋ง๋ฆฌ ํ ๋ผ๋ฅผ ์ก๊ธฐ ์ํ์ฌ ์ ์๋จ
2. The Single Shot Detector(SSD)
โข
Input : image & ground truth box
โข
Output(์์ธก) : loc & conf โ offsets & confidence for all object categories
โฆ
offsets : - default box์ ์ขํ
โช
๋ ๋ฐ์ค ์ค์ฌ ์ขํ
โช
๋ ๋ฐ์ค์ ๋๋น์ ๋์ด
โฆ
confidence for all object categories : - class์ ์ ์
โข
loss : localization loss์ confidence loss์ ๊ฐ์คํฉ
โข
feature map์ ๊ฐ cell๋ง๋ค ์๋ก ๋ค๋ฅธ scale๊ณผ aspect ratio๋ฅผ ๊ฐ์ง default box (anchor box)๋ฅผ ์ฌ์ฉ
โข
ํ๋ฏธ๊ฒฝ์ฒ๋ผ ์์ feature map์ ํฐ ๋ฌผ์ฒด๋ฅผ ํ์ง, ํฐ feature map์ ์์ ๋ฌผ์ฒด๋ฅผ ํ์ง
2.1 Model
We use the VGG-16 network as a base, but other networks should also produce good results.
โข
๋ค์ํ size์ feature map์ ๊ฐ์ง๊ณ ์๋ค.
โข
์ค๊ฐ์ค๊ฐ 1x1 conv Bottleneck์ ์ ์ฉ
โข
๋ณด์กฐ(Auxiliary network) ๋คํธ์ํฌ
2.1.1 Multi-scale feature maps for detection
โข
๋ค์ํ size์ feature map์ ๊ฐ์ง๊ธฐ ๋๋ฌธ์ ๋ค์ํ ํฌ๊ธฐ์ ๊ฐ์ฒด๋ฅผ ํ์งํ ์ ์๋ค.
โข
ํฐ ํน์ฑ๋งต(feature map)์ผ์๋ก ์์ ๊ฐ์ฒด๋ฅผ ํ์งํ๋ค.
2.1.2 Convolutional predictors for detection
โข
Multi-scale feature map VS Single scale feature map
โฆ
Multi-scale feture map์ธ SSD๋ YOLO์ ๋ณด๋ค ๋์ ์ ํ๋๋ฅผ ๊ฐ์ง
โข
single stage detection : classification๊ณผ localization๋ฌธ์ ๋ฅผ ๋์์ ํด๊ฒฐํ๋ ๋ฐฉ๋ฒ
โฆ
ํด๋์ค ๋ถ๋ฅ์ bbox ํ๊ท๋ฅผ ๋์์ ์งํ
โฆ
SSD๋ 2-stage์ธ R-CNN๋ณด๋ค ๋น ๋ฅธ ์๋๋ฅผ ๊ฐ์ง
โข
VGG16(base network)์ ๋ง์ง๋ง์ ์ฌ๋ฌ ๊ฐ์ Feature layers๋ฅผ ์ถ๊ฐ
โ base network + extra network(SSD๋
ผ๋ฌธ์์๋ 4๊ฐ์ network)
โ base network๋ก ๋ค๋ฅธ ๋ชจ๋ธ์ ์ ์ฉํด๋ ๋ฌด๋ฐฉํ๋ค. (Ex. ResNet)
โข
Convolutional Network ์ค๊ฐ์ conv layer์์ ์ป์ feature map์ ํฌํจ์์ผ, ์ดย 6๊ฐ์ ์๋ก ๋ค๋ฅธ scale์ feature map์ ์์ธก์ ์ฌ์ฉ
โข
feature map : 38*38, 19*19, 10*10, 5*5, 3*3, 1*1
Conv4_3 : 38*38*4 = 5,776
Conv7 : 19*19*6 = 2,166
Conv8_2 : 10*10*6 = 600
Conv9_2 : 5*5*6 = 150
Conv10_2 : 3*3*4 = 36
Conv11_2 : 1*1*4 = 4
# of bounding box = 5,776 + 2,166 + 600 + 150 + 36 + 4 = 8,732
2.1.3 Default boxes and aspect ratios
โข
๊ฐ ํผ์ฒ๋งต์ ์
(8x8์ธ ๊ฒฝ์ฐ ์ด 64๊ฐ์ ์
)์์ default bounding box๋ฅผ ๋ง๋ค๊ณ ๊ทธ default box์ ๋์๋๋ ์๋ฆฌ์์ ์์ธก๋๋ ๋ฐ์ค์ offset๊ณผ per-class scores(๋ฐ์ค ์์ ๋ฌผ์ฒด์ ์กด์ฌ ์ ๋ฌด)๋ฅผ ์์ธกํ๋ค.
โข
per-class scores๋ ํ๋ฅ ์ด ์๋๋ผ ๋ฐ์ค์ ์ฌ๋ฌผ์ด ์๋์ง ์๋์ง ๋ํ๋ด๋ ๊ฐ
โข
# of channels :
* : 4 ๋๋ 6
* : # of class score โ # of class + ์๋ฌด๊ฒ๋ ๋ฐ์ด๋ฉ ํ์ง ์๋ ๊ฒฝ์ฐ
* 4 : offsets (x, y, w, h)
โข
# of feature map :
โข
Faster R-CNN์ anchor boxes์ default boxes์ ์ฐจ์ด?
โฆ
์ฌ๋ฌ๊ฐ์ feature map์ ์ฌ์ฉํ๋ค!
โฆ
however we apply them to several feature maps of different resolutions
2.2 Training
2.2.1 Matching strategy
โข
default box์ ground truth์ ๋งค์นญํ์ฌ ๋ ์์ญ์ IoU๊ฐ ํ๊ณ์ ์ฆ, 0.5์ด์์ธ default box๋ฅผ ์ฐพ๋๋ค.
โข
ํ ์
์์ IoU๊ฐ 0.5 ์ด์์ธ default box๊ฐ ์ฌ๋ฌ ๊ฐ ๋์ค๋ฉด IoU๊ฐ ๊ฐ์ฅ ํฐ default box๋ฅผ ๋ฝ๋ ๊ฒ์ด ์๋ ๋ชจ๋ default box๋ฅผ ๋ฝ๋๋ค.
โข
object detector๊ฐ ์์ธกํ ๋ฐ์ด๋ฉ ๋ฐ์ค ์ค์์ ์ ํํ ๋ฐ์ด๋ฉ ๋ฐ์ค๋ฅผ ์ ํํ๋๋ก ํ๋ ๊ธฐ๋ฒ
2.2.2 Training objective
localization loss์ confidence loss์ ๊ฐ์คํฉ
: #of matched default boxes (IoU์ 0.5 ์ด์)
: predicted box
: ground truth box
localization loss (loc) โ Faster R-CNN์ ์ ์ฌ
: default bounding box(์ ์ค์ฌ์
: width
: height
: IoU์ ๊ฒฐ๊ณผ๊ฐ 0.5์ด์์ธ ๊ฒฝ์ฐ 1, ๋ฏธ๋ง์ธ ๊ฒฝ์ฐ 0
confidence loss (conf)
โข
๋ชจ๋ class์ ๋ํ loss๋ฅผ softmax loss๋ฅผ ํตํด ๊ณ์ฐ
2.2.3 Choosing scales and aspect ratios for default boxes
โข
๊ฐ feature map๋น ์๋ก ๋ค๋ฅธ 6๊ฐ์ ๊ฐ ๋์ด
โข
default box์ scale :
<๊ฐ feature map์ scale ๊ตฌํ๋ ๊ณต์>
โข
= 0.2 , = 0.9
โข
: ์์ธก์ ์ฌ์ฉํ feature map์ ์ (SSD์ ๊ฒฝ์ฐ 6๊ฐ)
โฆ
์ฒซ ๋ฒ์งธ feature map (38*38)์ : 0.2, ๋ง์ง๋ง feature map (1*1)์ : 0.9
โฆ
feature map์ scale์ด ์์์ง์๋ก default box์ scale์ ์ปค์ง
โฆ
feature map์ ํฌ๊ธฐ๊ฐ ์์์ง์๋ก ๋ ํฐ ๊ฐ์ฒด๋ฅผ ํ์งํ ์ ์์์ ์๋ฏธ
โข
(aspect ratio) : {}
โข
(default box์ width) :
โข
(default box์ height) :
2.2.4 Hard negative mining
โข
๋๋ถ๋ถ์ default box๊ฐ ๋ฐฐ๊ฒฝ์ด๋ฏ๋ก = 0 ๊ฐ ๋ง์
โข
positive์ negative๊ฐ ๊ท ํ์ด ๋ง์ง ์๊ธฐ ๋๋ฌธ์ confidence loss๋ฅผ ๋์ ์์ผ๋ก ์ ๋ ฌํด์ positive : negative ๋น์จ์ 1 : 3์ผ๋ก ๋ฝ์
โ ๋น ๋ฅธ ์ต์ ํ์ ์์ ์ ์ธ train ๊ฐ๋ฅ
2.2.5 Data augmentation
โข
์ ์ฒด input image ์ฌ์ฉ
โข
์ต์ IOU(0.1, 0.3, 0.5, 0.7, 0.9)
โข
Randomly sample a patch