資訊內容
CVPR2019 oral | ScratchDet,從頭開始訓練單步目標檢測器
本文《ScratchDet: Training Single-Shot Object Detectors from Scratch》提出了一種從零開始訓練的單步目標檢測器ScratchDet, 并基于root-block設計了新的基礎網絡Root-ResNet。ScratchDet的性能在現有從頭開始訓練的目標檢測模型中達到最佳,且優于部分基于預訓練基礎網絡的檢測模型。

論文地址:
https://arxiv.org/pdf/1810.08425.pdf
代碼地址:
https://github.com/KimSoybean/ScratchDet
引言
當前最優的目標檢測框架基本都是以預訓練的高精度分類網絡作為基礎網絡,在其后增加相應的檢測器并進行finetune。分類和檢測任務對于平移不變性的敏感程度并不相同,且基于finetune的方法不便于對基礎網絡進行修改。因此本文提出了一種從頭開始訓練的目標檢測器ScratchDet。
ScratchDet
BatchNorm用于從頭開始訓練
BatchNorm使得優化空間變得顯著平滑,誘導梯度產生更加可預測和穩定的行為,從而允許更大的參數搜索空間和更快的收斂速度。本文以SSD作為研究和對比對象,原始的SSD中不包含BatchNorm。
BatchNorm用于基礎網絡
在SSD的基礎網絡中每一個卷積層后均添加BatchNorm,由表1中結果可以看出,當學習率為0.001時,
由67.6%提高至72.8%,同時由于BatchNorm使得優化空間變得顯著平滑,從而可以使用更大的學習率進行訓練,當學習率
增大到為0.05時,其
則提升至78.7%

BatchNorm用于檢測頭
通過圖1(b)和圖1(c)可知,當用默認的學習率從頭開始訓練SSD時,其梯度L2范數的波動較為劇烈,尤其是在訓練的初始階段,使其損失產生突變,收斂于一個較差的局部最小值,這也有效解釋了為何使用較大學習率從頭訓練SSD網絡時通常會導致梯度爆炸和較差的性能。
與之相比,在SSD檢測頭中增加BatchNorm,使得優化空間更加平滑,由67.6%提高至71.0%。在應用較大學習率之后,其
則可提高至75.6%。同時,大的學習率有助于模型跳出較差的局部最優,產生更加穩定的梯度。

BatchNorm用于整個目標檢測網絡
當同時在基礎網絡和目標檢測頭中使用BatchNorm,并采用0.05的學習率從頭訓練,最終可達到78.7%,性能超過基于預訓練VGG網絡的SSD
為77.2%。
基礎網絡改進
ResNet和VGG的性能分析
VGG-16和ResNet-101是SSD中兩個常用的基礎網絡,總體來說,ResNet-101在分類性能上優于VGG-16。但在輸入圖片尺寸相對較小()的數據集PASCAL
VOC上,基于VGG-16的SSD其檢測精度卻優于基于ResNet-101的模型。當從ResNet-101第一個卷積層中移除下采樣操作后,其
從73.1%提高至77.6%,表明該下采樣操作造成了較多的信息損失,對于模型的檢測精度有較大的負面影響,尤其是對于圖片中較小的目標。
目標檢測基礎網絡設計
為了在克服上述缺陷的同時保持基礎網絡強大的分類能力,本文基于原始SSD中的基礎網絡ResNet進行了改進,提出了新的結構,名為Root-ResNet,其核心思想是去除了原始ResNet第一個卷積層中的下采樣操作,并將的單步卷積替換成3個
卷積的堆疊。該設計能使網絡捕獲更多的局部信息,從而為小目標的檢測提取更加豐富有效的特征。同時本文將SSD中用于提取不同尺度特征的卷積層替換為多個殘差模塊,每個殘差模塊由兩個分支組成,一個分支是步幅為2的
卷積,另一個分支則由兩個
卷積堆疊而成,其中第一個卷積的步幅為2,第二個卷積的步幅為1,卷積的輸出通道數皆為128。
實驗結果
PASCAL VOC
在的圖像輸入下,ScratchDet的
在VOC
2007上達到80.4%,在從頭訓練的檢測模型中達到最佳,同時也優于預訓練的單步檢測模型,如SSD300和DES300。而在VOC
2012上,ScratchDet的
也達到78.5%,且與輸入圖像尺寸為
,基于預訓練的雙步檢測網絡相比,如R-FCN,其
值高出了0.9%。

MS COCO
在MS COCO數據集上,ScratchDet的為32.7%,遠優于相似輸入尺寸的其他模型。對于Faster
R-CNN 和 Deformable
R-FCN等模型,其訓練及驗證的圖像尺寸較大,公平起見,本文測試了ScratchDet的多尺度檢測結果,其
為39.1%,優于具有較大輸入尺寸的單步及雙步目標檢測模型。

結論
(1)本文分析了BatchNorm在目標檢測模型的基礎網絡及檢測頭中的作用,并實現了目標檢測網絡的從頭開始訓練。
(2)通過分析基于VGG和ResNet的SSD網絡的性能,提出了新的基礎網絡Root-ResNet用以進一步提高目標檢測的精度。
(3)本文提出了一種從頭訓練的新目標檢測模型ScratchDet,與其他從頭訓練的目標檢測模型相比,該模型在VOC及COCO數據集上取得最佳性能,且優于部分基于預訓練基礎網絡的單步及雙步目標檢測模型。
長按識別關注,獲取更多新鮮論文解讀
聲明:本文章由網友投稿作為教育分享用途,如有侵權原作者可通過郵件及時和我們聯系刪除
