資訊內容
精度高、模型小、速度快!梯形DenseNets結構實現語義分割新高度!
今天上午arXiv出現一篇非常值得參考的語義分割文章《Efficient Ladder-style DenseNets for Semantic Segmentation of Large Images》,來自克羅地亞的研究人員提出了一種基于DenseNets構建的形狀像梯子的語義分割架構,其不僅精度達到目前最高(超越DeepLabV3+),而且參數量少,計算速度快,可謂語義分割領域的新突破。
以下是作者信息:
作者來自克羅地亞的薩格勒布大學。
提出問題
作者指出,在深度學習領域圖像分類任務驗證的有效網絡結構,極大促進了計算機視覺其他方向的研究。
比如大放異彩的ResNet深度殘差網絡,成名于ImageNet圖像分類任務,其影響力卻席卷整個神經網絡的所有應用領域。
但由于語義分割的計算量和參數量往往都很大,在現有硬件使用這些新出的網絡結構進行新算法訓練時,顯存的大小限制了更好地發揮其潛力,尤其是對那些大圖像比如百萬像素圖像的語義分割。
作者詳細比較了ResNets與DenseNets(此部分可參考論文原文),認為在擁有相近的網絡表達能力的ResNets與DenseNets網絡架構中,DenseNets所需要的參數和計算量都相對較小。對于語義分割任務,應以其為基礎模塊。
網絡架構
下圖是作者提出算法的網絡架構(請點擊查看大圖):
圖中DB代表這Dense Blocks,TD為transition layers,TU為transition-up blocks,f為輸出特征圖(后面的數字為特征圖個數),輸出特征圖上的x4、x8...x32為下采樣倍數,SPP為spatial pyramid pooling module。
可以看出,其最明顯的特征是有兩個數據路徑。
上面的為下采樣數據路徑,特征圖不斷縮小。下面為上采樣數據路徑,并在此進行數據融合。
整個結構宛如梯子,故稱梯形風格的(Ladder-style) DenseNets 。
實驗結果
作者在主流的語義分割數據庫上與基于ResNet的相同結構算法進行了比較,也與其他state-of-the-art進行了比較,驗證了該算法精度達到最高的同時,速度快一個數量級,參數也是高精度語義分割算法中最小的(是在Cityscapes數據集上唯一的IoU上80的實時語義分割算法)。
下圖為在Cityscapes數據集驗證集上使用與ResNet Blocks的算法的比較,可見在使用Dense Blocks時不僅參數少,計算速度快,而且精度也更高。
下圖為該算法的兩個最好模型與state-of-the-art語義分割算法在?Cityscapes 驗證集與測試集的結果比較。
可見該文算法精度最高,計算量也接近最低水平!!
下圖上述結果的散點圖,該文提出的算法LDN是目前唯一的在Cityscapes數據集上IoU精度超過80的實時語義分割算法!
下圖是在CamVid 測試集上與基于ResNet結構的算法結果比較,LDN121依然是精度高、模型小、速度快。
下圖是與CamVid測試集上的其他state-of-the-art算法的結果比較,精度依舊是最優秀的。
下圖是在Pascal VOC 2012 驗證集與測試集上的與其他state-of-the-art算法相比的分割結果,依然取得了精度的新突破。
分割結果示例:
聲明:本文章由網友投稿作為教育分享用途,如有侵權原作者可通過郵件及時和我們聯系刪除
