2024-05-16发表2024-07-27更新Omnivore / 2024-05-1530 分钟读完 (大约4480个字)

Link

Read on Omnivore
Read Original

Highlights&&Note

Faster RCNN使用CNN提取图像特征，然后使用region proposal network（RPN）去提取出ROI，然后使用ROI pooling将这些ROI全部变成固定尺寸，再喂给全连接层进行Bounding box回归和分类预测。

多尺度检测在目标检测中变得越来越重要，对小目标的检测尤其如此。现在主流的目标检测方法很多都用到了多尺度的方法，包括最新的yolo v3。Feature Pyramid Network (FPN)则是一种精心设计的多尺度检测方法
特征金字塔是为了多尺度检测

FPN结构中包括自下而上，自上而下和横向连接三个部分，如下图所示。这种结构可以将各个层级的特征进行融合，使其同时具有强语义信息和强空间信息，在特征学习中算是一把利器了。

Mask RCNN定义多任务损失：
L=L_{cls}+L_{box}+L_{mask}

Content

不断更新目标检测和语义分割的文章，感兴趣的请关注我。

最近在做一个目标检测项目，用到了Mask RCNN。我仅仅用了50张训练照片，训练了1000步之后进行测试，发现效果好得令人称奇。就这个任务，很久之前用yolo v1训练则很难收敛。不过把它们拿来比当然不公平，但我更想说的是，mask RCNN效果真的很好。

所以这篇文章来详细地总结一下Mask RCNN。