轻量级分割网络:Bisenet & stdc

学长推荐 (13-14/20)

BiSeNet

img

BiSenet 的想法是,把一个分辨率的图片从两个路径去考虑:一部分是空间路径,这部分负责保留空间位置的信息,留着的是高分辨率的分辨图,就是通过三个简单的卷积层把图像划分到 $\frac{1}{8}$ 的大小;另一部分是语义路径,这部分通过把图片进行下采样,然后得到 $\frac{1}{16}$ 和 $\frac{1}{32}$ 的高级语义信息之后通过 ARM 和 FFM 进行融合,来达到好的分割效果。

里面比较有用的module 是 ARM,这个 module 其实本质上是在做通道自注意力,因为他先进行了一个全局池化,然后是逐点卷积,这个意思就是获取全局的语义信息,至于这边为什么叫 attention 我的理解是:这里通过 1x1 conv 和 BN 和 sigmoid 得到了一个 attention 向量(对应的是 attention 机制中的 $\text{softmax}(QK^{T})$)然后这里因为是逐点卷积,所以是做的通道的注意力。

接下来是 FFM,顾名思义这个模块是负责把两部分的信息融合在一起。首先先把两部分的信息 concat 到一起,然后做一个 conv 合并信息,接下来做的工作和 ARM 基本上一样,其实也是在做一个通道注意力,然后相乘。做完注意力之后再 shortcut 一下。

这个网络轻量化的点在于,右边语义路径可以直接用轻量级网络,比如 mobilenet,然后两个注意力模块计算量其实都不大,因为只是对通道进行注意力,所以计算量相对小。左边也是只用了三个 conv 层,也没用到残差链接结构,反正计算量还挺小的。论文后面说如果你语义这部分换上大一点的模型,那么效果还能更好,我觉得就是因为很显性引入了 spatial path 这部分。

轻量级分割网络:Bisenet & stdc

https://doubeecat.cn/post/stdc/

作者

Doubeecat

发布于

2025-09-17

更新于

2025-09-18

许可协议