LIDAR
Motivation
这篇做的主要是裂缝检测的任务,传统的 CNN 模型因为归纳偏置和感受野导致效果不好,Transformer 因为做注意力是平方复杂度导致消耗很大。二者都缺乏跨模态交互和特征丢失,导致了关键细节的丢失。
而 Mamba 的推出证明在处理复杂数据时有更高灵活性 & 可以有效建模局部线索和长距离关系。同时在视觉领域里设计 Mamba 的扫描策略又是非常重要的,此前方法用的扫描方法(比如蛇形,顺序)是有局限性的,并且之前采取的 VSS 块个数可能太多,而且朴素卷积其实很耗时间。
所以作者提出了 LIDAR,旨在轻量化做这个任务:
- 提出了 LacaVSS,集成了一种新的扫描策略 EDG-SS,根据图像纹理优先推理裂缝区域。
- 引入了 LDMK,一种动态卷积策略,保持较低复杂度。LDMK使LIDAR能够在参数量较少的情况下实现最佳性能。
- 提出 LD3CF,通过增强高频裂缝特征的 AFDP 感知器来实现跨模态和分层特征的有效融合
Method
LDMK
这个模块是为了降低卷积的参数量和计算成本的,也就是动态选择最重要的特征通道进行处理,具体来说就是首先做了一个逐点卷积,然后通过两个 MLP + 池化得到重要性得分 $s$:

接下来我们从 $s$ 中选取出来 top-k 个通道,并且生成一个掩码 $M$ 进行剪枝。关于这个 k 的选择,他使用了一个指数移动平均的策略对这个 k 进行处理。即引入参数 $\rho$ 
最后令 $k_t = \lfloor C_m · \hat\rho_t\rfloor$
然后建立了多尺度的卷积核,并且引入了可以学习的参数,最后表示为

最后通过一个逐点卷积返回到 $C_{out}$
LacaVSS
首先为了去掉噪声,我们对于特征图先处理一下:
$$
ω_{out} = ReLU(GN(LDMK(avgpool+maxpool))) + ω
$$