NightAdapter
碎碎念:又是基于 Rein 的改进…… Rein 的基础方法有点无敌了
Motivation
在夜间/低光场景适配任务中 VFM 一般都是只见过很有限的白天/晚上场景,在夜间场景分割中问题是样本量小很多,并且标注大量的夜间数据很困难。想法是利用不同的白天or夜晚源域对 VFM 进行微调,让通用的 VFM 对没有见过的场景信息进行推理。并且作者通过频率分析发现,白天和夜间的低频形式比较相似,中高频地带差别大且对光照敏感。
基于这个洞察,作者认为可以通过在频域上区别对待这两种信息,来提升模型的泛化能力。
Method
首先利用 DST,我们可以把特征 $f_i \in \R^{c\times n}$ 作变换成特征 $v_i \in \R^{c\times n}$ (就是对特征图的每个点进行加权正弦函数求和。),并且可以额视作 $C$ 个 embedding,按照频段可以分成八个频段,每个频段包含了 128 个通道。接下来作者进行了频谱分析,也就是依次把每个频段的特征变成 0,用剩下特征经过两层MLP作一个分类器,结论是:
剔除高频:当剔除高频段(前两三个频带)时,模型在未见过的夜间目标域上的泛化能力显著提升。
剔除中频:剔除中频段也能略微增强泛化能力。
剔除低频:剔除低频段会严重损害模型在源域和目标域上的性能。
也就是说明了低频的特征信息承载了内容信息,高频信息承载力领域信息,也就有了后面的设计思路.
具体来说,采用一个分治的思想,对于光照不敏感的高频频段,我们独立做一个 rein 的东西:
对于光照敏感的低频频段:首先引入了一个 Band Randomization 模块,对于高频段 $[0,128) [128,256)$ 的 VFM 特征会显著降低模型对夜间场景的泛化能力,但是又不能直接丢掉。所以每个频率通道表示被随机化成 $[0,T](T = 0.3)$ 的一个值,接下来中频段($[256,768)$,同样需要随机化)每两个被 concat 到一起进行处理,一共产生两个新的频段。
对于这三个频段,每个频段独立进行一个rein的步骤之后把他们进行一个 IDST。

NightAdapter