2025-11-05发表2025-11-10更新

OmniSegmentor

Motivation

之前的工作的缺陷在于：

做多模态融合的时候可能只关注于少数模态，比如 Dformer，只采用了一种（RGB-D）额外模态进行操作
需要大规模数据集满足训练需求

所以作者承接 Dformer 的工作，提出了一个大规模多模态数据集 ImageNeXt，为了更好地适应多模态数据，在预训练阶段，提出了一种方法，不再在每次迭代中同时输入所有类型的模态数据，而是采用分批输入的方式，把 RGB 数据和其他随机选择的模态数据输入进模型然后对齐。这就是 OmniSegmentor。

Method

关于 ImageNeXt 这个数据集，它尝试涵盖了尽可能多的主流视觉模态，有D,T,LiDAR，Event 几种。每种都对应了一种多模态信息的估计方法。

现在基于 ImageNeXt 进行训练，但是作者发现，把所有模态统一丢进去训不太好收敛，并且测出来效果也很差，所以作者在预训练阶段采用的方法是以 RGB 和随机选择的补充模态作为输入。作者在这里直接选用了 Dformer 的框架，符合直觉的是这样也可以让方法work。这部分里不同模态的编码是一样的

对于下游任务来说，作者同样提出了一种高效的微调策略：首先考虑我们需要用所有的额外模态实现稳健的分割方案，那么就是需要我们对于每个模态使用独特的特异性编码。在实际的下游任务里，由于使用的模态不一定一样（个数，种类等），所以对微调的任务每个使用独特的 stem 层。多个模态特征通过简单的加和和 LayerNorm 得到特征 $X_{agg}$，再和 RGB 特征直接相加得到 $X_{enh}$ 丢进分割头。消融实验证明简单的相加加正则化就能达成很好的效果。

OmniSegmentor

https://doubeecat.cn/post/OmniSegmentor-1/

作者

Doubeecat

发布于

2025-11-05

更新于

2025-11-10

许可协议

#CV

OmniSegmentor

Motivation

Method

作者

发布于

更新于

许可协议

链接

分类

最新文章

归档

标签