点击下方卡片,关注「集智书童」公众号最近,基于Transformer的模型在各种视觉任务中取得了令人鼓舞的成果,这是因为它们能够建模长距离的依赖关系。然而,Transformers的计算成本很高,这限制了它们在自动驾驶等实时任务中的应用。此外,对于准确的密集预测,特别是驾驶场景理解任务,高效的局部和全局特征选择和融合至关重要。在本文中,作者提出了一种名为金字塔池化Axial Transformer(P2AT)的实时语义分割架构。所提出的P2AT从CNN编码器中获取粗糙特征,以生成具有尺度感知性的上下文特征,然后将其与多级特征聚合方案相结合,以生成增强的上下文特征。具体来说,作者引入了金字塔池化Axial Transformer来捕获复杂的空间和通道依赖关系,从而提高了语义分割的性能。然后,作者设计了一个双向融合模块(BiF)来融合不同级别的语义信息。
………………………………