今天看啥  ›  专栏  ›  新机器视觉

单目标跟踪方法-D3s

新机器视觉  · 公众号  · 科技自媒体  · 2024-09-19 21:33
    

主要观点总结

本文介绍了一种名为D3S的目标跟踪算法。该算法结合了GIM和GEM两个模块,分别用于目标形态估计和目标位置约束。文章详细描述了D3S的设计理念、网络结构、训练过程和性能。

关键观点总结

关键观点1: D3S算法的目标跟踪理念

使用GIM和GEM两个视觉模型表示目标,一个约束目标移动的位置,一个约束目标的形状,二者结合能够为目标分割提供可靠的样本。

关键观点2: 网络结构

D3S模型分为三部分:GEM、GIM和Refinement模块。GEM负责目标的位置约束,GIM负责目标的形态估计,Refinement模块则用于优化输出结果。

关键观点3: 训练过程

D3S在训练过程中,使用第一帧的信息进行初始化,并通过迭代生成最终的分割掩码图。在跟踪阶段,根据上一帧的目标位置裁剪出新的样本,送入网络得到分割掩码,再转换为所需的矩形框作为跟踪结果。

关键观点4: 性能表现

D3S在VOT实验上取得了良好的性能。消融实验结果表明,GIM和GEM的输入特征都是必要的,而且D3S的输出坐标比GEM更准确。


文章预览

作者 | 晟  沚 来源 | 机器学习算法工程师          前  言 现有跟踪算法中存在的问题 对于目标定位的搜索问题仅适用于目标的低维变换(平移、尺度放缩),不能有效地解决更为常见的变换(横纵比改变、旋转等) 现有方法用基于采样的搜索或者边界框回归方式对目标框的横纵比进行估计,受到矩形框自身的限制(需要与坐标轴对齐) 当边界框不能很好地表示目标时,基于模板的变换估计不一定可靠。比如当目标自身伸展时,矩形边界框为了包含完整的目标,会圈入很多无关的背景信息。目标在旋转时也是类似,不同切面的外观之间差异很大。简单来说就是模板难以充分地表达目标的各种可能的外观。在面对这些情况时,逐像素分割能够实现更准确的定位,于是跟踪问题转变为了视频物体分割问题。 视频物体分割一直依赖无法直接用于跟 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览