SAMURAI零样本视觉跟踪模型

不久前,Meta 发布了 SAM 2,这是一个用于对象分割和其他一般分割任务的强大模型。不幸的是,人们发现 SAM 2 在以下场景中难以进行对象跟踪:

  • 人群众多、
  • 快速移动的物体、
  • 遮挡(当物体的某个部分被某物遮挡时)

为了解决视觉跟踪(Visual Tracking)问题,出现了一个看起来很棒的新模型 SAMURAI。SAMURAI 改编自 SAM2 本身,用于零样本视觉跟踪。

1、什么是零样本视觉跟踪?

零样本(Zero-shot)视觉跟踪是计算机视觉中的一种先进技术,无需事先对特定对象类进行训练即可跟踪视频流中的对象。这种方法利用零样本学习原理,允许模型根据对象的视觉特征和上下文信息识别和跟踪对象,即使它在训练期间从未见过这些特定对象。

SAMURAI 采用运动感知记忆机制,根据运动模式动态选择和细化过去的观察结果,即,它可以在给定物体运动方向和速度的情况下忘记不必要的细节。与使用刚性记忆系统的传统方法不同,这项创新最大限度地减少了视频帧之间的错误累积。

2、SAMURAI 的工作原理

从本质上讲,SAMURAI 旨在通过了解空间和时间背景来预测和跟踪物体。以下是它实现这一目标的方法:

运动感知记忆选择:

  • 与使用固定窗口记忆的 SAM 2 不同,SAMURAI 根据运动模式动态选择记忆。
  • 通过分析物体随时间的运动,SAMURAI 优先考虑相关帧,确保更好的预测。

精细的蒙版选择:

  • SAMURAI 使用时间运动提示动态调整其分割蒙版。
  • 这减少了错误传播,特别是在快速移动或自遮挡物体中。

实时适应:

  • 得益于其高效的架构,SAMURAI 可以实时运行,因此非常适合视频监控或自动驾驶等应用。

零样本学习:

  • SAMURAI 不需要针对新场景进行重新训练。它利用了 SAM 2 的泛化能力,并通过跟踪特定机制对其进行了增强。

3、SAMURAI vs.  SAM2

核心功能:

  • SAM 2:对象分割
  • SAMURAI:对象跟踪

内存管理:

  • SAM 2:固定窗口内存
  • SAMURAI:运动感知动态内存

时间感知:

  • SAM 2:缺乏时间理解
  • SAMURAI:使用时间线索预测对象运动

错误处理:

  • SAM 2:随着时间的推移,错误传播更高
  • SAMURAI:优化内存选择以最大限度地减少错误

适应性:

  • SAM 2:一般对象分割任务
  • SAMURAI:复杂场景中的零样本视觉跟踪

4、为什么 SAMURAI 是游戏规则改变者

准确性和精确度

SAMURAI 显著提高了性能指标,例如 LaSOT 上的 AUC 提升了 7.1%,GOT-10k 上的 AO 提升了 3.5%,超越了传统跟踪器。

跨场景适应性

通过零样本学习,SAMURAI 可以随时随地跟踪任何物体。它不依赖于标记数据集或再训练。

实际应用

从体育分析到监控,SAMURAI 的强大性能使其成为任何需要精确可靠跟踪的场景的理想选择。

5、模型架构

https://arxiv.org/pdf/2411.11922v1

简要概述架构:

  • 它通过图像编码器处理输入视频帧以提取视觉特征,并利用记忆注意力动态参考先前帧。
  • SAMURAI 采用运动感知记忆选择机制,根据运动分数评估记忆帧,使其能够保留相关记忆,同时丢弃不相关的记忆,从而最大限度地减少错误。
  • 掩码解码器结合这些选定的特征来生成用于跟踪的预测掩码。
  • 此外,它使用运动线索改进了多个掩码预测,并结合了亲和头来评估掩码质量,以及用于验证物体存在的物体头,从而确保在复杂场景中实现强大的跟踪性能。

总之,SAMURAI 不仅仅是 SAM 2 的升级版,更是视觉跟踪技术的一次飞跃。通过引入运动感知内存和实时跟踪功能,SAMURAI 弥合了分割与现实世界跟踪挑战之间的差距。希望你尝试一下。它是开源的!!


原文链接:SAMURAI : enhanced SAM 2 for visual object tracking

汇智网翻译整理,转载请标明出处