BoT-SORT: Robust Associations Multi-Pedestrian Tracking 论文详细解读

文章目录

BoT-SORT: Robust Associations Multi-Pedestrian Tracking 论文详细解读
- BoT-SORT:
- BoT-SORT简述
- 修改卡尔曼滤波状态向量和其他矩阵参数
- 相机的运动补偿
- IOU与Re-ID的融合
- 实验效果
- - MOT17：
  - MOT20：
- 借鉴来源

BoT-SORT:

论文标题：BoT-SORT: Robust Associations Multi-Pedestrian Tracking
论文地址：https://arxiv.org/pdf/2206.14651.pdf
论文代码：https://github.com/NirAharon/BOT-SORT

BoT-SORT简述

本文是以ByteTack为基线，通过分析近期较为流程的track-by-detection范式的“SORT-LIKE”类算法（SORT,DeepSORT,JDE）的局限性，设计较为妥当的解决方式，以此来提升MOT的性能指标。

通过使用卡尔曼滤波器获得轨迹的预测框，但是得到的预测框与检测器得到的结果相比是次优的，目前大多数方法是采用DeepSORT中的状态参数，估计的是bounding box的宽高比，而不是宽高，这就导致预测框的宽高尺寸不准确。
基于“ SORT-like ”类的 IOU 的方法主要依赖于轨迹的预测bounding box的质量，而在复杂的场景或者现实场景下，由于摄像机的运动，导致预测bounding box的正确位置可能会失败，这就导致了预测bounding box和检测得到的bounding box两者之间的低重叠，最终导致跟踪器性能低下。
在数据关联阶段，使用 IOU 往往可以得到更好的 MOTA，而 Re-ID 获得更高的IDF1。所以在本论文中，将IOU和Re-id融合使用。

修改卡尔曼滤波状态向量和其他矩阵参数

起初，在SORT中的卡尔曼滤波的状态参数有7位x=[xc,yc,s,a,xc˙,yc˙,s˙]x=[x_c,y_c,s,a,\dot{x_c},\dot{y_c},\dot{s}]x=[xc,yc,s,a,xc˙,yc˙,s˙]，其中s表示边界框的比例（面积），a表示边界框的宽高比。在DeepSORT中卡尔曼滤波的状态参数有8位x=[xc,yc,a,h,xc˙,yc˙,a˙,h˙]x=[x_c,y_c,a,h,\dot{x_c},\dot{y_c},\dot{a},\dot{h}]x=[xc,yc,a,h,xc˙,yc˙,a˙,h˙]，将边界框比例s换成了边界框的高。但是作者通过实验发现，即使使用DeepSORT中的状态参数，但是预测出来的边界框，任然有些问题。如下图：
卡尔曼滤波器状态参数修改
通过上图可以发现，在DeepSORT使用的状态参数下预测出来的bounding box框不能完整的将目标框住（蓝色虚线框），如此一来，在使用 IOU 进行数据关联的时候，可能就会出现问题。因此作者将卡尔曼滤波器的状态参数设置为xk=[xc(k),yc(k),w(k),h(k),xc(k)˙,yc(k)˙,w(k)˙,h(k)˙]x_k=[x_c(k),y_c(k),w(k),h(k),\dot{x_c(k)},\dot{y_c(k)},\dot{w(k)},\dot{h(k)}]xk=[xc(k),yc(k),w(k),h(k),xc(k)˙,yc(k)˙,w(k)˙,h(k)˙]。
既然卡尔曼滤波器的状态参数修改了，那么对应的也需要修改初始化的参数矩阵（过程噪声、测量噪声）以满足整体的修改预测。
修改公式

相机的运动补偿

track-by-detection范式的跟踪器严重依赖于预测轨迹的边界框和检测到的边界框之间的重叠。在动态相机情况下，图像平面中的边界框位置可能会发生显著变化，这可能会导致 ID 切换或假阴性增加，如下图所示。
相机的运动补偿
静态相机场景中的跟踪器也可能因振动或漂移引起的运动而受到影响，就像在 MOT20 中一样，在非常拥挤的场景中，ID 切换可能是一个真正的问题。视频中的运动模式可以概括为刚体运动，来自相机姿态的变化，以及物体的非刚体运动。由于缺乏关于相机运动的额外数据（例如导航、IMU 等）或相机内参，2个相邻帧之间的图像配准是相机刚性运动在图像平面上投影的良好近似。
作者提出使用传统的方式 Global motion compensation (GMC) ，用OpenCV中的提取图像关键点技术对背景提取特征描述子（类似ORG、SIFT、SURF），并且通过特征点进行稀疏光流跟踪来使用RANSAC计算并获取背景运动的仿射变换矩阵，以此通过前后帧的运动信息生成仿射变换矩阵来预测行人边界框，称为运动补偿，仿射变换矩阵平移部分只会影响中心点位置，而其它的影响状态向量和噪声矩阵。由此作者给出了运动校正的等式方程：
相机运动补偿