BoT-SORT: Robust Associations Multi-Pedestrian Tracking 论文详细解读
迪丽瓦拉
2025-05-29 22:49:47
0

BoT-SORT: Robust Associations Multi-Pedestrian Tracking 论文详细解读

文章目录

  • BoT-SORT: Robust Associations Multi-Pedestrian Tracking 论文详细解读
    • BoT-SORT:
    • BoT-SORT简述
    • 修改卡尔曼滤波状态向量和其他矩阵参数
    • 相机的运动补偿
    • IOU与Re-ID的融合
    • 实验效果
      • MOT17:
      • MOT20:
    • 借鉴来源

BoT-SORT:

论文标题:BoT-SORT: Robust Associations Multi-Pedestrian Tracking
论文地址:https://arxiv.org/pdf/2206.14651.pdf
论文代码:https://github.com/NirAharon/BOT-SORT

BoT-SORT简述

  本文是以ByteTack为基线,通过分析近期较为流程的track-by-detection范式的“SORT-LIKE”类算法(SORT,DeepSORT,JDE)的局限性,设计较为妥当的解决方式,以此来提升MOT的性能指标。

  • 通过使用卡尔曼滤波器获得轨迹的预测框,但是得到的预测框与检测器得到的结果相比是次优的,目前大多数方法是采用DeepSORT中的状态参数,估计的是bounding box的宽高比,而不是宽高,这就导致预测框的宽高尺寸不准确。
  • 基于“ SORT-like ”类的 IOU 的方法主要依赖于轨迹的预测bounding box的质量,而在复杂的场景或者现实场景下,由于摄像机的运动,导致预测bounding box的正确位置可能会失败,这就导致了预测bounding box和检测得到的bounding box两者之间的低重叠,最终导致跟踪器性能低下。
  • 在数据关联阶段,使用 IOU 往往可以得到更好的 MOTA,而 Re-ID 获得更高的IDF1。所以在本论文中,将IOU和Re-id融合使用。

修改卡尔曼滤波状态向量和其他矩阵参数

  起初,在SORT中的卡尔曼滤波的状态参数有7位x=[xc,yc,s,a,xc˙,yc˙,s˙]x=[x_c,y_c,s,a,\dot{x_c},\dot{y_c},\dot{s}]x=[xc​,yc​,s,a,xc​˙​,yc​˙​,s˙],其中s表示边界框的比例(面积),a表示边界框的宽高比。在DeepSORT中卡尔曼滤波的状态参数有8位x=[xc,yc,a,h,xc˙,yc˙,a˙,h˙]x=[x_c,y_c,a,h,\dot{x_c},\dot{y_c},\dot{a},\dot{h}]x=[xc​,yc​,a,h,xc​˙​,yc​˙​,a˙,h˙],将边界框比例s换成了边界框的高。但是作者通过实验发现,即使使用DeepSORT中的状态参数,但是预测出来的边界框,任然有些问题。如下图:
卡尔曼滤波器状态参数修改
  通过上图可以发现,在DeepSORT使用的状态参数下预测出来的bounding box框不能完整的将目标框住(蓝色虚线框),如此一来,在使用 IOU 进行数据关联的时候,可能就会出现问题。因此作者将卡尔曼滤波器的状态参数设置为xk=[xc(k),yc(k),w(k),h(k),xc(k)˙,yc(k)˙,w(k)˙,h(k)˙]x_k=[x_c(k),y_c(k),w(k),h(k),\dot{x_c(k)},\dot{y_c(k)},\dot{w(k)},\dot{h(k)}]xk​=[xc​(k),yc​(k),w(k),h(k),xc​(k)˙​,yc​(k)˙​,w(k)˙​,h(k)˙​]。
  既然卡尔曼滤波器的状态参数修改了,那么对应的也需要修改初始化的参数矩阵(过程噪声、测量噪声)以满足整体的修改预测。
修改公式

相机的运动补偿

  track-by-detection范式的跟踪器严重依赖于预测轨迹的边界框和检测到的边界框之间的重叠。在动态相机情况下,图像平面中的边界框位置可能会发生显著变化,这可能会导致 ID 切换或假阴性增加,如下图所示。
相机的运动补偿
  静态相机场景中的跟踪器也可能因振动或漂移引起的运动而受到影响,就像在 MOT20 中一样,在非常拥挤的场景中,ID 切换可能是一个真正的问题。视频中的运动模式可以概括为刚体运动,来自相机姿态的变化,以及物体的非刚体运动。由于缺乏关于相机运动的额外数据(例如导航、IMU 等)或相机内参,2个相邻帧之间的图像配准是相机刚性运动在图像平面上投影的良好近似。
  作者提出使用传统的方式 Global motion compensation (GMC) ,用OpenCV中的提取图像关键点技术对背景提取特征描述子(类似ORG、SIFT、SURF),并且通过特征点进行稀疏光流跟踪来使用RANSAC计算并获取背景运动的仿射变换矩阵,以此通过前后帧的运动信息生成仿射变换矩阵来预测行人边界框,称为运动补偿,仿射变换矩阵平移部分只会影响中心点位置,而其它的影响状态向量和噪声矩阵。由此作者给出了运动校正的等式方程:
相机运动补偿

IOU与Re-ID的融合

个人认为与其说是融合,不如说是如何选择,也就是说在什么样的情况下选择使用IOU来进行数据关联,什么情况下使用Re-ID来进行数据的关联。作者的思想其实很简单,就从IOU距离和余弦相似度距离二者中选择最小的那个,只不过余弦相似度值要先进行一步处理。公式如下:
IOU与reid融合

实验效果

MOT17:

MOT17数据集

MOT20:

MOT20数据集效果

借鉴来源

BoT-SORT 论文笔记及思考
屠榜多目标跟踪!BoT-SORT:稳健的关联多行人跟踪

本人能力有效,对文章理解可能不够透彻,有问题欢迎指正!

相关内容

热门资讯

linux入门---制作进度条 了解缓冲区 我们首先来看看下面的操作: 我们首先创建了一个文件并在这个文件里面添加了...
C++ 机房预约系统(六):学... 8、 学生模块 8.1 学生子菜单、登录和注销 实现步骤: 在Student.cpp的...
A.机器学习入门算法(三):基... 机器学习算法(三):K近邻(k-nearest neigh...
数字温湿度传感器DHT11模块... 模块实例https://blog.csdn.net/qq_38393591/article/deta...
有限元三角形单元的等效节点力 文章目录前言一、重新复习一下有限元三角形单元的理论1、三角形单元的形函数(Nÿ...
Redis 所有支持的数据结构... Redis 是一种开源的基于键值对存储的 NoSQL 数据库,支持多种数据结构。以下是...
win下pytorch安装—c... 安装目录一、cuda安装1.1、cuda版本选择1.2、下载安装二、cudnn安装三、pytorch...
MySQL基础-多表查询 文章目录MySQL基础-多表查询一、案例及引入1、基础概念2、笛卡尔积的理解二、多表查询的分类1、等...
keil调试专题篇 调试的前提是需要连接调试器比如STLINK。 然后点击菜单或者快捷图标均可进入调试模式。 如果前面...
MATLAB | 全网最详细网... 一篇超超超长,超超超全面网络图绘制教程,本篇基本能讲清楚所有绘制要点&#...
IHome主页 - 让你的浏览... 随着互联网的发展,人们越来越离不开浏览器了。每天上班、学习、娱乐,浏览器...
TCP 协议 一、TCP 协议概念 TCP即传输控制协议(Transmission Control ...
营业执照的经营范围有哪些 营业执照的经营范围有哪些 经营范围是指企业可以从事的生产经营与服务项目,是进行公司注册...
C++ 可变体(variant... 一、可变体(variant) 基础用法 Union的问题: 无法知道当前使用的类型是什...
血压计语音芯片,电子医疗设备声... 语音电子血压计是带有语音提示功能的电子血压计,测量前至测量结果全程语音播报࿰...
MySQL OCP888题解0... 文章目录1、原题1.1、英文原题1.2、答案2、题目解析2.1、题干解析2.2、选项解析3、知识点3...
【2023-Pytorch-检... (肆十二想说的一些话)Yolo这个系列我们已经更新了大概一年的时间,现在基本的流程也走走通了,包含数...
实战项目:保险行业用户分类 这里写目录标题1、项目介绍1.1 行业背景1.2 数据介绍2、代码实现导入数据探索数据处理列标签名异...
记录--我在前端干工地(thr... 这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 前段时间接触了Th...
43 openEuler搭建A... 文章目录43 openEuler搭建Apache服务器-配置文件说明和管理模块43.1 配置文件说明...