顶刊TIP 2025！北大清华等提出多目标跟踪新方法TOPICTrack和大规模数据集BEE24

点击下方卡片，关注「3D视觉工坊」公众号选择星标，干货第一时间送达来源：3D视觉工坊添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。扫描下方二维码，加入「3D视觉从入门到精通」知识星球(点开有惊喜)，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做

3Ｄ视觉工坊

274人浏览 · 2025-02-11 07:01:12

3Ｄ视觉工坊 · 2025-02-11 07:01:12 发布

点击下方卡片，关注「3D视觉工坊」公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入「3D视觉从入门到精通」知识星球(点开有惊喜)，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

论文地址：https://ieeexplore.ieee.org/document/10851814

代码仓库：https://github.com/holmescao/TOPICTrack

数据集主页：https://holmescao.github.io/datasets/BEE24

tldr: 受到蜂群复杂运动模式的启发，本文提出了一种融合运动与外观特征的并行关联跟踪新范式，并构建了一个极具挑战性的大规模基准数据集BEE24。

0. 效果展示

图1.1：TOPICTrack在BEE24数据集的跟踪结果

图1.2：TOPICTrack在流行数据集上的跟踪结果

1. 导语

视频数据和算法的进步推动了多目标跟踪（MOT）领域的发展。现有的MOT数据集主要关注遮挡和外观相似性问题，而复杂的运动模式虽广泛存在，却常被忽视。为了解决这一问题，我们提出了一个新数据集——BEE24，旨在突出展示复杂的运动场景。BEE24特别具有挑战性，因为它要求跟踪多个外观相似且运动复杂的小蜜蜂，并且这些物体的运动持续时间较长，这十分贴近实际需求（如蜜蜂养殖和无人机群体监控）。

身份关联算法一直是MOT研究的核心。现有的跟踪算法大致可以分为两类：单特征范式（基于运动或外观特征）和串行范式（通过将一种特征作为主特征，另一种作为辅特征）。然而，这些传统范式无法充分利用不同特征之间的互补性。本文提出了一种全新的并行范式，并介绍了双轮并行匹配方法TOPIC。TOPIC能够结合运动和外观特征，并根据运动复杂度自适应选择最合适的特征作为匹配度量。此外，我们还设计了一个基于注意力机制的外观重建模块AARM，该模块能够重构外观特征嵌入，从而增强外观特征的表示能力。

综合实验结果表明，我们的方法在四个公开数据集以及BEE24上均取得了领先的性能表现。值得注意的是，我们提出的并行范式大幅超越了现有的关联范式。例如，与单特征关联范式相比，我们的方法能将错误负例减少6%至81%。

2. 背景与动机

多目标跟踪（MOT）是计算机视觉领域的重要子领域，广泛应用于机器人导航、智能监控和人机交互等多个领域。在MOT任务中，研究者们需要从视频帧中检测出感兴趣物体的位置，并将其身份跨帧关联起来。随着技术的不断进步，数据集的构建与算法优化成为推动多目标跟踪系统性能提升的关键。

2.1 数据集的局限性与突破

在现有的MOT数据集中，研究者通常采用两种主要的方式来应对不同场景的挑战：一是通过扩展场景多样性或物体类别，如GMOT-40数据集；二是关注特定挑战，如遮挡（如MOT17、MOT20数据集）或高相似度的外观（如DanceTrack数据集）。然而，这些数据集中的运动模式相对简单，多数物体的运动模式类似，且缺乏足够的变化性，这在实际应用中可能无法有效应对复杂的运动场景。例如，蜂群在蜂箱周围运动时，不仅会在飞行、爬行等多种模式之间频繁切换，而且其运动速度呈现出明显的非线性变化，如图2。

为了应对这种复杂运动的跟踪问题，我们提出了一个全新的数据集——BEE24，专注于展示复杂的运动模式。BEE24在两个关键方面丰富了数据特性：一是不同物体在同一帧内的运动差异，二是物体在帧间运动的显著变化。

图2：对比不同MOT数据集的特性

2.2 算法的局限性与突破

图3：对比MOT算法的数据关联范式

许多现有的跟踪算法自2016年DeepSORT以来，都遵循了串行关联范式。该范式利用某一特征（如外观特征或运动特征）初步筛选候选匹配，再利用另一特征进行主匹配，如图3b。然而，这种方法未能充分利用不同特征的优势，且筛选过程可能导致跟踪的遗漏（即假阴性）。最近的研究如ByteTrack和OC-SORT采用了基于单一特征的关联范式(如图3a)，单纯依赖运动特征。这种方法在某些数据集上的表现优于基于两个特征的串行范式，但由于检测器的差异，这些比较未必公平。

根据我们对不同特征表现的分析，低速场景下（如MOT17和DanceTrack），由于运动较简单，运动特征更有效；而在高速场景中（如BEE24和GMOT-40），复杂的非线性运动使得基于运动特征的模型面临挑战，这时外观特征的表现更佳。

考虑到上述不同特征在不同场景中的优势，直观的想法是将更多特征结合使用，从而提升性能。为此，我们提出了一个新的并行关联范式，并设计了TOPIC（Two rOund Parallel matchIng meChanism）方法来实现这一范式。TOPIC能够同时使用运动和外观特征作为匹配度量，并根据运动复杂度自适应选择最优特征，从而减少假阴性（FN）的出现。与传统的串行匹配范式相比，这种并行范式能够更有效地利用不同特征之间的互补性。

此外，我们还提出了一个基于注意力机制的外观重建模块（AARM），用于增强物体的外观特征表示，提高物体在多帧间的区分度。

3. BEE24数据集简介

表1：对比MOT数据集统计特性

如表1所示，与现有的MOT数据集相比，BEE24在多个方面具有显著的优势和挑战：

复杂的运动模式：BEE24数据集的运动模式更加复杂，物体在同一帧内的运动差异较大（MMSAO），且单个物体的运动随时间变化大（MMSO）。这与许多现有数据集中的线性或低速运动形成鲜明对比，如图2和4。
小物体跟踪：BEE24中的蜜蜂是最小的目标之一，平均物体面积远小于GMOT-40等数据集中的物体，这增加了跟踪算法在小物体检测和跟踪方面的挑战。
大规模标注：数据集包含总计446,908个标注，最大视频时长达到200秒，单视频的标注数量和最大时长均超过了大部分现有数据集，尤其是在高密度场景下的跟踪任务中，BEE24为算法提供了更多挑战。

图4：对比不同MOT数据集的运动复杂性

4. 算法简介

4.1 并行匹配范式：TOPIC方法

TOPIC的核心思想是同时利用运动特征和外观特征进行匹配，并通过两轮匹配机制解决可能的匹配冲突。在第一轮匹配中，通过匈牙利算法分别计算基于外观和基于运动的匹配结果。然后，对于冲突的匹配，TOPIC根据运动水平自适应地选择更可靠的特征进行最终匹配。这一机制有效减少了假阴性（FN），提高了整体的跟踪准确性。如算法1的伪代码所示。

算法1：TOPIC方法的伪代码

4.2 基于注意力的外观重建模块：AARM

AARM采用基于余弦距离的注意力机制，通过计算历史轨迹和当前检测的相似性来增强外观特征的表示。通过这种方式，AARM能够改善同一物体在不同帧间的相似度，同时增强不同物体之间的区分度。

AARM的工作原理是，首先为每个目标计算出跨帧的注意力图，然后通过残差机制对外观特征进行重建，从而提升相同物体的相似性，并减少不同物体之间的混淆，如图5所示。此外，该模块无需训练且即插即用。

图5：AARM的原理图

5. 主要实验结果

为了验证提出方法的有效性和优越性，我们在MOT17、MOT20、DanceTrack、GMOT-40和BEE24共5个数据集和多个主流跟踪算法（如FairMOT、ByteTrack等）上进行了详尽的实验，主要的实验结果如下。

5.1 TOPIC的有效性

与其他关联范式相比，我们提出的TOPIC在5个数据集中的大多数关键指标上实现了1%以上的精度提升，如表2。通过可视化TOPIC的匹配机制（见图6），我们展示了其如何在不同的运动水平下，自适应地切换外观和运动特征，显著提升了复杂场景中的跟踪效果。

表2：TOPIC和AARM的有效性验证实验

图6：TOPIC的匹配过程可视化

5.2 AARM的有效性

在对比实验中，我们发现AARM在不同跟踪器中均能够一致地显著提高跟踪性能，并能即插即用（见表2）。我们进一步揭示了AARM的在目标外观表征的能力，它在所有5个数据集上实现了最小的类间相似度（InterCS）和最高的类内相似度（IntraCS），降低了数据关联的难度，如图7。

图7：对比不同跟踪器的外观表征能力

5.3 速度与精度的平衡

如图8所示，尽管引入Re-ID模块会略微增加计算时间，但其对跟踪精度的提升是显著的。特别是在运动复杂的场景中，TOPICTrack能够以更高的精度和较低的计算开销达到最佳的跟踪效果。

图8：Re-ID模块对计算时间和精度的影响

5.4 基准测试

通过在5个数据集上的对比，TOPICTrack在多个关键指标上超越了主流算法，达到了新SOTA（见表3-7）。通过分析不同数据集的目标特性，我们发现TOPICTrack在处理复杂运动、遮挡以及外观相似度高的目标时，表现尤为突出。

表3：与主流跟踪算法在MOT17测试集的性能对比

表4：与主流跟踪算法在MOT20测试集的性能对比

表5：与主流跟踪算法在DanceTrack测试集的性能对比

表6：与主流跟踪算法在GMOT-40测试集的性能对比

表7：与主流跟踪算法在BEE24测试集的性能对比

6. 总结

在数据集特性扩展方面，本文提出了一种新的MOT数据集BEE24，该数据集挑战模型跟踪多个相似外观的小物体，且物体运动复杂、持续时间长。BEE24有助于推动MOT技术在现实场景中的应用与发展。在算法优化方面，我们提出了一种新的并行关联范式——TOPIC，能够根据物体的运动水平自适应选择外观或运动特征进行关联。同时，我们提出AARM，增强了跟踪器对物体外观的表示能力，并且能够即插即用。大量实验验证了我们提出的跟踪器在五个数据集上的有效性和优越性。

本文未对目标检测模型（采用YOLOX）和运动模型（采用OC-SORT）进行改进。因此，未来可以考虑进一步优化检测模型和运动模型，以提升跟踪性能。

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机：四旋翼建模、无人机飞控等

2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿：具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些，还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如3D点云+清华+小草莓）, 拉你入群。

▲长按扫码添加助理：cv3d001

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球(点开有惊喜)，已沉淀6年，星球内资料包括：秘制视频课程近20门（包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等）、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球，一起学习进步。

▲长按扫码加入星球

3D视觉工坊官网：www.3dcver.com

大模型、扩散模型、具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。