Tracking
摘要
1.多目标跟踪的关键方向 2.现有技术所属的不同方向的讨论 3.检验现有公开的实验并且总结主流数据集上的实验结果,再进行量化的对比 4.提供MOT研究中会遇到的问题
介绍
多目标跟踪(Multiple Object Tracking or Multiple Target Tracking, MOT or MTT)主要任务是在给定视频中同时对多个感兴趣的目标进行定位,并且维持他们的ID、记录他们的轨迹。 单目标跟踪(Single Object Tracking, SOT)主要集中在设计复杂的外观模型和/或运动模式,解决具有挑战性的问题如尺度变化,出平面旋转和光照变化,而多目标跟踪还有额外的两个任务需要解决:确定目标的数量(通常随时间变化),和维持各自的ID。除了SOT和MOT的共同问题外,MOT还需要处理更复杂的关键问题包括: 1)频繁遮挡;2)轨道初始化和终止;3)相似的外观;4)多目标间的相互影响。
MOT问题
多目标跟踪可以任务是多变量的估计问题,给定一个图像序列,\(S_t^i\) 表示第 \(t\) 帧第i个目标的状态,\(S_t = \left\{S_t^i, S_t^2, \cdots, S_t^{M_t}\right\}\),表示所有的目标 \(M_t\) 的状态序列。 \(S_{1:t} = \left\{S_1, S_2, \cdots, S_t\right\}\) 表示所有目标从第一帧到第t帧的状态序列。
\(O_t^i\)表示第t帧第i个观测目标,\(O_t = \left\{O_t^i, O_t^2, \cdots, O_t^{M_t}\right\}\),表示所有的观测目标\(M_t\)的状态序列。 \(O_{1:t} = \left\{O_1, O_2, \cdots, O_t\right\}\)表示所有观测目标从第一帧到第t帧的状态序列。 多目标跟踪的目的是为了找到一个“最好的”状态序列,可以基于MAP估计泛化建模得到: \(\hat{S_{1:t}} = argmaxP({S_{1:t}}|{O_{1:t}})\)
MOT分类
初始化方法
DBT:首先检测目标,然后链接到轨迹中,给定一个序列,在每帧中进行特定类型的目标检测或运动检测(基于背景建模,得到目标假设, 然后进行顺序或批量跟踪,将检测假设连接到轨迹中。有两个问题值得注意:第一,由于提前训练目标检测器,DBT大部分关注特定的目标类型,如行人、车辆或人脸。第二,DBT的性能非常依赖于所采用的目标检测器的性能。 DFT:需要在第一帧手动初始化一定数量的目标,然后在后续帧定位这些物体。相对来说,DBT更受欢迎,因为它可以自动发现新目标、自动终止消失的目标。而DFT就不能处理新目标出现的情况,但它不需要提前训练目标探测器。
处理模式
Online跟踪:图像序列是一步步处理的因此该跟踪方式也称序列跟踪 Offline跟踪:利用一组帧来处理数据
输出类型
这个标准根据输出的随机性将MOT方法分成基于决策的和基于概率的。基于决策的跟踪输出是恒定的无论运行方法多少次,而基于概率的跟踪每次运行都可能产生不同输出结果。
MOT测评
对于给定的MOT方法,需要根据评分指标和数据集定量地评估其性能。这尤关重要,一方面,必须测量不同组成成分和参数对整体性能的影响,才能设计出最佳的系统。另一方面,可以与其他方法直接比较。而性能评估往往并不简单。
指标
MOT指标通常反应了,目标检测性能以及跟踪性能
Metric | Description | note |
---|---|---|
Recall | Retio of correctly matched detections to ground-truth detection | \(\uparrow\) |
Precision | Retio of correctly matched detections to total result detection | \(\uparrow \) |
FAP/FPPI | Number of false alarms per frame averaged of the sequence | \(\downarrow\) |
MODA | Combines missed detections and FAP | \(\uparrow\) |
MODP | Average overlap between true positive and ground truth | \(\uparrow\) |
MOTA | Combines false negative, false positive and mismatch rate | \(\uparrow\) |
IDS | Number of times that a tracked trajectory changes its matched ground-truth identity | \(\downarrow\) |
MOTP | Overlap between the estimated positions and the ground truth averaged over the matched | \(\uparrow\) |
TDE | Distance between the ground-truth annotation and the tracking result | \(\downarrow\) |
OSPA | Cardinality error and spatial distance between ground truth and tracking result | \(\downarrow\) |
MT | Percentage of ground truth trajectories which covered by tracker output for more than 80% for their length | \(\uparrow\) |
ML | Percentage of ground truth trajectories which covered by tracker output for more than 20% for their length | \(\downarrow\) |
FM | Number of times that a tracked trajectory is interrupted in the traking result | \(\downarrow\) |
RS | Ratio of track which are correctly recovered from short occlusion | \(\uparrow\) |
RL | Ratio of track which are correctly recovered from length occlusion | \(\uparrow\) |
检测指标
准确度(Accuracy):常用召回率和精度指标以及每帧平均误报率(False Alarms per Frame, FAF)作为MOT指标[1]。[63]使用False Positive Per Image(FPPI)评价检测性能。多目标检测的准确性(Multiple Object Detection Accuracy, MODA),一个全面的评估标准,将误检和漏检的相对数纳入考虑范围,由[135]提出。
精度(Precision):多目标检测精度(Multiple Object Detection Precision, MODP)测量的是检测目标和ground truths之间的误差[135]。
跟踪指标
准确度(Accuracy):它度量算法跟踪目标的准确程度。ID Switches[80]则统计MOT算法在目标之间切换的次数。多目标跟踪的准确性(MOTA)【136】将false positive率、false negative率和错配(mismatch)率结合成一个单独的数,对整体的跟踪性给出一个比较合理评估。尽管仍有一些弊端,但这是目前最普及的MOT评估方法。
精度(Precision):三个指标,多目标跟踪精度(MOTP),跟踪距离误差(TDE)[36]和OSPA[137]。它们描述了通过bounding box重叠和/或距离来测量目标跟踪的精确程度。具体而言,在[137]中还考虑了基数(cardinality)错误。
完整性(Completeness):完整性度量指的是ground truth trajectories被跟踪的完整度。大多数跟踪(Mostly Tracked, MT)、部分跟踪(Partly Tracked, PT)、大部分丢失(Mostly Lost, ML)和分段(Fragmentation, FM)[40]的数量属于这一组。
鲁棒性(Robustness):通过从遮挡中恢复出来的能力来评估MOT算法的度量标准,包括在[51]中的从短期遮挡恢复(Recopver from Short-term occlusion, RS)和长期遮挡恢复(RL)。