1. Untrimmed Video Classification

描述

预测未剪辑视频中的活动。未剪辑视频视频可以包含不止一个活动,并包含包含大量活动上下文信息。要求算法可以整体分析一个视频并进行分类。

数据集

ActivityNet Version 1.3 dataset,包含超过648小时的20k视频,平均一个视频1.5个注解。包含200个不同的活动,50%为训练集,25%验证集,25%测试集

评估指标

用 top-1 error (e)评估算法好坏

m个视频,n个标签,p为预测值,g为真实值,计算公式如下:

1
2
3
e = \frac{1}{m} \sum_{i=1}^{m} f(i)

f(i) = \frac{1}{n} \sum_{j=1}^{n} d(p_i, g_{ij})

预测成功时fd = 1

代码在这里:
https://github.com/activitynet/ActivityNet/blob/master/Evaluation/get_classification_performance.py

2. Trimmed Action Recognition

描述

在经过裁剪的视频中进行动作识别,每个视频只有一个单度的动作,动作都持续10秒

数据集

使用 Kinetics 数据集,包含大约300k视频剪辑,400个人类动作,每个视频只有1类,取自不同的YouTube视频,包括人与物的交互以及人与人的交互

评估指标

算法对每个视频预测k个预测标签lj,j = 1,2…k。该视频的真实标签是g,预测成功时d = 1 否则 d=0

1
e = \min_{j} d(l_{j}, g)

代码在这
https://github.com/activitynet/ActivityNet/blob/master/Evaluation/get_kinetics_performance.py

3. Temporal Action Proposals

描述

在未剪辑视频中定位并识别发生了人类活动的短期片段,要计算编码评分是高效的,且可以有效识别时间段。

在许多大规模视频分析场景中,人们有兴趣定位和识别长时间未修剪的视频中短时间间隔内出现的人类活动。目前的行为检测方法仍然很难处理大规模视频集合,并且有效地解决这一任务对于计算机视觉系统仍然很难。这是由于:
(1)当前动作识别方法的计算复杂性;
(2)缺少可以针对每个视频提出更少间隔的方法,使得行为处理仍然集中在大量候选时间片段中。这些候选时间片段被广泛称为行为建议(Action Proposals)。

为了在大规模和实际情况下适用,有用的Action Proposals方法由两个目标驱动:
(1)Proposal方法必须在计算上高效,对时间段进行表示,编码和打分。
(2)Proposal方法必须区分我们感兴趣的活动,以便仅检索包含指示这些活动类别的视觉信息的时间片段。

数据集

ActivityNet Version 1.3 dataset ,该数据集包含超过648个小时的未修剪视频,共约2万个视频。它包含200种不同的日常活动,例如:’walking the dog’, ‘long jump’, and ‘vacuuming floor’等。数据量分布:train(~50%), validation(~25%), test(~25%)。
下载链接

评估指标

此任务使用Average Recall和Average Number of Proposals per Video(AR-AN)曲线作为评估指标。一个proposal为真的条件:该proposal的时间区间和真实值(ground-truth)的区间的tIOU(temporal intersection orver union)大于等于一个阈值(比如:tIOU>0.5
)。AR
被定义为召回值的平均值(满足0.5<tIOU≤0.9
,步长为0.05
)。AN
被定义为proposals总数除以测试子集中的视频数量。当计算 AR−AN
曲线上的值时,我们考虑 AN
集中在1到100(含)之间的值,步长为1。

使用此评估指标评估提交文件的具体过程:

使

1
\frac{\text{total number of proposals in the submission file}}{\text{total number of videos in the testing subset}}

ANmax
表示在评估方法允许每个视频平均proposals数量的最大值。这里,ANmax=100
。让 R=ANmaxANsubmission
,那么我们按照以下方式预处理提交文件:

若 R<1
,那么对于测试子集中的每个视频,我们会根据proposal得分对其proposal进行分类,并丢弃得分最低的 R%
的proposal。
若 R≥1
,那么对于测试子集中的每个视频,我们会根据提案得分对提案进行排序,并复制每个视频中得分最低的 (R−1)%
提案,并将结果数据点添加到 AR−AN
曲线上。然后计算所得到的最终曲线下的面积并将其作为提交文件的度量分数。
过滤后的提交结果文件将有:AN=ANmax
。对于每一个 p
值(从1到100,步长为1),仅仅使用得分前 p%
的proposal计算 AR
,并将结果数据点添加到 AR−AN
曲线上。然后计算所得到的最终曲线下的面积并将其作为提交文件的度量分数。

在验证子集上提供基线proposal方法(称为统一随机)的结果。统一随机(Uniform Random):每个proposal的中心和长度是独立地从间隔内的均匀随机分布 [0,d]
中抽取的,其中 d
为视频长度。这个模型的得分:44.88%

虚线表示在平均超过一个 tIoU
阈值时的召回性能,而实线表示跨所有 tIoU
阈值的平均召回率。可以看出,在 tIoU
比较小时召回性能较高,但在 tIoU
较大时急速下降。因此,对于在评估指标上得分较高的proposal方法,需要重点关注对低和高 tIoU
阈值下都得到相对较高的召回率。

4. Temporal Action Localization

描述

尽管最近在大规模视频分析方面取得了进展,但Temporal Action Localization仍然是计算机视觉中最具挑战性的未解决问题之一。这种搜索问题阻碍了从消费者视频摘要到监控,人群监控和老年护理等各种实际应用。因此,我们致力于推动开发高效,准确的自动化方法,以搜索和检索视频集合中的事件和活动。

这项任务旨在鼓励计算机视觉研究人员设计高性能的行为定位系统。

数据集

此任务采用ActivityNet 1.3版本数据集。该数据集包含超过648个小时的未修剪视频,共约2万个视频。它包含200种不同的日常活动,例如:’walking the dog’, ‘long jump’, and ‘vacuuming floor’等。数据量分布:train(~50%), validation(~25%), test(~25%)。

评估指标

评估服务器使用的评估代码可以在这里
https://github.com/activitynet/ActivityNet/blob/master/Evaluation/get_detection_performance.py。

插值平均精度(Average Precision,AP)作为评估每个行为类别结果的指标。然后,AP
对所有活动类别进行平均,得到 mAP

一个detection为真的条件:该tIOU(temporal intersection orver union)大于等于一个阈值(比如:tIOU>0.5
)。此任务中使用的官方指标是平均mAP,其被定义为所有mAP值的平均值,其中 tIOU
阈值满足:0.5<tIOU≤0.9
,步长为0.05

5. Dense-Captioning Events in Videos

描述

大多数自然视频包含众多活动。例如,在“人弹钢琴”的视频中,视频可能还会包含另一个“人跳舞”或“人群鼓掌”。这项挑战研究密集字幕事件的任务,其中涉及检测和描述视频中的事件。这个挑战使用了ActivityNet Captions数据集,这是一个新的密集字幕事件的大型基准。ActivityNet Captions包含20K个视频,总计849个视频小时,总共有100K个描述,每个视频都有其独特的开始和结束时间。

数据集

ActivityNet Captions数据集将用于此挑战。数据集对视频用一系列时间注释的句子进行描述。每个句子涵盖视频的一个唯一的片段,描述发生的多个事件。这些事件可能会在很长或很短的时间内发生。平均而言,Captivity网络中的每个视频都包含3.65个句子,总共产生了10万个句子。每个视频的句子数量遵循相对正态的分布。而且,随着视频持续时间的增加,句子的数量也增加。每个句子的平均长度为13.48个字,也是正态分布的。

评估指标

评估代码可以在这里:https://github.com/ranjaykrishna/densevid_eval

受密集图像字幕指标的启发,使用类似的指标来衡量模型对定位和字幕事件的联合能力。在前1000个proposal时,评估指标计算 tIOU
在 0.3,0.5,0.7
阈值上的平均准确率(AP)。使用传统评估指标来衡量我们标题的精确度:BLEU,METEOR和CIDDEr。

Comments

⬆︎TOP