以下代码可以在我的github找到
欢迎访问个人主页博客

AVA系列

AVA数据集官方网站,需要科学上网,AVA提供4类数据集:

  • AVA-Kinetics(v1.0)):时空动作检测,包含来自 AVA v2.2 的原始 430 个视频,以及来自Kinetics-700 数据集的238k 个视频 。

  • AVA-Actions(v2.2):时空动作检测,包含 430 个视频,其中235 个用于训练、64 个用于验证和 131 个用于测试。每个视频有 15 分钟的注释,间隔为 1 秒。

  • AVA Active Speaker(v1.0):说话人检测。

  • AVA Speech(v1.0)

Task介绍:http://activity-net.org/challenges/2019/tasks/guest_ava.html

AVA-Actions

包含 430 个视频,其中235 个用于训练、64 个用于验证和 131 个用于测试。每个视频有 15 分钟的注释,间隔为 1 秒。

AVA-Actions(v2.2)数据集下载,下载后会得到以下文件。

行为类别文件

  • ava_action_list_v2.2_for_activitynet_2019.pbtxt:60类行为,Evaluate时使用。
  • ava_action_list_v2.2.pbtxt:80类行为。

行为标签文件

  • ava_train_v2.2.csv、ava_val_v2.2.csv、ava_test_v2.2.txt

其他文件

  • 每个视频要检测的位置,即第902到1798秒。
    • ava_included_timestamps_v2.2.txt
  • 不需要进行检测的timestamp,即 train/val/test 数据集中每个视频不需要进行检测的timestamp。
    • ava_test_excluded_timestamps_v2.2.csv
    • ava_train_excluded_timestamps_v2.2.csv
    • ava_val_excluded_timestamps_v2.2.csv

AVA-Kinetics

包含来自 AVA v2.2 的原始 430 个视频,以及来自Kinetics-700 数据集的238k 个视频 。

AVA-Kinetics(v1.0)数据集下载,下载后会得到以下文件。

行为类别文件

  • ava_action_list_v2.2.pbtxt:80类行为。
  • ava_action_list_v2.2_for_activitynet.pbtxt:60类行为,Evaluate时使用。

行为标签文件

  • AVA数据集:ava_test_v2.2.csv,ava_train_v2.2.csv,ava_val_v2.2.csv
  • kinetics数据集:kinetics_test_v1.0.csv,kinetics_train_v1.0.csv,kinetics_val_v1.0.csv

AVA标注规范

标签类别

AVA提供80 个原子动作的注释:

id 英文标签 中文标签 id 英文标签 中文标签 id 英文标签 中文标签
1 bend/bow (at the waist) 弯/弓腰 2 crawl 爬行 3 crouch/kneel 蹲下/跪下
4 dance 舞蹈 5 fall down 摔倒 6 get up 起床
7 jump/leap 跳跃/跳跃 8 lie/sleep 说谎/睡觉 9 martial art 武术
10 run/jog 跑步/慢跑 11 sit 12 stand 站立
13 swim 游泳 14 walk 15 answer phone 接电话
16 brush teeth 刷牙 17 carry/hold
(an object)
拿/保持
(物体)
18 catch
(an object)
捕捉(物体)
19 chop 20 climb
(e.g., a mountain)
攀登
(山)
21 clink glass 碰杯
22 close
(e.g., a door, a box)
关闭(门、盒子) 23 cook 厨师 24 cut
25 dig 26 dress/put on clothing 穿衣 27 drink
28 drive
(e.g., a car, a truck)
驾驶 29 eat 30 enter 进入
31 exit 出口 32 extract 提炼 33 fishing 钓鱼
34 hit (an object) 击中(物体) 35 kick (an object) 36 lift/pick up 举起/捡起
37 listen
(e.g., to music)
38 open (e.g., a window, a car door) 打开
(窗户、车门)
39 paint
40 play board game 玩棋盘游戏 41 play musical instrument 演奏乐器 42 play with pets 和宠物一起玩
43 point to (an object) 指向(一个物体) 44 press 45 pull (an object) 拉(物体)
46 push (an object) 推(一个物体) 47 put down 放下 48 read
49 ride (e.g., a bike, a car, a horse) 50 row boat 划艇 51 sail boat 帆船
52 shoot 射击 53 shovel 54 smoke 抽烟
55 stir 搅拌 56 take a photo 拍照 57 text on/look at a cellphone 发短信/看手机
58 throw 59 touch (an object) 触摸 60 turn (e.g., a screwdriver) 转动(螺丝刀)
61 watch (e.g., TV) 看(电视) 62 work on a computer 在电脑上工作 63 write
64 fight/hit (a person) 打架/击打(人) 65 give/serve (an object) to (a person) 把物给人 66 grab (a person) 抢(一个人)
67 hand clap 拍手 68 hand shake 握手 69 hand wave 挥手
70 hug (a person) 拥抱 71 kick (a person) 踢(一个人) 72 kiss (a person) 吻(人)
73 lift (a person) 抬(人) 74 listen to (a person) 听(一个人) 75 play with kids 和孩子们一起玩
76 push
(another person)
推(人) 77 sing to (e.g., self, a person, a group) 唱歌(人,团体) 78 take (an object) from (a person) 从(人)取(物)
79 talk to (e.g., self, a person, a group) 与(人、团体)交谈 80 watch (a person) 看(一个人)

标注方式

  • 要标记的内容包括人物bbox,以及每个人的行为类别,同一时间同一人可能有多个行为
  • 每行标注一个人在一个时间段内在某个位置的一个行为。
  • 标记的内容还有还有每个实体编号,即相邻关键帧中的人物如果是同一个人,则拥有相同的实体编号。换句话说,“实体编号”其实就是目标跟踪的标签。
  • 并不是对视频中的每一帧进行标记,而只是对关键帧进行标记,即每秒取1帧作为关键帧,对该帧进行标记。

CSV格式

一行的格式如下:video_id、middle_frame_timestamp、person_box、action_id、person_id。

  • video_id:YouTube 标识符。
  • middle_frame_timestamp:从视频开始的秒数。
  • person_box:左上角 (x1, y1) 和右下角 (x2,y2) ,其中 (0.0, 0.0) 对应于左上角,而 (1.0, 1.0) 对应于右下角。
  • action_id:动作类标识符,见 ava_action_list_v2.2.pbtxt
  • person_id:一个唯一的整数,允许此框链接到在此视频的相邻帧中描绘同一个人的其他框。

旧版

AVA v2.2 在两个方面与 v2.1 不同。首先人工加入缺失的标签,将注释数量增加了 2.5%。其次,对宽高比远大于 16:9 的少量视频进行了框位置校正。

AVA v2.1 与 v2.0 的不同之处仅在于删除了少量被确定为重复的电影。类列表和标签映射与 v1.0 保持不变。

以前版本的 AVA 的文件可以在这里下载:

视频下载

以下代码可以在我的github找到

AVA-Actions

cd ava-actions

.
├── download.py
├── trainval_src.txt
├── test_src.txt
├── readme.md
  • trainval_url.txttest_url.txt:训练集验证集、测试集可以直接下载的url文件,在win下可以直接使用迅雷,IDM批量下载;ubuntu下直接wget即可。

  • download.py:如果不采用上述方法下载,亦可用download.py下载。

    python download.py --url_txt <urlfile> --output_dir <output_dir>
    

https://github.com/cvdfoundation/ava-dataset

下载AVA-Kinetics视频

cd ava-kinetics

.
├── download.py
├── all.csv
├── test.csv
├── test.csv
├── train.csv
├── readme.md
  • all.csvtrain.csvtest.csvval.csv:训练集、验证集、测试集、所有数据集的Youtube ID,包括起止时间。

  • download.py:使用download.py下载。

    python download.py  --input_csv <csvfile> --output_dir <output_dir>
    

https://github.com/gurkirt/kinetics-download-prep

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐