A2D：多个角色的动作识别数据集（成人，婴儿，鸟，猫和狗）（跳球全收集）

摘要：该数据是由密歇根大学Jason J. Corso创建，提供了多个角色动作识别数据集，欢迎访问帕伊提提下载使用（https://www.payititi.com）.

人类会飞吗？完全没有。汽车可以吃吗？同样，绝对不是。但是，这些荒谬的推论是由于当前对行动理解中的特定类型参与者的无视而产生的。我们没有关于在视频中同时推断演员和动作的工作，更不用说要试验的数据集了。因此，A2D标志着计算机视觉界共同努力考虑采取各种行动的各种类型参与者的第一步。确切地说，我们考虑了七个演员类（成人，婴儿，球，鸟，汽车，猫和狗）和八个动作类（攀爬，爬行，进食，飞行，跳跃，侧倾，奔跑和行走），其中不包括无动作类，我们也考虑。

A2D包含3782个视频，每个有效的actor-action元组至少有99个实例，并且视频同时标有像素级actor和采样帧的action。 A2D数据集可作为解决各种视觉问题的新型大型测试平台：视频级单标签和多标签演员动作识别，实例级对象分割/共同细分以及像素级演员动作语义细分等。

调查结果：我们的CVPR 2015论文阐述了一般的行动者行为理解问题，并以各种粒度实例化了该问题：视频级单标签和多标签行动者行为识别以及像素级行动者行为语义分割。我们的实验表明，对行为者和行为的共同推理优于对行为者的独立推理，因此得出了我们的观点，即在全面的行为理解中明确考虑各种行为者的价值。

我们收集了一个新数据集，其中包含来自YouTube的3782个视频；因此，这些视频是具有不同特征的不受限制的野生视频。图1具有视频的单帧示例。我们选择执行八种不同动作的七类演员。我们选择的演员包括成人，婴儿，鸟，猫和狗等有关节的演员，以及球和汽车等僵硬的演员。八个动作是攀爬，爬行，进食，飞行，跳跃，运动，跑步和步行。单个动作类可以由多个参与者执行，但是所有参与者都不能执行全部八个动作。例如，我们不考虑数据集中的成年飞行或奔跑的球。在某些情况下，我们采用了给定动作项的语义来维持少量动作：例如，小车行驶意味着汽车在运动，跳球意味着球在弹跳。除了列出的八个动作以及后台中未执行动作的角色以外，没有一个动作标签被添加来说明其他动作。因此，我们总共有43个有效的actor-action元组。

要查询YouTube数据库，我们使用从演员动作元组生成的各种文本搜索。然后，手动验证生成的视频以包含主要演员-动作元组的实例，然后在时间上对其进行修剪以包含该演员-动作实例。修整后的视频平均长度为136帧，最小为24帧，最大为332帧。我们将数据集分为3036个训练视频和746个测试视频，平均分配给所有演员-动作元组。图2显示了每个actor-action元组的统计信息。 A2D中三分之一的视频中有不止一个演员执行不同的动作，这进一步区分了我们的数据集和大多数动作分类数据集。图3显示了具有多个参与者和动作的这些情况的准确计数。

图2.新A2D数据集中的标签计数统计信息。我们显示数据集中出现给定[演员，动作]标签的视频数量。空条目是因为它们无效（球无法进食）或供应不足（例如狗爬的情况）而不在数据集中的联合标签。每个单元格中的背景颜色表示我们使用的颜色。我们会改变演员的色相和行动的饱和度。

图3. A2D中每个视频的联合演员-动作，单个演员和动作的计数直方图；大约三分之一的视频中有多个演员和/或动作。

为了支持考虑中的更广泛的动作理解问题，我们为数据集中的每个视频标记了三到五个帧，同时包含密集的像素级演员和动作注释（图1中有标记示例）。所选的帧均匀地分布在视频上。我们首先使用LabelMe工具箱从MTurk收集众包注释，然后手动过滤每个视频以确保标签质量和标签的时间一致性。视频级标签是直接从这些像素级标签计算出来的，用于识别任务。据我们所知，该数据集是第一个包含演员和动作像素级标签的视频数据集。

Publications

[1]Y. Yan, C. Xu, D. Cai, and J. J. Corso. Weakly supervised actor-action segmentation via robust multi-task ranking. In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, 2017. [ bib ][2]C. Xu and J. J. Corso. Actor-action semantic segmentation with grouping-process models. In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, 2016. [ bib | data ][3]C. Xu, S.-H. Hsieh, C. Xiong, and J. J. Corso. Can humans fly? Action understanding with multiple classes of actors. In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, 2015. [ bib | poster | data | .pdf ]

This work was partially supported by the National Science Foundation CAREER grant (IIS-0845282), the Army Research Office (W911NF-11-1-0090) and the DARPA Mind's Eye program (W911NF-10-2-0062).

Primary Contributors: Chenliang Xu and Jason J. Corso (Emails: jjcorso@eecs.umich.edu,cliangxu@umich.edu)