
HOI4D:用于类别级人-目标交互的 4D 以自我为中心视图数据集
24年1月来自清华、北大和上海姚期智研究院的更新论文“HOI4D: A 4D Egocentric Dataset for Category-Level Human-Object Interaction”。
24年1月来自清华、北大和上海姚期智研究院的更新论文“HOI4D: A 4D Egocentric Dataset for Category-Level Human-Object Interaction”。
HOI4D是一个具有丰富注释的大规模 4D 以自我为中心视图数据集,以促进类别级人-目标交互(HOI)的研究。HOI4D 包含 2.4 百万个 RGB-D 以自我中心视频帧,超过 4000 个序列,由 4 名参与者与 610 个不同室内房间中 16 个类别、800 个不同目标实例交互而收集。还提供全景分割、运动分割、3D 手部姿势、类别级目标姿势和手部动作的逐帧注释,以及重建的目标网格和场景点云。利用 HOI4D,建立三个基准测试任务,从 4D 视觉信号中促进类别级 HOI,包括 4D 动态点云序列的语义分割、类别级目标姿势跟踪和具有不同交互目标的以自我中心动作分割。
如图 HOI4D 概述:构建一个大规模 4D 自我中心数据集,其中包含类别级人-目标交互的丰富注释。提供动作分割(a)、运动分割(b)、全景分割(d)、3D 手势和类别级目标姿势(c)的逐帧注释,以及重建的目标网格(e)和场景点云。
如表是各种HOI数据集的比较:
为了构建 HOI4D,采用一个简单的头戴式数据采集套件,包括自行车头盔、Kinect v2 RGB-D 传感器和英特尔 RealSense D455 RGB-D 传感器,如图所示。
两个 RGB-D 传感器在数据采集过程之前经过预标定和同步。参与者戴着头盔执行各种任务,并与不同室内场景中的各种日常物品进行交互。预先定义了任务池,其中不仅涉及简单的拾取和放置,还涉及其他面向功能的任务,例如将杯子放在抽屉里。为了完成这些任务,参与者需要根据特定的场景配置适当地规划他们的动作。例如,如果抽屉是打开的,那么参与者只需直接将杯子放在抽屉里。否则,他们可能需要先打开抽屉。值得一提的是,采用了两款流行的 RGB-D 摄像头,英特尔 RealSense D455 和 Kinect v2,它们可以很好地互补。 Kinect v2 基于飞行时间 (TOF),可捕捉远距离内容。RealSense D455 是一款基于结构光的摄像头,在短距离(约 1 米)内更具优势。这两个传感器结合在一起可以更全面地捕捉 3D 场景,它们还为跨传感器迁移学习提供了自然的试验台。
如图是标注流程概述。红色分支:给定一个动态 RGB-D 序列,首先标注逐帧 2D 运动分割。然后屏蔽掉移动内容并重建 3D 静态场景。手动标注重建的场景以获得 3D 静态场景全景分割。最后,将 2D 运动分割和 3D 静态场景全景分割合并,得到 4D 动态场景全景分割。蓝色分支:为了获得 3D 手部姿势标签,首先在 RGB-D 帧上标注一组手部关键点,然后利用优化模块恢复底层 3D 手部。对于类别级目标姿势,手动将非模型边框拟合到 RGB-D 帧中的目标或部分目标,并通过利用目标网格进一步优化它。绿色分支:直接在原始视频上标注细粒度动作标签。
如图显示数据集中包含的目标类别。选择了日常生活中的 16 个常见目标类别(7 个刚性目标类别、9 个铰接目标类别)来构建数据集。每个类别由 50 个唯一目标实例组成,每个目标实例对应于从一组高分辨率 RGB 图像重建的 CAD 模型。值得一提的是,这些类别主要选自 ShapeNet [7] 和 Sapien Assets [49]。这使得 HOI4D 与流行的合成 3D 数据集很好地连接在一起,并有助于研究模拟-到-现实的知识迁移。重建的网格和人手轨迹可以潜在地放入模拟环境中以支持机器人学习。
RealSense D455 和 KinectV2 用于同时捕获人与目标的交互,为研究跨不同深度传感器的知识迁移提供了机会。每个视频以 15fps 的速度捕获 20 秒。因此,HOI4D 总共包含 2.40 万帧。
为了体现不同目标类别的功能性,根据目标功能定义了如图所示的交互任务。在所有16个类别中定义了54个任务。每个目标包括一个拾取和放置任务和几个基于功能的任务,可用于支持在交互场景中感知目标的移动性和功能性。
根据任务的难度和场景的复杂性,将任务分为两个级别:简单级别和复杂级别。对于简单任务,捕获的序列包含一个主体在背景相对干净的目标物体上执行拾取-和-放置任务,而不管目标的功能如何。对于复杂任务,从800个目标池中随机挑选10-20个目标并以杂乱的方式放置它们。不同难度的任务自然支持不同的研究方向。简单任务更好地支持有关姿势跟踪和机器人学习的研究,而复杂任务则引入了有趣的研究问题,例如4D全景分割。

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐
所有评论(0)