谷歌DeepMind—运用深度强化学习为双足机器人学习敏捷足球技能

足球运动员能够流畅地完成抢断、起身、踢球和追球等一系列动作。机器人怎样才能掌握这些敏捷的运动技能呢？

智能佳机器人

259人浏览 · 2024-12-23 15:55:10

智能佳机器人 · 2024-12-23 15:55:10 发布

看看由DYNAMIXEL 驱动的OP3

我们研究了深度强化学习（Deep RL）是否能为一种低成本的小型仿人机器人合成复杂且安全的运动技能，这些技能可在动态环境中组合成复杂的行为策略。我们使用深度强化学习训练了一个拥有20个驱动关节的仿人机器人，让其参与简化的一对一（1v1）足球比赛。我们首先单独训练各项技能，然后在自我对战的场景中将这些技能进行端到端的组合。由此产生的策略展现出稳健且动态的运动技能，如快速跌倒恢复、行走、转身、踢球等，并且这些技能之间的转换流畅、稳定、高效，远远超出了人们对该机器人的直观预期。这些智能体还形成了对游戏的基本战略理解，并学会了例如预判球的运动轨迹和阻挡对手射门等技能。一系列的行为仅通过一组简单的奖励就得以实现。我们的智能体是在模拟环境中进行训练的，并能实现向真实机器人的零样本迁移。我们发现，尽管存在显著的未建模效应和不同机器人实例间的差异，但足够高频的控制、有针对性的动力学随机化以及模拟训练中的扰动相结合，仍能实现高质量的迁移。尽管这些机器人本身很脆弱，但通过训练过程中对硬件进行小幅修改以及对行为进行基本正则化，机器人能够学习到安全有效的运动方式，同时保持动态和敏捷的表现。事实上，尽管这些智能体的优化目标是得分，但在实验中，它们行走速度比脚本基准快156%，起身所需时间减少63%，踢球速度提高24%，同时还能高效组合各项技能以实现长期目标。有关这些新兴行为和完整1v1比赛的视频可在补充网站OP3 Soccer上查看。

足球运动员能够流畅地完成抢断、起身、踢球和追球等一系列动作。机器人怎样才能掌握这些敏捷的运动技能呢？

视频1：项目概述

智能佳-ROBOTIS OP3 视频1：项目概述

我们研究了深度强化学习（Deep RL）在动态环境中低成本小型仿人硬件上的应用，表明该方法能够在简化的一对一（1v1）足球比赛中合成复杂且安全的运动技能，从而构成复杂的行为策略。

我们的智能体拥有20个驱动关节，使用MuJoCo物理引擎进行模拟训练，并能实现向真实机器人的零样本迁移。这些智能体将本体感受和游戏状态特征作为观察对象。经过训练的足球运动员展现出稳健且动态的运动技能，如快速跌倒恢复、行走、转身、踢球等。他们能够以流畅、稳定、高效的方式在这些新兴技能之间自动转换，超出了人们对该平台的直观预期。这些智能体还形成了对游戏的基本战略理解，并学会了预判球的运动轨迹和阻挡对手射门。

视频2：行为与技能亮点

智能佳-ROBOTIS OP3 视频2：行为与技能亮点

从典型的一对一比赛中挑选出的重复技能和策略。智能体展示了敏捷的技能，包括起身和转身；反应行为，包括踢动球；目标交互，包括控球；动态防守拦截；战术玩法，包括防守定位。智能体还能在技能之间快速转换（例如转身、追逐、控球，然后踢球），并将它们组合起来（例如频繁转身和踢球）。

视频3：与脚本基准控制器的比较

智能佳-ROBOTIS OP3 视频3：与脚本基准控制器的比较

OP3机器人具备某些关键的移动行为，包括起身、踢球、行走和转身。本视频展示了这些行为的基准，并与深度强化学习（Deep RL）智能体的相应行为进行了对比。

视频4：模拟环境和真实环境中的转身和踢球行为

智能佳-ROBOTIS OP3 视频4：模拟环境和真实环境中的转身和踢球行为

在足球比赛中，我们观察到的敏捷行为之一是智能体发现的转身技能，这里以慢动作展示。它以一只脚的脚尖为轴心，通过2-3步完成180度转身。尽管这一行为完全是在模拟环境中学习的，但在零样本迁移到真实机器人OP3后仍然成功，考虑到该行为的高度优化特性，模拟与真实之间的差距之小可能令人惊讶。智能体的踢球行为也在这里以慢动作展示。

视频S1：模拟训练

智能佳-ROBOTIS OP3 视频S1：模拟训练

我们首先单独在模拟环境中训练各项技能，然后在自我对战的场景中将这些技能进行端到端的组合。我们发现，在模拟训练中，足够高频的控制与有针对性的动力学随机化和扰动相结合，能够实现向机器人的高质量迁移。

视频S2：一对一比赛

智能佳-ROBOTIS OP3 视频S2：一对一比赛

5场一对一比赛。这些比赛充分展示了经过全面训练的足球智能体的典型行为和游戏玩法。

视频S3：模拟环境和真实环境中的定位球

智能佳-ROBOTIS OP3 视频S3：模拟环境和真实环境中的定位球

我们分析了智能体在两种定位球情况下的表现，以评估起身和射门行为的可靠性，并衡量模拟环境与真实环境之间的性能差距。我们还将智能体的行为与脚本基准技能进行了比较。在实验中，智能体的行走速度比脚本基准快156%，起身所需时间减少63%，踢球速度提高24%。

视频S4：鲁棒性和受推后的恢复

智能佳-ROBOTIS OP3 视频S4：鲁棒性和受推后的恢复

尽管这些机器人本身很脆弱，但通过训练过程中对硬件进行小幅修改以及对行为进行基本正则化，机器人能够学习到安全有效的运动方式，同时仍能保持动态和敏捷的表现。

初步结果：从视觉中学习

我们进行了初步调查，研究深度强化学习（Deep RL）智能体是否能直接从以自我为中心的原始视觉中学习。在这种情况下，智能体必须学会控制其摄像头，并在以自我为中心的观点窗口内整合信息，以预测游戏的不同方面。我们的初步分析表明，深度强化学习是解决这一具有挑战性问题的一个有前途的方法。我们进行了一个更简单的定位球实验，使用固定的行走者和球的位置，发现我们的智能体在模拟环境中10次试验中进了10个球，在真实机器人上10次试验中进了6个球。

我们希望未来的工作能够解决整合起身技能、学习视觉引导的探索以及多智能体策略的挑战。

视频S5：基于视觉的初步智能体

智能佳-视频S5：基于视觉的初步智能体

您对此产品感兴趣，请联系我们！

智能佳机器人

400 099 1872

www.bjrobot.com

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

全家桶集齐！Qwen3.5四款小模型上线魔乐社区，附昇腾全套实践教程

魔乐社区

Pont - 搭建前后端之桥：高效、灵活的接口管理工具

Pont 是一款强大的数据服务层解决方案，它能够帮助开发者快速搭建前后端之间的桥梁，实现接口的高效管理和代码自动生成。无论是新手还是有经验的开发者，都能通过 Pont 轻松处理接口文档、生成类型安全的 API 代码，从而显著提升开发效率。[![Pont 工具标志](https://raw.gitcode.com/gh_mirrors/po/pont/raw/3f1b7d4bbba3fd2dda