宇树G1机器人强化学习控制例程

本文详细介绍了基于Isaac Gym平台实现G1机器人强化学习控制的全流程。主要内容包括：硬件配置要求（需NVIDIA显卡支持CUDA）、环境搭建步骤（conda虚拟环境创建、PyTorch和Isaac Gym安装）、代码配置修改、模型训练与测试方法。文章提供了完整的命令行操作指南，并针对常见问题给出解决方案，帮助开发者快速实现G1机器人的RL控制算法开发。关键步骤涵盖训练可视化配置、中断续训方法

爱新觉罗胜利

1599人浏览 · 2026-01-13 14:24:22

爱新觉罗胜利 · 2026-01-13 14:24:22 发布

本文基于宇树官方G1开发者文档，详细拆解借助Isaac Gym仿真平台实现G1机器人强化学习（RL）控制算法开发的全流程，涵盖硬件选型、环境部署、代码配置、模型训练与测试的每一个实操细节，附完整命令行与配置说明，便于开发者落地执行。

一、核心前提与硬件要求

G1机器人强化学习控制依赖NVIDIA GPU的CUDA加速能力，硬件需满足以下硬性条件，否则无法正常运行Isaac Gym仿真环境：

硬件/软件	最低要求	推荐配置	备注
显卡	NVIDIA RTX系列，显存≥8GB	NVIDIA RTX A4000	必须支持CUDA，入门可选RTX 3090/4090
操作系统	Ubuntu 18.04/20.04（64位）	Ubuntu 20.04 LTS	不推荐Ubuntu 22.04，存在部分库兼容性问题
显卡驱动	NVIDIA 525.x版本	525.125.06	对应CUDA 12.0，驱动版本需与CUDA匹配
CPU	多核处理器（≥4核）	Intel i7/i9或AMD Ryzen 7/9	提升训练迭代速度
内存	≥16GB	≥32GB	仿真环境加载机器人模型需占用大量内存

显卡驱动验证命令

安装驱动后，执行以下命令确认驱动版本与GPU状态：

# 查看显卡型号与驱动版本
nvidia-smi
# 正常输出示例：
# +-----------------------------------------------------------------------------+
# | NVIDIA-SMI 525.125.06   Driver Version: 525.125.06   CUDA Version: 12.0     |
# | GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
# | Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
# |                               |                      |               MIG M. |
# |===============================+======================+======================|
# |   0  NVIDIA RTX A4000    Off  | 00000000:01:00.0 Off |                  Off |
# | 30%   35C    P8    10W / 140W |      0MiB / 16384MiB |      0%      Default |
# +-----------------------------------------------------------------------------+

二、环境配置（全程基于conda虚拟环境）

1. 安装conda（若未安装）

# 下载Miniconda安装包（适配Ubuntu 20.04）
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
# 执行安装脚本（按提示回车，同意协议，选择安装路径）
bash Miniconda3-latest-Linux-x86_64.sh
# 刷新环境变量
source ~/.bashrc
# 验证conda安装
conda --version # 输出conda 23.x.x即为成功

2. 创建并激活专属虚拟环境

# 创建名为rl-g1的虚拟环境，指定Python版本3.8（必须3.8，高版本兼容问题）
conda create -n rl-g1 python=3.8 -y
# 激活环境（后续所有操作均需在该环境下执行）
conda activate rl-g1
# 验证环境激活（终端前缀会显示(rl-g1)）
echo $CONDA_DEFAULT_ENV # 输出rl-g1即为成功

3. 安装PyTorch与依赖库

需安装指定版本的PyTorch，确保与CUDA 12.0和Isaac Gym兼容：

# 安装PyTorch 1.10.0+cu113（适配CUDA 11.3，向下兼容12.0）
pip3 install torch==1.10.0+cu113 torchvision==0.11.1+cu113 torchaudio==0.10.0+cu113 -f https://download.pytorch.org/whl/cu113/torch_stable.html
# 安装指定版本numpy（1.23.5为兼容版本，高版本会报错）
pip install numpy==1.23.5
# 验证PyTorch CUDA是否可用
python -c "import torch; print(torch.cuda.is_available())" # 输出True即为成功

4. 安装Isaac Gym仿真平台

仅支持Isaac Gym Preview 4版本，步骤如下：

# 1. 下载Isaac Gym Preview 4（需从NVIDIA官网获取，假设下载至~/Downloads）
# 2. 解压文件至指定目录（示例：~/isaacgym）
mkdir -p ~/isaacgym
unzip ~/Downloads/isaacgym_preview_4.zip -d ~/isaacgym
# 3. 进入Python目录安装
cd ~/isaacgym/isaacgym/python
pip install -e .
# 4. 验证Isaac Gym安装
cd ~/isaacgym/isaacgym/python/examples
python 1080_balls_of_solitude.py
# 验证成功：弹出3D可视化窗口，显示多个球体物理仿真效果，无报错

5. 安装rsl_rl强化学习库

# 克隆仓库
git clone https://github.com/leggedrobotics/rsl_rl.git
# 进入目录并切换至稳定版本v1.0.2（必须切换，主分支可能不兼容）
cd rsl_rl
git checkout v1.0.2
# 安装库
pip install -e .
# 验证安装（无报错即为成功）
python -c "import rsl_rl; print('rsl_rl installed')"

三、宇树官方RL示例代码配置

1. 克隆代码仓库

# 克隆宇树G1 RL示例代码
git clone https://github.com/unitreerobotics/unitree_rl_gym.git
# 进入代码主目录（后续操作均在此目录下）
cd unitree_rl_gym

2. 修改路径配置（关键步骤）

需修改train.py和play.py的系统路径，使其指向代码实际存放位置：

# 编辑train.py文件（使用vim或vscode均可）
vim legged_gym/scripts/train.py
# 在文件开头找到以下行：
sys.path.append("/home/unitree/h1/legged_gym")
# 将其修改为自己的unitree_rl_gym/legged_gym路径，示例：
sys.path.append("/home/your_username/unitree_rl_gym/legged_gym")

# 同理修改play.py文件
vim legged_gym/scripts/play.py
# 同样修改sys.path.append的路径为实际路径

四、强化学习模型训练

1. 启动训练（基础命令）

# 确保已激活rl-g1环境
conda activate rl-g1
# 进入脚本目录
cd legged_gym/scripts
# 启动G1机器人训练（--task=g1指定训练任务为G1）
python3 train.py --task=g1

2. 训练可视化配置

默认训练为无界面（headless）模式，如需查看仿真界面，修改train.py：

# 在train.py中找到以下代码
args.headless = True  # 默认为True（无界面）
# 修改为False（显示界面）
args.headless = False

修改后重新执行训练命令，会弹出Isaac Gym可视化窗口，显示G1机器人模型（包含骨盆、髋关节、膝关节、踝关节等部件），终端实时输出训练日志，关键指标说明：

指标	说明
Learning iteration	训练迭代次数（默认总迭代1500次）
Computation	每秒训练步数（数值越高，训练速度越快）
Value function loss	价值函数损失（越小说明模型越稳定）
Average reward	平均奖励（强化学习核心指标，越高说明机器人控制效果越好）
Episode length	单轮训练步数（反映机器人持续稳定控制的时长）

3. 训练中断与续训

若训练中途中断，可通过以下命令续训（需确保训练日志未删除）：

python3 train.py --task=g1 --resume # --resume参数表示续训

五、训练模型测试

1. 基础测试命令

完成1500次迭代训练后，执行以下命令测试模型效果：

# 仍在legged_gym/scripts目录下
python3 play.py --task=g1

执行后会弹出仿真窗口，G1机器人将按照训练好的模型执行行走、站立等动作，可通过键盘按键控制机器人方向（如W/S前进/后退，A/D左转/右转）。

2. 测试参数调整

若需调整测试时的机器人速度、动作幅度，可修改play.py中的参数：

# 在play.py中找到以下参数（示例）
cfg.env.num_envs = 1  # 测试环境数量（默认1）
cfg.robot.base_vel = [0.5, 0, 0]  # 基础速度（x轴0.5m/s，y轴0，z轴0）
# 可修改base_vel调整机器人默认行走速度

六、常见问题与解决

ImportError: libpython3.8.so.1.0: cannot open shared object file
解决：安装Python 3.8共享库
```
sudo apt-get install libpython3.8-dev
```
CUDA out of memory
解决：减少训练环境数量，修改train.py中cfg.env.num_envs参数（默认2048，可改为1024）
Isaac Gym窗口无法显示
解决：检查显卡驱动是否正常，确保Ubuntu开启图形界面，执行export DISPLAY=:0后重新运行。

总结

宇树G1机器人RL控制的核心依赖Isaac Gym（Preview 4）+ CUDA 12.0 + Python 3.8，环境配置需严格匹配版本，否则易出现兼容性问题；
关键操作命令需在rl-g1conda环境下执行，路径配置是代码运行的核心前提，需确保sys.path.append指向实际代码目录；
训练阶段关注平均奖励、损失值等指标，测试阶段可通过调整play.py参数优化机器人动作效果，遇问题优先检查CUDA、驱动、库版本兼容性。