利用deepspeed在Trainer下面微调大模型

当模型参数越来越大的情况下，如果我们的GPU内存比较小，那么就没办法直接进行全参数微调，此时我们可以借助deepspeed来进行微调。1、deepspeed的配置文件：deepspeed.json。当前我们利用44G的GPU全参微调了Qwen2.5-3B的模型。这里我们启动的ZeRO-1：优化器状态跨 GPU 分区。

若石之上

637人浏览 · 2024-12-30 17:07:02

若石之上 · 2024-12-30 17:07:02 发布

当模型参数越来越大的情况下，如果我们的GPU内存比较小，那么就没办法直接进行全参数微调，此时我们可以借助deepspeed来进行微调。

1、deepspeed的配置文件：deepspeed.json

{
  "train_batch_size": 4,
  "train_micro_batch_size_per_gpu": 1,
  "zero_optimization": {
    "stage":1
  }
}

这里我们启动的ZeRO-1：优化器状态跨 GPU 分区

2、在TrainingArguments里面增加配置参数，来加载deepspeed的配置文件：

training_args = TrainingArguments(output_dir=output_dir, 
evaluation_strategy="steps", num_train_epochs=100,learning_rate=5e-6,
save_strategy="steps", greater_is_better=True, metric_for_best_model="precision",
per_device_train_batch_size=1,per_device_eval_batch_size=1,
load_best_model_at_end=True,local_rank=0,save_total_limit=10,

deepspeed="deepspeed.json"
)

3、利用deepspeed的命令来启动训练：

nohup deepspeed train.py > logd.txt 2>&1 &

当前我们利用44G的GPU全参微调了Qwen2.5-3B的模型

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

揭秘易开发核心功能：页面信息提取与无障碍服务配置详解

易开发（DeveloperHelper）是一款专为Android开发者打造的快速开发工具，核心功能包括界面分析、页面信息提取、加固脱壳等，完美支持Android 9.0系统。本文将深入解析其两大核心功能——**页面信息提取**与**无障碍服务配置**，帮助开发者快速掌握使用技巧，提升开发效率。## 一、无障碍服务：易开发的核心引擎 🚀无障碍服务是易开发实现界面分析的基础，通过系统级别的

魔乐社区

CameraManager性能优化：提升iOS相机应用响应速度的10个技巧

CameraManager是一款简单易用的Swift类库，专为iOS开发者打造，提供了创建自定义相机视图所需的全部配置。在移动应用开发中，相机功能的响应速度直接影响用户体验，本文将分享10个实用技巧，帮助你优化CameraManager的性能，打造流畅的相机应用。### 1. 合理设置会话预设（Session Preset）会话预设直接影响相机的分辨率和性能消耗。在`Sources/Came

魔乐社区

如何用pyecharts-gallery制作交互式地图？AMap与BMap组件实战教程

pyecharts-gallery是一个基于pyecharts的开源项目，提供了丰富的Echarts官方示例模仿实现，帮助开发者快速掌握交互式数据可视化技能。本文将聚焦于如何利用该项目中的AMap和BMap组件，轻松创建专业级交互式地图应用。## 一、快速入门：项目准备与环境搭建要开始使用pyecharts-gallery制作交互式地图，首先需要获取项目源码。通过以下命令克隆仓库：``