至目前2025年,深度学习框架、训练框架、推理框架
来自Qwen3 Plus截至 2025 年,通用深度学习框架(General-Purpose Deep Learning Frameworks)是指能够支持多种任务.如需具体部署示例(如:用 vLLM 部署 Qwen2-7B,或用 TGI 启动 LLaMA-3),欢迎继续提问截至 2025 年,大模型(如 LLM、多模态模型)的训练对分布式能力、显存优化、通信效率、易用性提出了极高要求。当前主流的
来自Qwen3 Plus
截至 2025 年,通用深度学习框架(General-Purpose Deep Learning Frameworks)是指能够支持多种任务.
(一) 通用深度学习框架
📊 主流通用框架对比(2025)
| 特性 | PyTorch | TensorFlow | JAX | PaddlePaddle |
|---|---|---|---|---|
| 计算图模式 | 动态为主 | 动静兼备 | 函数式+JIT | 动静兼备 |
| 学术界使用率 | ⭐⭐⭐⭐⭐ | ⭐⭐ | ⭐⭐⭐ | ⭐(国内较高) |
| 工业部署能力 | 中(需 TorchServe/TensorRT) | ⭐⭐⭐⭐⭐ | 低(科研为主) | ⭐⭐⭐⭐(国内强) |
| TPU 支持 | 弱 | 中 | ⭐⭐⭐⭐⭐ | 无 |
| 中文支持 | 一般 | 一般 | 差 | ⭐⭐⭐⭐⭐ |
| 学习曲线 | 平缓 | 中等 | 陡峭 | 平缓(中文友好) |
| 典型用户 | Meta、OpenAI、高校 | Google、Airbnb、Intel | Google Research、DeepMind | 百度、国家电网、银行 |
🧩 其他曾流行或特定场景使用的框架(当前活跃度较低)
| 框架 | 状态 | 说明 |
|---|---|---|
| MXNet | ⚠️ 低活跃 | 曾为 Apache 顶级项目,支持多语言,但生态被 PyTorch/TensorFlow 超越 |
| Caffe / Caffe2 | ❌ 停更 | 早期 CV 框架,Caffe2 已并入 PyTorch |
| Theano | ❌ 停更 | 2017 年停止维护,PyTorch/TensorFlow 的前身之一 |
| CNTK(Microsoft Cognitive Toolkit) | ❌ 停更 | 微软早期框架,已被 PyTorch 取代 |
| Chainer | ❌ 停更 | 日本 Preferred Networks 开发,理念影响 PyTorch |
(二)主流开源推理框架
🆚 1、主流框架对比(2025)
| 特性 | vLLM | TGI | TensorRT-LLM | SGLang | llama.cpp |
|---|---|---|---|---|---|
| 开源 | ✅ | ✅ | ✅ | ✅ | ✅ |
| Continuous Batching | ✅ | ✅ | ✅ | ✅ | ❌ |
| KV Cache 优化 | PagedAttention | PagedAttention | 自定义高效缓存 | RadixAttention | 简单缓存 |
| 硬件支持 | NVIDIA GPU | NVIDIA GPU | NVIDIA GPU(极致优化) | NVIDIA GPU | CPU / GPU / Metal |
| FP8 量化 | ❌ | ❌ | ✅ | ❌ | ❌ |
| 长上下文 | 支持(32K+) | 支持 | 支持 | 支持 | 支持(但慢) |
| 易用性 | 高 | 高 | 中(需编译) | 高 | 极高 |
| 典型部署 | 云服务 | Hugging Face 生态 | NVIDIA 专属集群 | 对话/工具调用 | 本地/边缘 |
🔧 2、其他值得关注的框架
| 框架 | 状态 | 说明 |
|---|---|---|
| DeepSpeed-Inference | 活跃 | 微软 DeepSpeed 的推理模块,支持 ZeRO-Inference、MoE 模型 |
| FasterTransformer | ⚠️ 停更 | NVIDIA 早期项目,已被 TensorRT-LLM 取代 |
| LightLLM | 活跃(中国) | 百川智能开源,类似 vLLM,支持 PagedAttention |
| Xinference | 活跃(中国) | 阿里系开源,支持多模型统一调度(LLM + embedding + reranker) |
| Ray Serve + vLLM | 组合方案 | 用于分布式 LLM 服务编排 |
✅ 3、如何选择?
| 你的需求 | 推荐框架 |
|---|---|
| 通用高吞吐生产部署 | → vLLM 或 TGI |
| NVIDIA H100 极致性能 | → TensorRT-LLM |
| 多轮对话 / 结构化输出 | → SGLang |
| 本地运行 / 无 GPU | → llama.cpp + Ollama |
| Hugging Face 用户 | → TGI |
| 国产化 / 中文模型 | → vLLM / LightLLM / Xinference |
💡 趋势总结:
- vLLM 和 TGI 是当前社区最主流的通用选择
- TensorRT-LLM 是 NVIDIA 生态下的性能天花板
- SGLang 正在定义“结构化推理”的新范式
- llama.cpp 主导本地和边缘推理市场
如需具体部署示例(如:用 vLLM 部署 Qwen2-7B,或用 TGI 启动 LLaMA-3),欢迎继续提问
(三)主流训练框架
截至 2025 年,大模型(如 LLM、多模态模型)的训练对分布式能力、显存优化、通信效率、易用性提出了极高要求。当前主流的训练框架已从单一深度学习库演变为**“基础框架 + 分布式加速库 + 微调工具链”** 的组合生态。
以下是当前主流且活跃的大模型训练框架与工具,按功能层级分类:
🧱 一、基础训练框架(底层引擎)
1. PyTorch
- 定位:研究与工业界事实标准
- 优势:
- 动态图灵活,调试友好
- 社区生态庞大(Hugging Face、Accelerate、Lightning 等)
- 原生支持 FSDP(Fully Sharded Data Parallel)
- 适用场景:从原型开发到大规模训练(需配合加速库)
- 官网:https://pytorch.org
2. JAX + Flax
- 定位:Google 科研首选,TPU 优化极致
- 优势:
- 函数式编程,自动微分强大
- XLA 编译器优化计算图
- 在 TPU 上训练效率极高(如 PaLM、T5)
- 缺点:学习曲线陡,GPU 支持弱于 PyTorch
- 代表模型:PaLM、Gemini(部分)、Mistral(早期实验)
⚡ 二、分布式训练加速框架(核心主力)
这些框架在 PyTorch/JAX 基础上,提供显存优化、3D 并行、混合精度等能力。
3. DeepSpeed(Microsoft)
- 核心创新:ZeRO(Zero Redundancy Optimizer)系列
- ZeRO-1:优化器状态分片
- ZeRO-2:+ 梯度分片
- ZeRO-3:+ 模型参数分片(支持千亿参数)
- 额外能力:
- DeepSpeed-MoE:高效训练稀疏模型
- 3D Parallelism:数据+模型+流水线并行
- Offload:将状态卸载到 CPU/NVMe
- 代表应用:BLOOM、MT-NLG、IDEFICS
- 官网:https://www.deepspeed.ai
4. Megatron-LM(NVIDIA)
- 核心创新:3D 并行(数据并行 + 张量并行 + 流水线并行)
- 优势:
- 专为 Transformer 极致优化
- 支持 Sequence Parallelism(长序列优化)
- 与 TensorRT-LLM 推理无缝衔接
- 缺点:仅支持 NVIDIA GPU,配置复杂
- 代表应用:Megatron-Turing NLG、NVIDIA NeMo 模型
- GitHub:https://github.com/NVIDIA/Megatron-LM
5. Colossal-AI
- 定位:国产开源一站式大模型训练方案
- 优势:
- 支持 Gemini(异构内存管理)
- 集成 LoRA、P-Tuning 等高效微调
- 兼容 Hugging Face 生态
- 支持 Auto Parallelism(自动并行策略搜索)
- 适用场景:资源有限但需训练大模型的团队
- 官网:https://www.colossalai.org
6. FSDP(Fully Sharded Data Parallel)
- 定位:PyTorch 原生分布式训练方案(1.11+ 稳定)
- 优势:
- 无需额外依赖,与 PyTorch 深度集成
- 显存优化效果接近 ZeRO-3
- 与 Accelerate、Lightning 兼容性好
- 适用场景:希望避免 DeepSpeed/Megatron 复杂配置的团队
🔧 三、高层训练工具(简化开发)
7. Hugging Face Transformers + Accelerate
- Accelerate:一行代码启用多 GPU/TPU 训练
python编辑
from accelerate import Accelerator accelerator = Accelerator() model, optimizer, dataloader = accelerator.prepare(model, optimizer, dataloader) - Trainer API:内置训练循环、日志、评估
- 适用场景:快速微调(SFT、RLHF)、中小规模训练
8. PyTorch Lightning
- 定位:解耦训练逻辑与工程细节
- 优势:自动处理 DDP、混合精度、checkpoint
- 缺点:超大规模训练仍需 DeepSpeed 集成
🎯 四、高效微调(PEFT)专用框架
用于在单卡/少量资源上微调大模型(训练参数 <10%)
9. PEFT(Hugging Face)
- 支持技术:LoRA、QLoRA、Prefix Tuning、IA³
- 特点:与 Transformers 无缝集成
- 典型用法:
python编辑
from peft import LoraConfig, get_peft_model peft_config = LoraConfig(r=8, lora_alpha=16) model = get_peft_model(model, peft_config)
10. Unsloth
- 定位:超高速 LoRA 微调
- 优势:比标准 LoRA 快 2–5 倍,显存节省 70%
- 适用场景:快速迭代微调实验
- GitHub:https://github.com/unslothai/unsloth
🏢 五、企业级训练平台
| 平台 | 开发者 | 特点 |
|---|---|---|
| NVIDIA NeMo | NVIDIA | 集成 Megatron + DeepSpeed,支持多模态、ASR、NLP |
| Amazon SageMaker | AWS | 托管式训练,支持 BYOC(Bring Your Own Container) |
| 阿里云 PAI-EasyCoding | 阿里巴巴 | 支持千亿模型训练,集成 DeepSpeed/Megatron |
| Google Vertex AI | 与 JAX/TPU 深度集成 |
🆚 六、主流训练框架对比(2025)
| 框架 | 显存优化 | 并行能力 | 易用性 | 适合场景 |
|---|---|---|---|---|
| DeepSpeed | ⭐⭐⭐⭐⭐(ZeRO-3) | 3D 并行 | ⭐⭐⭐ | 千亿级模型训练 |
| Megatron-LM | ⭐⭐⭐⭐ | 3D 并行(极致优化) | ⭐⭐ | NVIDIA GPU 集群 |
| FSDP | ⭐⭐⭐⭐ | 数据+模型分片 | ⭐⭐⭐⭐ | PyTorch 原生方案 |
| Colossal-AI | ⭐⭐⭐⭐ | 多种并行策略 | ⭐⭐⭐ | 国产替代/资源受限 |
| Accelerate | ⭐⭐ | 基础分布式 | ⭐⭐⭐⭐⭐ | 快速微调、中小模型 |
| Unsloth | ⭐⭐⭐ | 单卡优化 | ⭐⭐⭐⭐ | 高速 LoRA 微调 |
✅ 七、如何选择?
| 你的需求 | 推荐方案 |
|---|---|
| 从头训练千亿模型 | → DeepSpeed + Megatron-LM(或 Colossal-AI) |
| 微调 LLaMA/Qwen(单卡) | → PEFT + Unsloth + Transformers |
| 多卡训练(8–64 GPU) | → FSDP + Accelerate(简单) 或 DeepSpeed(极致优化) |
| TPU 训练 | → JAX + Flax + TPU Pods |
| 企业级托管训练 | → NVIDIA NeMo / SageMaker / PAI |
💡 趋势总结:
- PyTorch + DeepSpeed/FSDP 是当前工业界主流组合
- 高效微调(PEFT/Unsloth)已成为大模型落地标配
- 国产框架(Colossal-AI)在自主可控场景快速崛起
- JAX 仍是 Google/TPU 生态的科研首选
如需具体示例(如:用 DeepSpeed 训练 LLaMA-3,或用 Unsloth 微调 Qwen2),欢迎继续提问!
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐


所有评论(0)