来自Qwen3 Plus

截至 2025 年通用深度学习框架(General-Purpose Deep Learning Frameworks)是指能够支持多种任务.

(一) 通用深度学习框架

📊 主流通用框架对比(2025)

特性 PyTorch TensorFlow JAX PaddlePaddle
计算图模式 动态为主 动静兼备 函数式+JIT 动静兼备
学术界使用率 ⭐⭐⭐⭐⭐ ⭐⭐ ⭐⭐⭐ ⭐(国内较高)
工业部署能力 中(需 TorchServe/TensorRT) ⭐⭐⭐⭐⭐ 低(科研为主) ⭐⭐⭐⭐(国内强)
TPU 支持 ⭐⭐⭐⭐⭐
中文支持 一般 一般 ⭐⭐⭐⭐⭐
学习曲线 平缓 中等 陡峭 平缓(中文友好)
典型用户 Meta、OpenAI、高校 Google、Airbnb、Intel Google Research、DeepMind 百度、国家电网、银行

🧩 其他曾流行或特定场景使用的框架(当前活跃度较低)

框架 状态 说明
MXNet ⚠️ 低活跃 曾为 Apache 顶级项目,支持多语言,但生态被 PyTorch/TensorFlow 超越
Caffe / Caffe2 ❌ 停更 早期 CV 框架,Caffe2 已并入 PyTorch
Theano ❌ 停更 2017 年停止维护,PyTorch/TensorFlow 的前身之一
CNTK(Microsoft Cognitive Toolkit) ❌ 停更 微软早期框架,已被 PyTorch 取代
Chainer ❌ 停更 日本 Preferred Networks 开发,理念影响 PyTorch

(二)主流开源推理框架

🆚 1、主流框架对比(2025)

特性 vLLM TGI TensorRT-LLM SGLang llama.cpp
开源
Continuous Batching
KV Cache 优化 PagedAttention PagedAttention 自定义高效缓存 RadixAttention 简单缓存
硬件支持 NVIDIA GPU NVIDIA GPU NVIDIA GPU(极致优化) NVIDIA GPU CPU / GPU / Metal
FP8 量化
长上下文 支持(32K+) 支持 支持 支持 支持(但慢)
易用性 中(需编译) 极高
典型部署 云服务 Hugging Face 生态 NVIDIA 专属集群 对话/工具调用 本地/边缘

🔧 2、其他值得关注的框架

框架 状态 说明
DeepSpeed-Inference 活跃 微软 DeepSpeed 的推理模块,支持 ZeRO-Inference、MoE 模型
FasterTransformer ⚠️ 停更 NVIDIA 早期项目,已被 TensorRT-LLM 取代
LightLLM 活跃(中国) 百川智能开源,类似 vLLM,支持 PagedAttention
Xinference 活跃(中国) 阿里系开源,支持多模型统一调度(LLM + embedding + reranker)
Ray Serve + vLLM 组合方案 用于分布式 LLM 服务编排

✅ 3、如何选择?

你的需求 推荐框架
通用高吞吐生产部署 → vLLM 或 TGI
NVIDIA H100 极致性能 → TensorRT-LLM
多轮对话 / 结构化输出 → SGLang
本地运行 / 无 GPU → llama.cpp + Ollama
Hugging Face 用户 → TGI
国产化 / 中文模型 → vLLM / LightLLM / Xinference

💡 趋势总结

  • vLLM 和 TGI 是当前社区最主流的通用选择
  • TensorRT-LLM 是 NVIDIA 生态下的性能天花板
  • SGLang 正在定义“结构化推理”的新范式
  • llama.cpp 主导本地和边缘推理市场

如需具体部署示例(如:用 vLLM 部署 Qwen2-7B,或用 TGI 启动 LLaMA-3),欢迎继续提问

(三)主流训练框架

截至 2025 年,大模型(如 LLM、多模态模型)的训练对分布式能力、显存优化、通信效率、易用性提出了极高要求。当前主流的训练框架已从单一深度学习库演变为**“基础框架 + 分布式加速库 + 微调工具链”** 的组合生态。

以下是当前主流且活跃的大模型训练框架与工具,按功能层级分类:

🧱 一、基础训练框架(底层引擎)

1. PyTorch

  • 定位:研究与工业界事实标准
  • 优势
    • 动态图灵活,调试友好
    • 社区生态庞大(Hugging Face、Accelerate、Lightning 等)
    • 原生支持 FSDP(Fully Sharded Data Parallel)
  • 适用场景:从原型开发到大规模训练(需配合加速库)
  • 官网:https://pytorch.org

2. JAX + Flax

  • 定位:Google 科研首选,TPU 优化极致
  • 优势
    • 函数式编程,自动微分强大
    • XLA 编译器优化计算图
    • 在 TPU 上训练效率极高(如 PaLM、T5)
  • 缺点:学习曲线陡,GPU 支持弱于 PyTorch
  • 代表模型:PaLM、Gemini(部分)、Mistral(早期实验)

⚡ 二、分布式训练加速框架(核心主力)

这些框架在 PyTorch/JAX 基础上,提供显存优化、3D 并行、混合精度等能力。

3. DeepSpeed(Microsoft)

  • 核心创新ZeRO(Zero Redundancy Optimizer)系列
    • ZeRO-1:优化器状态分片
    • ZeRO-2:+ 梯度分片
    • ZeRO-3:+ 模型参数分片(支持千亿参数)
  • 额外能力
    • DeepSpeed-MoE:高效训练稀疏模型
    • 3D Parallelism:数据+模型+流水线并行
    • Offload:将状态卸载到 CPU/NVMe
  • 代表应用:BLOOM、MT-NLG、IDEFICS
  • 官网:https://www.deepspeed.ai

4. Megatron-LM(NVIDIA)

  • 核心创新3D 并行(数据并行 + 张量并行 + 流水线并行)
  • 优势
    • 专为 Transformer 极致优化
    • 支持 Sequence Parallelism(长序列优化)
    • 与 TensorRT-LLM 推理无缝衔接
  • 缺点:仅支持 NVIDIA GPU,配置复杂
  • 代表应用:Megatron-Turing NLG、NVIDIA NeMo 模型
  • GitHub:https://github.com/NVIDIA/Megatron-LM

5. Colossal-AI

  • 定位:国产开源一站式大模型训练方案
  • 优势
    • 支持 Gemini(异构内存管理)
    • 集成 LoRA、P-Tuning 等高效微调
    • 兼容 Hugging Face 生态
    • 支持 Auto Parallelism(自动并行策略搜索)
  • 适用场景:资源有限但需训练大模型的团队
  • 官网:https://www.colossalai.org

6. FSDP(Fully Sharded Data Parallel)

  • 定位:PyTorch 原生分布式训练方案(1.11+ 稳定)
  • 优势
    • 无需额外依赖,与 PyTorch 深度集成
    • 显存优化效果接近 ZeRO-3
    • 与 AccelerateLightning 兼容性好
  • 适用场景:希望避免 DeepSpeed/Megatron 复杂配置的团队

🔧 三、高层训练工具(简化开发)

7. Hugging Face Transformers + Accelerate

  • Accelerate:一行代码启用多 GPU/TPU 训练
     python 
      

    编辑

    from accelerate import Accelerator
    accelerator = Accelerator()
    model, optimizer, dataloader = accelerator.prepare(model, optimizer, dataloader)
  • Trainer API:内置训练循环、日志、评估
  • 适用场景:快速微调(SFT、RLHF)、中小规模训练

8. PyTorch Lightning

  • 定位:解耦训练逻辑与工程细节
  • 优势:自动处理 DDP、混合精度、checkpoint
  • 缺点:超大规模训练仍需 DeepSpeed 集成

🎯 四、高效微调(PEFT)专用框架

用于在单卡/少量资源上微调大模型(训练参数 <10%)

9. PEFT(Hugging Face)

  • 支持技术:LoRA、QLoRA、Prefix Tuning、IA³
  • 特点:与 Transformers 无缝集成
  • 典型用法
     python 
      

    编辑

    from peft import LoraConfig, get_peft_model
    peft_config = LoraConfig(r=8, lora_alpha=16)
    model = get_peft_model(model, peft_config)

10. Unsloth

  • 定位超高速 LoRA 微调
  • 优势:比标准 LoRA 快 2–5 倍,显存节省 70%
  • 适用场景:快速迭代微调实验
  • GitHub:https://github.com/unslothai/unsloth

🏢 五、企业级训练平台

平台 开发者 特点
NVIDIA NeMo NVIDIA 集成 Megatron + DeepSpeed,支持多模态、ASR、NLP
Amazon SageMaker AWS 托管式训练,支持 BYOC(Bring Your Own Container)
阿里云 PAI-EasyCoding 阿里巴巴 支持千亿模型训练,集成 DeepSpeed/Megatron
Google Vertex AI Google 与 JAX/TPU 深度集成

🆚 六、主流训练框架对比(2025)

框架 显存优化 并行能力 易用性 适合场景
DeepSpeed ⭐⭐⭐⭐⭐(ZeRO-3) 3D 并行 ⭐⭐⭐ 千亿级模型训练
Megatron-LM ⭐⭐⭐⭐ 3D 并行(极致优化) ⭐⭐ NVIDIA GPU 集群
FSDP ⭐⭐⭐⭐ 数据+模型分片 ⭐⭐⭐⭐ PyTorch 原生方案
Colossal-AI ⭐⭐⭐⭐ 多种并行策略 ⭐⭐⭐ 国产替代/资源受限
Accelerate ⭐⭐ 基础分布式 ⭐⭐⭐⭐⭐ 快速微调、中小模型
Unsloth ⭐⭐⭐ 单卡优化 ⭐⭐⭐⭐ 高速 LoRA 微调

✅ 七、如何选择?

你的需求 推荐方案
从头训练千亿模型 → DeepSpeed + Megatron-LM(或 Colossal-AI)
微调 LLaMA/Qwen(单卡) → PEFT + Unsloth + Transformers
多卡训练(8–64 GPU) → FSDP + Accelerate(简单) 或 DeepSpeed(极致优化)
TPU 训练 → JAX + Flax + TPU Pods
企业级托管训练 → NVIDIA NeMo / SageMaker / PAI

💡 趋势总结

  • PyTorch + DeepSpeed/FSDP 是当前工业界主流组合
  • 高效微调(PEFT/Unsloth)已成为大模型落地标配
  • 国产框架(Colossal-AI)在自主可控场景快速崛起
  • JAX 仍是 Google/TPU 生态的科研首选

如需具体示例(如:用 DeepSpeed 训练 LLaMA-3,或用 Unsloth 微调 Qwen2),欢迎继续提问!

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐