深度学习手把手教你用PyTorch实现MNIST手写数字识别

本文介绍了使用PyTorch框架实现MNIST手写数字识别的完整流程。首先分析了PyTorch作为深度学习入门框架的优势，包括语法简洁、生态完善和硬件兼容性强。接着讲解了MNIST数据集特点、神经网络核心组件及训练评估逻辑。通过实战代码演示了从数据加载、模型构建到训练测试的全过程，包含两层隐藏层的神经网络结构设计。文章还提供了参数调优建议和常见问题排查方法，最终模型在测试集上准确率可达97%以上。

F_leshy_

953人浏览 · 2026-02-06 19:55:27

F_leshy_ · 2026-02-06 19:55:27 发布

作为深度学习入门的经典案例，MNIST手写数字识别是掌握PyTorch框架的绝佳实践。本文将结合理论知识与实战代码，从框架选择、环境搭建到模型训练全流程拆解，让你轻松入门深度学习图像识别。

一、为什么选择PyTorch？

在深度学习框架百花齐放的当下，PyTorch凭借其独特优势成为入门首选：

• 上手门槛低：语法简洁直观，支持动态计算图，无需复杂配置即可快速搭建模型；

• 生态完善：内置丰富的数据加载、模型构建工具，适配MNIST等经典数据集；

• 硬件兼容性强：无缝支持CPU、GPU（NVIDIA CUDA）及苹果M系列芯片（MPS）加速；

• 工业界认可：Facebook背书，招聘市场需求旺盛，学习价值高。

相比之下，Caffe安装繁琐且更新停滞，TensorFlow 1.x版本代码冗余，Keras虽简单但灵活性不足，PyTorch的"易上手+高灵活"特性完美平衡了学习成本与实用性。

二、核心理论基础

在动手编码前，先明确几个关键概念，为实战铺路：

1. 硬件加速原理

• CPU：作为通用计算核心，运算单元占比仅25%，更适合逻辑控制而非并行计算；

• GPU：运算单元占比高达90%，擅长海量数据并行处理，能将深度学习训练速度提升数倍；

• CUDA：NVIDIA推出的GPU编程架构，为PyTorch提供底层并行计算支持，是GPU加速的核心。

2. 模型核心组件

• 数据集：MNIST包含6万张训练图和1万张测试图，每张为28×28像素的灰度手写数字；

• 数据加载：DataLoader将数据集按batch_size批量打包，平衡训练效率与内存占用；

• 神经网络结构：输入层（28×28展平为784维）→隐藏层（128/256神经元）→输出层（10类数字）；

• 激活函数：ReLU解决sigmoid函数的梯度消失问题，导数恒为1，保证深层网络参数有效更新；

• 优化器：SGD（随机梯度下降）通过小批量数据迭代更新参数，兼顾训练速度与收敛稳定性。

3. 训练与评估逻辑

• 训练过程：前向传播（计算预测值）→损失计算（CrossEntropyLoss）→反向传播（梯度下降）→参数更新；

• 评估指标：准确率（正确识别样本占比）、平均损失（衡量预测值与真实值的偏差）。

三、完整实战代码（可直接运行）

# 1. 导入依赖库
import torch
import torchvision
import torchaudio
from torch import nn
from torch.utils.data import DataLoader
from torchvision import datasets
from torchvision.transforms import ToTensor
from matplotlib import pyplot as plt

# 查看库版本
print(f"PyTorch版本: {torch.__version__}")
print(f"TorchVision版本: {torchvision.__version__}")
print(f"TorchAudio版本: {torchaudio.__version__}")

# 2. 下载并加载MNIST数据集
"""训练数据集：包含图片与对应标签"""
training_data = datasets.MNIST(
    root="data",  # 数据存储路径
    train=True,   # 标记为训练集
    download=True,  # 自动下载（首次运行需联网）
    transform=ToTensor()  # 转换为PyTorch张量
)

"""测试数据集"""
test_data = datasets.MNIST(
    root="data",
    train=False,  # 标记为测试集
    download=True,
    transform=ToTensor()
)

print(f"训练集样本数: {len(training_data)}")
print(f"测试集样本数: {len(test_data)}")

# 3. 可视化数据集（可选）
figure = plt.figure(figsize=(8, 8))
for i in range(9):
    img, label = training_data[i]
    figure.add_subplot(3, 3, i+1)
    plt.title(f"标签: {label}")
    plt.axis("off")
    plt.imshow(img.squeeze(), cmap="gray")  # 去除多余维度并显示灰度图
plt.show()

# 4. 创建数据加载器（批量处理数据）
batch_size = 64
train_dataloader = DataLoader(training_data, batch_size=batch_size, shuffle=True)
test_dataloader = DataLoader(test_data, batch_size=batch_size)

# 验证数据维度
for X, y in test_dataloader:
    print(f"输入数据形状 [批次大小, 通道数, 高度, 宽度]: {X.shape}")
    print(f"标签形状: {y.shape}，数据类型: {y.dtype}")
    break

# 5. 自动选择计算设备（GPU优先）
device = 'cuda' if torch.cuda.is_available() else "mps" if torch.backends.mps.is_available() else "cpu"
print(f"使用设备: {device}")

# 6. 定义神经网络模型
class NeuralNetwork(nn.Module):
    def __init__(self):
        super().__init__()
        self.flatten = nn.Flatten()  # 展平层：28×28→784
        self.hidden1 = nn.Linear(784, 128)  第一隐藏层：784→128
        self.hidden2 = nn.Linear(128, 256)  # 第二隐藏层：128→256
        self.out = nn.Linear(256, 10)  # 输出层：256→10（10类数字）

    def forward(self, x):
        x = self.flatten(x)  # 展平操作
        x = self.hidden1(x)
        x = torch.relu(x)  # ReLU激活函数
        x = self.hidden2(x)
        x = torch.relu(x)
        x = self.out(x)
        return x

# 初始化模型并移至计算设备
model = NeuralNetwork().to(device)
print("神经网络模型结构:")
print(model)

# 7. 定义训练函数
def train(dataloader, model, loss_fn, optimizer):
    model.train()  # 切换为训练模式
    batch_size_num = 1
    for X, y in dataloader:
        X, y = X.to(device), y.to(device)  # 数据移至计算设备
        
        # 前向传播：计算预测值
        pred = model(X)
        # 计算损失
        loss = loss_fn(pred, y)
        
        # 反向传播与参数更新
        optimizer.zero_grad()  # 清空梯度
        loss.backward()  # 反向传播计算梯度
        optimizer.step()  # 更新模型参数
        
        # 每100个批次打印一次损失
        if batch_size_num % 100 == 0:
            print(f"损失值: {loss.item():>7f} [批次号: {batch_size_num}]")
        batch_size_num += 1

# 8. 定义测试函数
def test(dataloader, model, loss_fn):
    size = len(dataloader.dataset)
    num_batches = len(dataloader)
    model.eval()  # 切换为评估模式
    test_loss, correct = 0, 0
    
    # 关闭梯度计算（节省资源）
    with torch.no_grad():
        for X, y in dataloader:
            X, y = X.to(device), y.to(device)
            pred = model(X)
            test_loss += loss_fn(pred, y).item()
            # 计算正确预测数
            correct += (pred.argmax(1) == y).type(torch.float).sum().item()
    
    # 计算平均损失与准确率
    test_loss /= num_batches
    correct /= size
    print(f"测试结果: 准确率: {(100*correct):>5.2f}%, 平均损失: {test_loss:>8f}")

# 9. 配置训练参数并开始训练
loss_fn = nn.CrossEntropyLoss()  # 交叉熵损失（适用于分类任务）
optimizer = torch.optim.SGD(model.parameters(), lr=0.01)  # SGD优化器，学习率0.01
epochs = 10  # 训练轮次

print("\n开始训练模型...")
for t in range(epochs):
    print(f"\n第 {t + 1} 轮训练\n------------------")
    train(train_dataloader, model, loss_fn, optimizer)
print("训练完成!")

# 10. 评估模型性能
print("\n模型测试结果:")
test(test_dataloader, model, loss_fn)

四、关键参数说明与优化建议

1. 核心参数解读

• batch_size=64：每批处理64张图片，平衡训练速度与内存占用；

• 学习率lr=0.01：控制参数更新幅度，过大易震荡，过小收敛慢；

• epochs=10：完整遍历数据集10次，足够MNIST任务收敛。

2. 性能优化方向

• 更换优化器：将SGD改为Adam，自适应学习率，收敛速度更快；

• 调整网络结构：增加隐藏层神经元数量或层数，提升模型拟合能力；

• 数据增强：通过旋转、平移等操作扩充训练数据，提高泛化能力；

• 正则化：添加Dropout层防止过拟合，例如在隐藏层后添加nn.Dropout(0.2)。

五、运行结果说明

• 训练过程中损失值会逐步下降，最终稳定在0.1以下；

• 测试集准确率通常可达97%以上，满足入门级图像识别需求；

• 若使用GPU训练，10轮epoch仅需几分钟，比CPU快5-10倍。

六、常见问题排查

1. GPU无法使用：确认已安装对应版本的CUDA驱动，通过nvidia-smi查看CUDA版本，确保与PyTorch兼容；

2. 数据下载失败：检查网络连接，或手动下载MNIST数据集并放置到指定路径；

3. 过拟合：训练集准确率高但测试集准确率低，可减少epoch或添加正则化层。

通过本文的理论讲解与实战代码，相信你已经掌握了PyTorch的核心使用方法和深度学习图像识别的基本流程。不妨尝试修改参数或网络结构，观察模型性能变化，进一步加深理解！如果需要获取代码的详细注释版本或遇到具体问题，欢迎在评论区交流～

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

全家桶集齐！Qwen3.5四款小模型上线魔乐社区，附昇腾全套实践教程

魔乐社区

Pont - 搭建前后端之桥：高效、灵活的接口管理工具

Pont 是一款强大的数据服务层解决方案，它能够帮助开发者快速搭建前后端之间的桥梁，实现接口的高效管理和代码自动生成。无论是新手还是有经验的开发者，都能通过 Pont 轻松处理接口文档、生成类型安全的 API 代码，从而显著提升开发效率。[![Pont 工具标志](https://raw.gitcode.com/gh_mirrors/po/pont/raw/3f1b7d4bbba3fd2dda

魔乐社区

如何快速上手 hvac：HashiCorp Vault Python 客户端零基础入门指南

**hvac** 是 HashiCorp Vault 的 Python 3.X 客户端库，专为开发者提供简单高效的 Vault 交互方式。无论你是需要管理密钥、配置身份验证，还是实现安全的秘密数据存储，hvac 都能帮助你轻松搞定 Vault 的各项操作。本文将带你零基础快速入门，从安装到基础操作，让你在几分钟内即可上手使用这个强大的工具。[![hvac 客户端 Logo](https://r

魔乐社区

所有评论(0)

查看更多评论

F_leshy_

@F_leshy_

已为社区贡献1条内容