mnist数据集的训练

模型可以用以下公式概括：out=relu { relu { relu[ X@w1+b1 ] @w2+b2 }@w3+b3 }pred=argmax(out)loss=MSE(out,label) （均方误差损失函数即loss=∑(label-out)2）minimize loss→[w1’,b1’,w2’,b2’,w3’,b3’]参数调整完成后，可以对新的输入x进行运算从而得到对应的输出...

秋叶原の黑猫

783人浏览 · 2020-09-19 15:52:51

秋叶原の黑猫 · 2020-09-19 15:52:51 发布

作为一个初入深度学习的小白，mnist数据集的训练自然少不了，以下是我训练数据集时的总结和一些问题。

深度学习模型图
在这里插入图片描述

模型可以用以下公式概括：
out=relu { relu { relu[ X@w1+b1 ] @w2+b2 }@w3+b3 }
pred=argmax(out)
loss = tf.reduce_sum(tf.square(out - y)) / x.shape[0]
minimize loss→[w1’,b1’,w2’,b2’,w3’,b3’]
参数调整完成后，可以对新的输入x进行运算从而得到对应的输出
总的来说有四个步骤

# Step1. compute output
降维
# [b, 784] => [b, 10]
# Step2. compute loss
计算损失函数
# Step3. optimize and update w1, w2, w3, b1, b2, b3
优化和更新参数
# Step4.loop
循环训练

先导入数据集和函数

import  os
import  tensorflow as tf
from    tensorflow import keras
from    tensorflow.keras import layers, optimizers, datasets

引入数据和打包

# 屏蔽通知和警告信息，减少用处不大的问题输出
os.environ['TF_CPP_MIN_LOG_LEVEL']='2'

(x,y),(x_val,y_val)=datasets.mnist.load_data()
x = tf.convert_to_tensor(x,dtype=tf.float32)/255.#/255.0图像归一化
y = tf.convert_to_tensor(y, dtype=tf.int32)#将python的数据类型（列表和矩阵）转换成TensorFlow可用的tensor数据类型
y = tf.one_hot(y,depth=10) #depth一个标量，用于定义一个 one hot 维度的深度
print(x.shape, y.shape)
train_dataset = tf.data.Dataset.from_tensor_slices((x,y)).batch(200)#将标签和特征值进行配对,并打包成200一组

模型

model = keras.Sequential([
    layers.Dense(512, activation='relu'),
    layers.Dense(256, activation='relu'),
    layers.Dense(10)])
#序列模型Sequential:各层之间是依次顺序的线性关系,或者逐层添加网络结构
#dense ：全连接层,相当于添加一个层
# activation：激活函数，即神经网络的非线性变化
optimizer = optimizers.SGD(learning_rate=0.001)#梯度下降优化器,下降参数为0.001

定义迭代函数

def train_epoch(epoch):  #epoch迭代一次
    #step4
    for step, (x, y) in enumerate(train_dataset):

        with tf.GradientTape() as tape:
            # GradientTape:高效计算
            # [b, 28, 28] => [b, 784],-1代表任意数
            x=tf.reshape(x,(-1,28*28))
            #step1, [b, 784] => [b, 10]
            out = model(x)
            # step2
            loss = tf.reduce_sum(tf.square(out - y)) / x.shape[0]#tf.reduce_sum函数计算一个张量的各个维度上元素的总和

        #step3
        grads = tape.gradient(loss, model.trainable_variables)
        # w' = w - lr * grad
        optimizer.apply_gradients(zip(grads, model.trainable_variables))

        if step % 100 == 0:
            print(epoch, step, 'loss:', loss.numpy())

重复训练30次

def train():
    for epoch in range(30):
        train_epoch(epoch)

主函数

if __name__ == '__main__':
    train()

输出结果

(60000, 28, 28) (60000, 10)
0 0 loss: 1.42484
0 100 loss: 0.8951918
0 200 loss: 0.77708554
1 0 loss: 0.63764215
1 100 loss: 0.64172584
1 200 loss: 0.60275674
...
29 0 loss: 0.2451232
29 100 loss: 0.27935135
29 200 loss: 0.2533118