欢迎访问宙启技术站
智能推送

使用Python实现基于LeNet的手写数字识别

发布时间:2023-12-17 08:08:44

手写数字识别是计算机视觉领域中非常重要的任务之一,LeNet是早期用于手写数字识别的经典卷积神经网络模型。本文将使用Python实现基于LeNet的手写数字识别,并提供一个简单的使用示例。

LeNet模型是由Yann LeCun等人于1998年提出的,是 个将卷积神经网络应用于手写数字识别的模型。它由多个卷积层、池化层和全连接层组成,可以有效地提取图像特征并进行分类。

首先,我们需要导入所需的库:

import numpy as np
import matplotlib.pyplot as plt
from keras.datasets import mnist
from keras.models import Sequential
from keras.layers import Conv2D, MaxPooling2D, Flatten, Dense
from keras.utils import to_categorical

然后,我们可以加载MNIST数据集,该数据集包含了大量的手写数字图像和对应的标签:

(X_train, y_train), (X_test, y_test) = mnist.load_data()

接下来,我们可以对图像数据进行预处理。首先,将图像数据转换为浮点型,并将像素值归一化到0到1之间:

X_train = X_train.reshape((60000, 28, 28, 1))
X_test = X_test.reshape((10000, 28, 28, 1))
X_train = X_train.astype('float32') / 255
X_test = X_test.astype('float32') / 255

然后,对标签数据进行独热编码,将每个标签转换为一个向量,以便进行分类:

y_train = to_categorical(y_train)
y_test = to_categorical(y_test)

接下来,我们可以构建LeNet模型。LeNet模型包含两个卷积层,两个池化层和一个全连接层:

model = Sequential()
model.add(Conv2D(6, kernel_size=(5, 5), activation='relu', input_shape=(28, 28, 1)))
model.add(MaxPooling2D(pool_size=(2, 2)))
model.add(Conv2D(16, kernel_size=(5, 5), activation='relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))
model.add(Flatten())
model.add(Dense(120, activation='relu'))
model.add(Dense(84, activation='relu'))
model.add(Dense(10, activation='softmax'))

然后,我们可以编译模型并训练:

model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
model.fit(X_train, y_train, batch_size=128, epochs=10, validation_data=(X_test, y_test))

训练完成后,我们可以使用测试集评估模型的性能:

score = model.evaluate(X_test, y_test, verbose=0)
print('Test loss:', score[0])
print('Test accuracy:', score[1])

在测试集上进行预测并可视化结果:

predictions = model.predict(X_test)
for i in range(10):
    plt.imshow(X_test[i].reshape(28, 28), cmap='gray')
    plt.title('Predicted digit: {}'.format(np.argmax(predictions[i])))
    plt.show()

以上就是使用Python实现基于LeNet的手写数字识别的步骤和示例代码。LeNet模型在MNIST数据集上能够达到较高的准确率,对于手写数字识别具有较好的效果。