Python中CIFAR-10数据集输入预处理和归一化的实现方法

发布时间：2023-12-25 07:32:30

CIFAR-10是一个常用的图像分类数据集，其中包含10个类别的60000张32x32彩色图像。对于神经网络的训练，通常需要对输入数据进行预处理和归一化。

下面是Python中CIFAR-10数据集输入预处理和归一化的实现方法以及使用例子：

1. 导入必要的库和模块：

import numpy as np
import pickle
import os

2. 定义CIFAR-10数据集的路径和类别的名称：

data_dir = 'cifar-10-batches-py'  # CIFAR-10数据集存放路径
label_names = ['airplane', 'automobile', 'bird', 'cat', 'deer', 'dog', 'frog', 'horse', 'ship', 'truck']  # 类别名称

3. 定义读取CIFAR-10数据集的函数：

def unpickle(file):
    with open(file, 'rb') as fo:
        data = pickle.load(fo, encoding='bytes')
    return data

4. 定义加载CIFAR-10数据集的函数：

def load_cifar10():
    train_data = []
    train_labels = []

    for batch_num in range(1, 6):
        file = os.path.join(data_dir, 'data_batch_' + str(batch_num))
        data = unpickle(file)
        train_data.append(data[b'data'])
        train_labels += data[b'labels']

    train_data = np.concatenate(train_data, axis=0)
    train_data = train_data.reshape((50000, 3, 32, 32))
    train_data = np.transpose(train_data, (0, 2, 3, 1)).astype(np.float32)

    test_file = os.path.join(data_dir, 'test_batch')
    test_data = unpickle(test_file)
    test_data = test_data[b'data']
    test_labels = test_data[b'labels']
    test_data = test_data.reshape((10000, 3, 32, 32))
    test_data = np.transpose(test_data, (0, 2, 3, 1)).astype(np.float32)

    return (train_data, np.array(train_labels)), (test_data, np.array(test_labels))

5. 定义归一化函数：

def normalize_data(data):
    mean = np.mean(data, axis=(0, 1, 2))
    std = np.std(data, axis=(0, 1, 2))
    data = (data - mean) / std
    return data

6. 加载CIFAR-10数据集并进行预处理和归一化：

(train_data, train_labels), (test_data, test_labels) = load_cifar10()
train_data = normalize_data(train_data)
test_data = normalize_data(test_data)

在这个例子中，首先定义了CIFAR-10数据集的路径和类别的名称。然后，使用unpickle函数读取数据。接着，load_cifar10函数加载数据集，将训练数据和测试数据分别存储在train_data和test_data中，并进行了形状转换和类型转换。最后，使用normalize_data函数对数据进行归一化。

需要注意的是，在数据归一化时，通常需要计算数据的均值和标准差，并将每个像素减去均值然后除以标准差，以保证数据的零均值和单位方差。

通过以上的步骤，我们可以得到经过预处理和归一化的CIFAR-10数据集，可以直接用于神经网络的训练和评估。