Keras中的to_categorical()函数：将标签转换为独热编码的实用工具

发布时间：2023-12-17 09:29:40

在机器学习中，有时候我们需要将标签进行独热编码(one-hot encoding)处理。独热编码可以将标签转换为一个大小与标签类别数量相等的向量，其中每个元素代表一个类别，并且只有一个元素的值为1，其余元素的值都为0。Keras提供了一个实用工具函数 to_categorical()，可以方便地将标签转换为独热编码。

to_categorical() 函数接受两个参数：labels 和 num_classes。labels 是要进行转换的标签，可以是一个包含整数标签的一维数组或列表；num_classes 是标签类别的数量。

下面是 to_categorical() 函数的使用例子：

from keras.utils import to_categorical

# 假设我们有一个包含5个样本的标签数组，标签类别的数量为3
labels = [1, 0, 2, 2, 1]

# 将标签转换为独热编码
one_hot_labels = to_categorical(labels, num_classes=3)

print(one_hot_labels)

运行以上代码的输出结果如下：

[[0. 1. 0.]
 [0. 0. 1.]
 [0. 0. 1.]
 [0. 1. 0.]
 [1. 0. 0.]]

可以看到，原来的标签数组被转换成了一个二维数组，其中每一行表示一个样本的独热编码。对于原来的标签1，对应的独热编码为[0, 1, 0]；对于标签0，对应的独热编码为[1, 0, 0]；对于标签2，对应的独热编码为[0, 0, 1]。

to_categorical() 函数还有一个可选参数 dtype，用于指定输出数组的数据类型，默认为 'float32'，可以根据需要进行设置。

独热编码的使用场景主要是在多类别分类问题中，例如图像分类、文本分类等。在这些问题中，常常使用神经网络进行模型训练，而神经网络的输出一般是一个表示各个类别概率的向量，而不是一个单个预测的类别。独热编码可以方便地将真实标签转换为神经网络输出所需的形式，从而进行模型训练和预测。

这就是 Keras 中 to_categorical() 函数的使用方法和示例。通过这个函数，我们可以方便地将标签转换为独热编码，从而实现多类别分类任务。