Python生成make_blobs()数据集的随机样本

发布时间：2023-12-11 12:01:42

make_blobs()是scikit-learn库提供的一个函数，用于生成具有指定中心点和标准偏差的随机样本数据集。这个函数常用来生成聚类算法的测试数据集。

make_blobs()函数的语法如下：

make_blobs(n_samples=100, n_features=2, centers=None, cluster_std=1.0, center_box=(-10.0, 10.0), shuffle=True, random_state=None)

参数说明：

- n_samples: 生成的样本总数，默认值为100。

- n_features: 每个样本的特征数，默认值为2。

- centers: 产生的样本数据集的中心点数目，默认值为None。如果是一个整数，则产生固定数量的中心点的样本数据集；如果是一个数组，则按照数组中的值生成中心点的样本数据集。

- cluster_std: 指定每个类别的标准偏差，默认值为1.0。

- center_box: 指定中心点位置的范围，默认值为(-10.0, 10.0)。只有当centers是整数时才生效。

- shuffle: 是否打乱样本顺序，默认值为True。

- random_state: 随机数生成器的种子，默认为None。

下面通过一个示例来演示如何使用make_blobs()函数生成样本数据集：

import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs

# 生成样本数据集
X, y = make_blobs(n_samples=100, n_features=2, centers=3, cluster_std=1.0, random_state=0)

# 可视化数据集
plt.scatter(X[:, 0], X[:, 1], c=y, edgecolors='k')
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.title('make_blobs() dataset')
plt.show()

这段代码首先导入需要的库，然后使用make_blobs()函数生成样本数据集。参数n_samples表示生成的样本数为100个，n_features表示每个样本的特征数为2，centers表示生成3个中心点的样本数据集，cluster_std表示每个类别的标准偏差为1.0。同时，设置random_state为0，保证每次运行代码时生成的样本数据集是相同的。

然后，使用scatter()函数绘制样本数据集，其中通过设置参数c为y，将不同类别的样本用不同颜色表示出来。最后，通过设置横纵坐标标签和标题，使用show()函数显示生成的样本数据集的可视化结果。

运行这段代码可以生成一个具有3个类别的样本数据集，并将其可视化出来。每个类别由一个颜色表示，样本数据集的横纵坐标分别代表了两个特征。

这个例子演示了如何使用make_blobs()函数生成随机样本的数据集。根据需求，可以通过调整参数来生成不同样式和特征的样本数据集。这对于测试和评估聚类算法的性能非常有用。