欢迎访问宙启技术站
智能推送

使用Python代码生成多个不同大小的make_blobs()数据集

发布时间:2023-12-11 12:05:25

可以使用Python的sklearn库中的make_blobs()函数生成多个不同大小的数据集。make_blobs()函数可以生成具有指定中心点和标准差的合成聚类数据。

下面是一个使用make_blobs()函数生成多个不同大小的数据集的示例代码:

from sklearn.datasets import make_blobs

# 生成具有500个样本和2个特征的数据集
X1, y1 = make_blobs(n_samples=500, n_features=2, centers=3, random_state=0)

# 生成具有1000个样本和2个特征的数据集
X2, y2 = make_blobs(n_samples=1000, n_features=2, centers=4, random_state=0)

# 生成具有2000个样本和2个特征的数据集
X3, y3 = make_blobs(n_samples=2000, n_features=2, centers=5, random_state=0)

# 打印每个数据集的形状
print("Dataset 1 shape:", X1.shape)
print("Dataset 2 shape:", X2.shape)
print("Dataset 3 shape:", X3.shape)

以上代码中,make_blobs()函数使用不同的参数生成了三个不同大小的数据集。每个数据集都具有不同的样本个数、特征个数和中心点个数。生成的数据集存储在X1、X2和X3中,而对应的标签则存储在y1、y2和y3中。通过打印每个数据集的形状,我们可以看到它们的大小分别是(500, 2)、(1000, 2)和(2000, 2)。

这些生成的数据集可以用于许多机器学习算法的训练和测试。例如,可以使用这些数据集来训练聚类算法,比如K均值算法,然后使用训练好的模型对新样本进行聚类预测。

希望以上例子对你有帮助!