使用Python随机生成多维make_blobs()数据集

发布时间：2023-12-11 12:03:25

在Python中，我们可以使用sklearn.datasets.make_blobs()函数来生成随机的多维数据集。make_blobs() 是 Scikit-learn 库中的一个函数，用于生成多类简单数据集。这个函数主要用于聚类算法的可视化。

现在，让我们看一个使用示例，生成一个包含多个特征和标签的数据集。

# 引入必要的库
from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt

# 生成多维数据集
X, y = make_blobs(n_samples = 1000, n_features = 2, centers = 3, random_state = 42)

# 绘制数据集
plt.scatter(X[:, 0], X[:, 1], c = y)
plt.xlabel("Feature 1")
plt.ylabel("Feature 2")
plt.title("Make_blobs Dataset")
plt.show()

在上面的示例中，我们使用 make_blobs() 生成了一个包含1000个样本的2维数据集。我们指定了 n_samples=1000 表示生成1000个样本， n_features=2 表示生成2维的数据， centers=3 表示生成3个类别的数据。

我们生成的数据集 X 是一个二维数组，每行表示一个样本，每列表示一个特征。标签 y 是一个一维数组，其中每个元素表示对应样本的类别。

通过使用 plt.scatter() 函数，我们将数据集在二维平面上进行可视化。并使用 c = y 将样本根据类别进行不同的颜色标注。

运行以上代码，将会得到一个包含三个类别的数据集的可视化结果。每个类别的样本点是以不同颜色进行标注的。

这个示例只是生成了一个简单的二维数据集，你可以根据自己的需求和实验需求调整参数。make_blobs() 函数的参数和用法还有很多其他选项，可以根据实际情况进行调整和使用。