使用sklearn.datasets.samples_generator模块中的make_blobs()函数生成适用于机器学习的随机数据集
发布时间:2024-01-20 17:51:31
make_blobs()函数是sklearn.datasets.samples_generator模块中的一个函数,用于生成适用于机器学习的随机数据集。
该函数可以生成指定数量的样本数据,每个样本数据有多个特征,可以指定每个样本所属的类别,并且可以设置样本数据的分布特性。
make_blobs()函数的参数如下:
- n_samples:生成的样本总数,默认为100
- n_features:每个样本的特征数,默认为2
- centers:指定生成的样本所属的类别数量,默认为3
- cluster_std:每个类别的方差,默认为1.0
- center_box:指定样本数据分布的边界,默认为(-10.0, 10.0)
- shuffle:是否打乱样本数据的顺序,默认为True
下面是一个使用make_blobs()函数生成随机数据集的示例:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets.samples_generator import make_blobs
# 生成随机数据集
X, y_true = make_blobs(n_samples=100, centers=3, cluster_std=1.0, random_state=0)
# 绘制生成的样本数据
plt.scatter(X[:, 0], X[:, 1], c=y_true, cmap='viridis')
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.title('Randomly Generated Dataset')
plt.show()
在这个例子中,我们生成了一个包含100个样本的数据集,每个样本有两个特征。样本被分为3个类别,每个类别的方差为1.0。
通过调用make_blobs()函数并传入相应的参数,生成的随机样本数据保存在变量X中,每个样本的真实类别保存在变量y_true中。
最后,我们使用matplotlib.pyplot库绘制了生成的样本数据散点图,其中不同的颜色表示不同的类别。
make_blobs()函数的灵活性使得我们可以自由地生成适合机器学习的随机数据集,以应用于各种任务和算法的训练和评估。
