在Python中使用sklearn.datasets.samples_generator生成样本数据

发布时间：2023-12-15 03:26:53

在Python中，使用sklearn.datasets.samples_generator模块可以生成各种类型的样本数据。

sklearn.datasets.samples_generator模块中的函数make_classification可以用于生成分类数据集。以下是使用该函数生成分类数据集的示例代码：

from sklearn.datasets.samples_generator import make_classification

X, y = make_classification(n_samples=1000, n_features=10, n_informative=5, n_classes=2)

print("生成的数据集X:")
print(X[:5])  # 打印前5个样本

print("
生成的标签y:")
print(y[:5])  # 打印前5个标签

运行上述代码，将生成包含1000个样本、10个特征以及2类标签的分类数据集。输出结果如下：

生成的数据集X:
[[ 0.21738819  0.06662246 -0.91830911  0.79352443  1.66859209  0.84946971
   0.71323497 -0.73327165  0.39501438  0.17302527]
 [-0.15212568 -1.34725211  0.92777237  0.06931858  0.10514814 -0.65809085
   0.84648959  0.93082079 -0.3969853   0.28850208]
 [ 0.97540392 -1.23415125  1.35204038 -1.31793876  1.99511956 -0.47429002
   0.18023074 -0.23568159  0.2599411  -0.22593332]
 [ 1.77014724 -0.14540706 -1.30521315  1.71907759 -0.92735695  0.0886334
  -0.33497467  1.21508911 -0.03804798 -1.38551658]
 [ 0.87574121  0.1908926   0.75437957 -0.38837631 -0.21076524  0.83581245
  -1.10747543 -1.30205243 -0.56258794  0.26701241]]

生成的标签y:
[0 1 1 0 0]

另一个函数make_regression可以用于生成回归数据集。以下是使用该函数生成回归数据集的示例代码：

from sklearn.datasets.samples_generator import make_regression

X, y = make_regression(n_samples=1000, n_features=5)

print("生成的数据集X:")
print(X[:5])  # 打印前5个样本

print("
生成的目标变量y:")
print(y[:5])  # 打印前5个目标变量

运行上述代码，将生成包含1000个样本、5个特征以及连续的目标变量的回归数据集。输出结果如下：

生成的数据集X:
[[ 1.36166904 -0.7630121   1.2191815  -1.07854125 -0.76651899]
 [ 1.11311454  0.62397241 -0.87964111 -0.38200237  0.6911714 ]
 [-0.1373364   0.25327174 -0.30305016 -0.42224137  1.27269981]
 [-0.8240493   1.9325128   1.3381742   0.20012363 -0.94927218]
 [ 0.28538711 -1.11350144  0.75811695 -0.31077917 -0.2877096 ]]

生成的目标变量y:
[-70.13579126  35.68404035 -14.03977929 180.00693034 -12.03627581]

除了以上两个示例，sklearn.datasets.samples_generator模块还提供了其他函数，如make_blobs用于生成聚类数据集，make_gaussian_quantiles用于生成分位数高斯数据集等。根据需要选择适合的函数即可生成所需的样本数据集。