sklearn.datasets模块中的数据集生成器

发布时间：2024-01-04 01:49:43

sklearn.datasets模块中的数据集生成器包含了一些常用的数据集，可以用于机器学习的训练和测试。

1. make_classification: 该函数可以生成一个二分类或多分类的数据集。可以控制样本数量、特征数量、噪声以及类别的分布等参数。例如，下面的代码生成了一个包含100个样本和10个特征的数据集，其中有3个不同的类别。

from sklearn.datasets import make_classification

X, y = make_classification(n_samples=100, n_features=10, n_informative=5, 
                           n_classes=3, random_state=42)

print(X.shape)  # 输出：(100, 10)
print(y.shape)  # 输出：(100,)

2. make_regression: 该函数可以生成一个回归问题的数据集。可以控制样本数量、特征数量、噪声等参数。例如，下面的代码生成了一个包含100个样本和1个特征的数据集。

from sklearn.datasets import make_regression

X, y = make_regression(n_samples=100, n_features=1, noise=0.1, random_state=42)

print(X.shape)  # 输出：(100, 1)
print(y.shape)  # 输出：(100,)

3. make_blobs: 该函数可以生成一个聚类问题的数据集。可以控制样本数量、类别数量、特征数量、中心点等参数。例如，下面的代码生成了一个包含100个样本和2个特征的数据集，其中有4个不同的类别。

from sklearn.datasets import make_blobs

X, y = make_blobs(n_samples=100, n_features=2, centers=4, random_state=42)

print(X.shape)  # 输出：(100, 2)
print(y.shape)  # 输出：(100,)

4. make_circles: 该函数可以生成一个环形分类问题的数据集。可以控制样本数量、噪声等参数。例如，下面的代码生成了一个包含100个样本和2个特征的环形数据集。

from sklearn.datasets import make_circles

X, y = make_circles(n_samples=100, noise=0.1, random_state=42)

print(X.shape)  # 输出：(100, 2)
print(y.shape)  # 输出：(100,)

5. make_moons: 该函数可以生成一个月亮型分类问题的数据集。可以控制样本数量、噪声等参数。例如，下面的代码生成了一个包含100个样本和2个特征的月亮型数据集。

from sklearn.datasets import make_moons

X, y = make_moons(n_samples=100, noise=0.1, random_state=42)

print(X.shape)  # 输出：(100, 2)
print(y.shape)  # 输出：(100,)

这些数据集生成器可以用于机器学习算法的训练和测试。可以根据具体的问题选择适合的数据集生成器，并通过调整参数来生成符合需求的数据集。