sklearn.datasets模块中的数据集生成器
发布时间:2024-01-04 01:49:43
sklearn.datasets模块中的数据集生成器包含了一些常用的数据集,可以用于机器学习的训练和测试。
1. make_classification: 该函数可以生成一个二分类或多分类的数据集。可以控制样本数量、特征数量、噪声以及类别的分布等参数。例如,下面的代码生成了一个包含100个样本和10个特征的数据集,其中有3个不同的类别。
from sklearn.datasets import make_classification
X, y = make_classification(n_samples=100, n_features=10, n_informative=5,
n_classes=3, random_state=42)
print(X.shape) # 输出:(100, 10)
print(y.shape) # 输出:(100,)
2. make_regression: 该函数可以生成一个回归问题的数据集。可以控制样本数量、特征数量、噪声等参数。例如,下面的代码生成了一个包含100个样本和1个特征的数据集。
from sklearn.datasets import make_regression X, y = make_regression(n_samples=100, n_features=1, noise=0.1, random_state=42) print(X.shape) # 输出:(100, 1) print(y.shape) # 输出:(100,)
3. make_blobs: 该函数可以生成一个聚类问题的数据集。可以控制样本数量、类别数量、特征数量、中心点等参数。例如,下面的代码生成了一个包含100个样本和2个特征的数据集,其中有4个不同的类别。
from sklearn.datasets import make_blobs X, y = make_blobs(n_samples=100, n_features=2, centers=4, random_state=42) print(X.shape) # 输出:(100, 2) print(y.shape) # 输出:(100,)
4. make_circles: 该函数可以生成一个环形分类问题的数据集。可以控制样本数量、噪声等参数。例如,下面的代码生成了一个包含100个样本和2个特征的环形数据集。
from sklearn.datasets import make_circles X, y = make_circles(n_samples=100, noise=0.1, random_state=42) print(X.shape) # 输出:(100, 2) print(y.shape) # 输出:(100,)
5. make_moons: 该函数可以生成一个月亮型分类问题的数据集。可以控制样本数量、噪声等参数。例如,下面的代码生成了一个包含100个样本和2个特征的月亮型数据集。
from sklearn.datasets import make_moons X, y = make_moons(n_samples=100, noise=0.1, random_state=42) print(X.shape) # 输出:(100, 2) print(y.shape) # 输出:(100,)
这些数据集生成器可以用于机器学习算法的训练和测试。可以根据具体的问题选择适合的数据集生成器,并通过调整参数来生成符合需求的数据集。
