使用sklearn.datasets生成回归数据集

发布时间：2024-01-17 04:07:23

sklearn.datasets是sklearn库中用于生成数据集的模块，提供了一些常用的数据集生成函数，方便用户在机器学习任务中使用。这里将介绍几个生成回归数据集的函数并给出相应的使用例子。

1. make_regression函数：生成一个简单的回归数据集。

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_regression

# 生成具有单个特征的回归数据集
X, y = make_regression(n_samples=100, n_features=1, noise=10)

# 绘制散点图以可视化生成的数据
plt.scatter(X, y)
plt.xlabel('Feature')
plt.ylabel('Target')
plt.title('Regression Data')
plt.show()

上述代码使用make_regression函数生成了一个具有100个样本和1个特征的回归数据集，其中加入了标准差为10的高斯噪声。然后，使用matplotlib库绘制了散点图以可视化生成的数据集。

2. make_friedman1函数：在弗里德曼#1函数的基础上生成的回归数据集。

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_friedman1

# 生成具有5个特征的回归数据集
X, y = make_friedman1(n_samples=100, noise=10)

# 绘制散点图以可视化生成的数据
plt.scatter(X[:, 0], y)
plt.xlabel('Feature 1')
plt.ylabel('Target')
plt.title('Regression Data')
plt.show()

上述代码使用make_friedman1函数生成了一个具有100个样本和5个特征的回归数据集，其中加入了标准差为10的高斯噪声。然后，使用matplotlib库绘制了散点图以可视化生成的数据集。

3. make_low_rank_matrix函数：生成一个具有低秩结构的回归数据集。

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_low_rank_matrix

# 生成一个具有20个特征和100个样本的回归数据集
X, y = make_low_rank_matrix(n_samples=100, n_features=20, effective_rank=5)

# 绘制散点图以可视化生成的数据
plt.scatter(X[:, 0], y)
plt.xlabel('Feature 1')
plt.ylabel('Target')
plt.title('Regression Data')
plt.show()

上述代码使用make_low_rank_matrix函数生成了一个具有100个样本和20个特征的回归数据集，其中特征的秩为5。然后，使用matplotlib库绘制了散点图以可视化生成的数据集。

总结来说，sklearn.datasets提供了多种生成回归数据集的函数，并且生成的数据可以方便地用于各种机器学习任务中。使用这些函数，我们可以生成不同特征数量和噪声水平的回归数据集，从而用于模型的训练和评估。