使用sklearn.datasets生成回归数据集
发布时间:2024-01-17 04:07:23
sklearn.datasets是sklearn库中用于生成数据集的模块,提供了一些常用的数据集生成函数,方便用户在机器学习任务中使用。这里将介绍几个生成回归数据集的函数并给出相应的使用例子。
1. make_regression函数:生成一个简单的回归数据集。
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_regression
# 生成具有单个特征的回归数据集
X, y = make_regression(n_samples=100, n_features=1, noise=10)
# 绘制散点图以可视化生成的数据
plt.scatter(X, y)
plt.xlabel('Feature')
plt.ylabel('Target')
plt.title('Regression Data')
plt.show()
上述代码使用make_regression函数生成了一个具有100个样本和1个特征的回归数据集,其中加入了标准差为10的高斯噪声。然后,使用matplotlib库绘制了散点图以可视化生成的数据集。
2. make_friedman1函数:在弗里德曼#1函数的基础上生成的回归数据集。
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_friedman1
# 生成具有5个特征的回归数据集
X, y = make_friedman1(n_samples=100, noise=10)
# 绘制散点图以可视化生成的数据
plt.scatter(X[:, 0], y)
plt.xlabel('Feature 1')
plt.ylabel('Target')
plt.title('Regression Data')
plt.show()
上述代码使用make_friedman1函数生成了一个具有100个样本和5个特征的回归数据集,其中加入了标准差为10的高斯噪声。然后,使用matplotlib库绘制了散点图以可视化生成的数据集。
3. make_low_rank_matrix函数:生成一个具有低秩结构的回归数据集。
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_low_rank_matrix
# 生成一个具有20个特征和100个样本的回归数据集
X, y = make_low_rank_matrix(n_samples=100, n_features=20, effective_rank=5)
# 绘制散点图以可视化生成的数据
plt.scatter(X[:, 0], y)
plt.xlabel('Feature 1')
plt.ylabel('Target')
plt.title('Regression Data')
plt.show()
上述代码使用make_low_rank_matrix函数生成了一个具有100个样本和20个特征的回归数据集,其中特征的秩为5。然后,使用matplotlib库绘制了散点图以可视化生成的数据集。
总结来说,sklearn.datasets提供了多种生成回归数据集的函数,并且生成的数据可以方便地用于各种机器学习任务中。使用这些函数,我们可以生成不同特征数量和噪声水平的回归数据集,从而用于模型的训练和评估。
