使用sklearn.datasets加载威斯康辛乳腺癌数据集
发布时间:2024-01-17 04:10:31
威斯康辛乳腺癌数据集是一个常用的用来进行分类任务的数据集。它包含了569个乳腺肿瘤样本,其中包括212个恶性肿瘤和357个良性肿瘤。每个样本都有30个特征,这些特征是从乳腺肿瘤细胞核的数字化图像中抽取出来的。
要加载威斯康辛乳腺癌数据集,我们可以使用Python的sklearn.datasets模块中的load_breast_cancer函数。
下面是一个加载威斯康辛乳腺癌数据集,并对其进行简单的数据预处理和分类的示例代码:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score
# 加载威斯康辛乳腺癌数据集
data = load_breast_cancer()
# 将特征和标签分开
X = data.data
y = data.target
# 数据预处理:将特征进行标准化处理
scaler = StandardScaler()
X = scaler.fit_transform(X)
# 将数据集分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 使用支持向量机进行分类
svm = SVC()
svm.fit(X_train, y_train)
# 在测试集上进行预测
y_pred = svm.predict(X_test)
# 计算预测精度
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy: {:.2f}%".format(accuracy * 100))
在上述代码中,我们首先使用load_breast_cancer函数加载威斯康辛乳腺癌数据集。然后将特征和标签分开,特征存储在X中,标签存储在y中。接下来,我们使用StandardScaler对特征进行标准化处理,这是为了增加模型的稳定性和性能。然后,将数据集分为训练集和测试集,这里将数据集划分为80%的训练集和20%的测试集。然后,我们使用支持向量机模型(SVC)进行分类,使用fit方法在训练集上训练模型。最后,使用predict方法在测试集上进行预测,并计算出预测精度。
通过使用威斯康辛乳腺癌数据集和sklearn中的机器学习算法,我们可以构建一个用于乳腺癌预测的分类模型,从而帮助医生和患者进行早期乳腺癌的诊断和治疗。
