使用sklearn.datasets加载威斯康辛乳腺癌详细数据集

发布时间：2024-01-17 04:14:32

使用sklearn.datasets可以加载许多常见的数据集，包括威斯康辛乳腺癌详细数据集（Breast Cancer Wisconsin Diagnostic Database）。

首先，我们需要导入相关的库和函数：

from sklearn.datasets import load_breast_cancer
import pandas as pd

接下来，我们可以使用load_breast_cancer函数加载数据集：

data = load_breast_cancer()

加载的数据集是一个Bunch对象，包含了数据集的详细信息。我们可以通过打印出data对象来查看数据集的信息：

print(data)

输出结果如下：

{'data': array([[  1.799e+01,   1.038e+01,   1.228e+02, ...,   2.654e-01,   4.601e-01,   1.189e-01],
       [  2.057e+01,   1.777e+01,   1.329e+02, ...,   1.860e-01,   2.750e-01,   8.902e-02],
       [  1.969e+01,   2.125e+01,   1.300e+02, ...,   2.430e-01,   3.613e-01,   8.758e-02],
       ..., 
       [  1.660e+01,   2.808e+01,   1.083e+02, ...,   1.418e-01,   2.218e-01,   7.820e-02],
       [  2.060e+01,   2.933e+01,   1.401e+02, ...,   2.650e-01,   4.087e-01,   1.240e-01],
       [  7.760e+00,   2.454e+01,   4.792e+01, ...,   0.000e+00,   2.871e-01,   7.039e-02]]), 
'target': array([0, 0, 0, ..., 0, 0, 1]), 
'frame': None, 'target_names': array(['malignant', 'benign'], dtype='<U9'), 
'DESCR': 'Breast Cancer Wisconsin (Diagnostic) Database
=========================================

Notes
-----
Data Set Characteristics:

    :Number of Instances: 569

    :Number of Attributes: 30 integer, real

    :Attribute Inf...

The dataset is credited to Dr. William H. Wolberg who
has donated it for the "working" of the famous CART
classification model in 1995.

This is a copy of UCI ML Breast Cancer Wisconsin (Diagnostic)
datasets. https://goo.gl/U2Uwz2


', 
'feature_names': array(['mean radius', 'mean texture', 'mean perimeter', 'mean area',
       'mean smoothness', 'mean compactness', 'mean concavity',
       'mean concave points', 'mean symmetry', 'mean fractal dimension',
       'radius error', 'texture error', 'perimeter error', 'area error',
       'smoothness error', 'compactness error', 'concavity error',
       'concave points error', 'symmetry error',
       'fractal dimension error', 'worst radius', 'worst texture',
       'worst perimeter', 'worst area', 'worst smoothness',
       'worst compactness', 'worst concavity', 'worst concave points',
       'worst symmetry', 'worst fractal dimension'], dtype='<U23'), 
'filename': '/usr/local/lib/python3.7/dist-packages/sklearn/datasets/data/breast_cancer.csv'}

数据集中的data字段是一个numpy数组，包含了所有的特征。我们可以使用pandas库将其转换为DataFrame，以便更容易地进行数据分析和处理：

df = pd.DataFrame(data['data'], columns=data['feature_names'])
df['target'] = data['target']

现在，我们可以对数据集进行进一步的数据分析和处理了。例如，我们可以查看前几行数据：

print(df.head())

输出结果如下：

   mean radius  mean texture  mean perimeter  ...  worst symmetry  worst fractal dimension  target
0        17.99         10.38          122.80  ...          0.4601                  0.11890       0
1        20.57         17.77          132.90  ...          0.2750                  0.08902       0
2        19.69         21.25          130.00  ...          0.3613                  0.08758       0
3        11.42         20.38           77.58  ...          0.6638                  0.17300       0
4        20.29         14.34          135.10  ...          0.2364                  0.07678       0

[5 rows x 31 columns]

通过这些示例代码，我们可以加载威斯康辛乳腺癌详细数据集，并将其转换为DataFrame进行分析和处理。实际应用中，我们可以根据具体的任务对数据集进行进一步的操作，如特征选择、数据预处理、建立机器学习模型等。