如何使用sklearn.calibration对概率进行校准

发布时间：2024-01-09 16:25:41

sklearn.calibration是scikit-learn库中用于概率校准的模块。它提供了一些方法来校准分类器的预测概率，使其更加准确。本文将详细介绍如何使用sklearn.calibration对概率进行校准，并提供一个具体的例子来说明。

sklearn.calibration模块提供了两种概率校准的方法：Platt Scaling和Isotonic Regression。Platt Scaling是一种简单的参数化方法，通过拟合一个逻辑回归模型来校准概率。Isotonic Regression是一种非参数化方法，通过拟合一个无序变换来校准概率。

首先，我们需要导入所需的模块和数据集。在这个例子中，我们将使用鸢尾花数据集。代码如下：

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.calibration import calibration_curve
import matplotlib.pyplot as plt

# 加载鸢尾花数据集
iris = load_iris()
X = iris.data
y = iris.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 初始化逻辑回归模型
model = LogisticRegression()

# 训练模型
model.fit(X_train, y_train)

# 预测测试集
y_proba = model.predict_proba(X_test)

接下来，我们可以使用calibration_curve函数来获取模型预测的概率和真实标签之间的关系曲线。代码如下：

# 获取校准曲线的真实标签和预测概率
true_labels, predicted_probs = calibration_curve(y_test, y_proba[:, 1], n_bins=10)

在上述代码中，我们指定了概率校准曲线的分箱数为10，我们可以更改该值以获得更细粒度的校准曲线。

最后，我们可以使用matplotlib绘制校准曲线。代码如下：

# 绘制校准曲线
plt.plot(predicted_probs, true_labels, marker='o', linestyle='-')

# 绘制对角线
plt.plot([0, 1], [0, 1], color='navy', linestyle='--')

# 添加标签和标题
plt.xlabel("均值预测概率")
plt.ylabel("真实标签均值")
plt.title('概率校准曲线')

# 显示图形
plt.show()

运行上述代码，将得到一张概率校准曲线图像。该曲线应该接近一条对角线，表示模型的预测概率与实际标签一致。如果曲线偏离对角线，说明模型的预测概率有问题，需要进行校准。

除了绘制校准曲线外，我们还可以使用Platt Scaling或Isotonic Regression方法来校准模型的概率预测。代码如下：

from sklearn.calibration import CalibratedClassifierCV

# Platt Scaling方法
calibrated_model = CalibratedClassifierCV(model, method='sigmoid', cv=5)
calibrated_model.fit(X_train, y_train)
calibrated_proba = calibrated_model.predict_proba(X_test)

# Isotonic Regression方法
isotonic_model = CalibratedClassifierCV(model, method='isotonic', cv=5)
isotonic_model.fit(X_train, y_train)
isotonic_proba = isotonic_model.predict_proba(X_test)

在上述代码中，我们通过CalibratedClassifierCV类来对模型进行概率校准。可以选择的方法有'sigmoid'和'isotonic'。我们还可以指定交叉验证的折数，这里我们选择了5折交叉验证。

总结来说，使用sklearn.calibration对概率进行校准可以帮助我们改善模型的预测效果。我们可以通过绘制概率校准曲线来评估模型的概率预测准确性，并使用Platt Scaling或Isotonic Regression方法来校准模型的概率预测。希望本文能够对你理解如何使用sklearn.calibration对概率进行校准有所帮助。