如何使用python中的save_checkpoint()函数保存模型检查点

发布时间：2023-12-30 13:26:36

在Python中，可以使用PyTorch库中的torch.save()函数来保存模型检查点。该函数将模型的状态字典保存到指定的文件中，以供之后的训练或预测使用。

以下是如何使用torch.save()函数保存模型检查点的步骤：

1. 导入所需的库和模块：

import torch
from torch import nn

2. 定义模型的结构：

class MyModel(nn.Module):
    def __init__(self):
        super(MyModel, self).__init__()
        self.fc = nn.Linear(10, 1)  # 以线性层为例
        self.relu = nn.ReLU()

    def forward(self, x):
        x = self.fc(x)
        x = self.relu(x)
        return x

model = MyModel()

3. 定义优化器和损失函数：

optimizer = torch.optim.SGD(model.parameters(), lr=0.01)
criterion = nn.MSELoss()

4. 进行模型的训练／推理并保存模型检查点：

# 训练／推理的过程
for epoch in range(num_epochs):
    # ...
    # 前向传递
    outputs = model(inputs)
    loss = criterion(outputs, targets)
    
    # 后向传递与优化
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()
    
    if (epoch+1) % save_interval == 0:
        # 保存模型检查点
        checkpoint = {
            'epoch': epoch+1,
            'model_state_dict': model.state_dict(),
            'optimizer_state_dict': optimizer.state_dict(),
            'loss': loss.item()
        }
        torch.save(checkpoint, 'checkpoint.pth')
        print("Checkpoint saved at epoch", epoch+1)

在上述代码中，我们在每个指定的训练轮次（save_interval）之后保存了模型的状态字典、优化器的状态字典和当前损失值到一个字典中。然后，使用torch.save()函数将这个字典保存到指定的文件 'checkpoint.pth' 中。

需要特别注意的是，如果需要恢复训练，还需要将加载保存的模型检查点，以便能够加载模型的状态字典和优化器的状态字典。以下是在Python中使用torch.load()函数加载模型检查点的步骤：

1. 导入所需的库和模块：

import torch
from torch import nn

2. 定义模型的结构：

class MyModel(nn.Module):
    def __init__(self):
        super(MyModel, self).__init__()
        self.fc = nn.Linear(10, 1)  # 以线性层为例
        self.relu = nn.ReLU()

    def forward(self, x):
        x = self.fc(x)
        x = self.relu(x)
        return x

model = MyModel()

3. 加载模型检查点：

checkpoint = torch.load('checkpoint.pth')
model.load_state_dict(checkpoint['model_state_dict'])

在上述代码中，我们使用torch.load()函数加载了之前保存的模型检查点，并将模型的状态字典加载到model对象中。

需要注意的是，加载模型检查点后还可以通过checkpoint['optimizer_state_dict']来获得之前保存的优化器的状态字典，以便在需要时重新加载优化器的设置。

这样，通过以上的步骤，您就可以使用Python中的torch.save()函数保存模型检查点，并使用torch.load()函数加载检查点以恢复模型的状态字典和优化器的状态字典，方便继续训练或进行推理。