如何使用checkpoint()函数保存和加载训练过程中的模型

发布时间：2023-12-23 22:50:52

在PyTorch中，可以使用torch.save()函数来保存PyTorch模型，然后使用torch.load()函数加载已保存的模型。

为了更加灵活地保存和加载训练过程中的模型，PyTorch还提供了torch.nn.Module类的state_dict()函数和load_state_dict()函数以及优化器torch.optim类的state_dict()函数和load_state_dict()函数。这些函数可以用来保存和加载模型以及优化器的参数。

下面是一个简单的例子来演示如何使用torch.save()和torch.load()函数保存和加载训练过程中的模型：

import torch
import torch.nn as nn
import torch.optim as optim

# 定义一个简单的模型
class MyModel(nn.Module):
    def __init__(self):
        super(MyModel, self).__init__()
        self.fc = nn.Linear(10, 2)

    def forward(self, x):
        return self.fc(x)

# 创建模型和优化器
model = MyModel()
optimizer = optim.SGD(model.parameters(), lr=0.1)

# 训练模型
for epoch in range(10):
    # 在每个epoch之前，调用checkpoint函数保存模型和优化器的参数
    checkpoint = {
        'model_state_dict': model.state_dict(),
        'optimizer_state_dict': optimizer.state_dict()
    }
    torch.save(checkpoint, 'checkpoint.pth')

    # 模拟训练过程
    # ...

# 加载保存的模型和优化器的参数
checkpoint = torch.load('checkpoint.pth')
model.load_state_dict(checkpoint['model_state_dict'])
optimizer.load_state_dict(checkpoint['optimizer_state_dict'])

# 使用加载的模型进行推理
# ...

在这个例子中，我们首先定义了一个简单的模型MyModel，然后创建了一个优化器SGD并指定学习率为0.1。

在训练过程中，我们使用一个循环来模拟多个epoch的训练。在每个epoch之前，我们调用torch.save()函数保存模型和优化器的参数，并指定保存路径为'checkpoint.pth'。checkpoint是一个字典，包含了模型的状态字典和优化器的状态字典。

在训练结束后，我们使用torch.load()函数加载之前保存的模型和优化器的参数，并使用model.load_state_dict()函数将加载的模型参数应用到模型中，使用optimizer.load_state_dict()函数将加载的优化器参数应用到优化器中。

最后，我们可以使用加载的模型进行推理。

总结起来，checkpoint()函数可以保存和加载训练过程中的模型和优化器的参数，使得我们可以在训练过程中保存中间模型的状态，以及在需要的时候从之前的状态继续训练或进行推理。