PyTorch中checkpoint()函数的使用方法与实例解析

发布时间：2023-12-14 23:39:38

PyTorch的checkpoint()函数是一个用于将模型和优化器状态一起保存在磁盘上的函数。它可以很方便地将训练过程中的中间检查点保存下来，以便于之后的恢复和继续训练。下面是一个使用checkpoint()函数的示例，解释了其使用方法：

import torch
import torch.nn as nn
import torch.optim as optim

# 创建模型和优化器
model = nn.Linear(10, 5)
optimizer = optim.SGD(model.parameters(), lr=0.1)

# 定义训练循环
def train_model(model, optimizer):
    for epoch in range(10):
        # 训练模型
        loss = model(torch.randn(10), torch.randn(5))
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

        # 保存检查点
        if (epoch + 1) % 3 == 0:
            checkpoint = {
                'model_state_dict': model.state_dict(),
                'optimizer_state_dict': optimizer.state_dict()
            }
            torch.save(checkpoint, f'checkpoint_{epoch + 1}.pth')

# 在训练过程中保存检查点
train_model(model, optimizer)

上面的代码定义了一个简单的线性模型和一个随机梯度下降（SGD）优化器，并设置了一个训练循环，共进行10个epoch的训练。在每个epoch结束时，通过检查epoch + 1是否能被3整除，来决定是否保存检查点。

checkpoint()函数在保存检查点时，需要传入一个字典对象，其中包含模型和优化器的状态字典。在上面的代码中，我们使用了model.state_dict()来获取模型的状态字典，使用了optimizer.state_dict()来获取优化器的状态字典。这两个状态字典将在之后的恢复过程中用于加载模型和优化器的状态。

将字典对象保存到磁盘时，可以使用torch.save()方法，该方法接受两个参数：要保存的对象和文件路径。上面的代码中，我们根据当前epoch的值来为每个检查点设置一个不同的文件名（checkpoint_1.pth、checkpoint_4.pth、checkpoint_7.pth等等）。这些检查点文件将保存在当前工作目录中。

为了恢复训练过程，我们可以使用torch.load()方法来加载检查点文件，并通过读取字典对象的键值来恢复模型和优化器的状态：

# 加载检查点
checkpoint = torch.load('checkpoint_4.pth')
model.load_state_dict(checkpoint['model_state_dict'])
optimizer.load_state_dict(checkpoint['optimizer_state_dict'])

# 继续训练模型
train_model(model, optimizer)

在上面的代码中，我们通过torch.load()方法加载了checkpoint_4.pth文件，并将其中的模型状态和优化器状态分别加载到了model和optimizer对象中。然后，我们调用了train_model()函数来继续训练模型。

总结来说，checkpoint()函数可以帮助我们在训练过程中保存中间检查点，以便于之后的恢复和继续训练。我们只需要将模型和优化器的状态字典保存到一个字典对象中，并使用torch.save()方法将该字典对象保存到磁盘。恢复训练时，我们可以使用torch.load()方法加载检查点文件，并通过状态字典恢复模型和优化器的状态。