使用python的save_checkpoint()函数实现训练模型的断点恢复

发布时间：2023-12-30 13:28:13

在深度学习中，训练一个模型可能需要花费数小时甚至数天的时间，这意味着如果中途出现问题或中断，我们需要从头开始重新训练模型。为了节省时间和资源，我们可以使用断点恢复的技术。在PyTorch中，我们可以使用torch.save()函数将模型的状态字典保存到文件中，并使用torch.load()函数从文件中加载模型的状态字典。但是，为了更方便地保存/加载网络、优化器和训练状态等信息，PyTorch还提供了torch.save()和torch.load()之外的高级函数torch.save_checkpoint()和torch.load_checkpoint()。

torch.save_checkpoint()函数的定义如下：

def save_checkpoint(state, filename, is_best=False, checkpoint_dir='./'):
    torch.save(state, os.path.join(checkpoint_dir, filename))
    if is_best:
        shutil.copyfile(os.path.join(checkpoint_dir, filename), os.path.join(checkpoint_dir, 'best_model.pth'))

该函数接受四个参数：

- state：一个字典，包含了一些关键的训练信息，如网络的状态字典、优化器的状态字典、当前的训练轮数等。

- filename：指定保存的文件名。

- is_best：一个布尔值，用于指示当前保存的模型是否是模型。如果是模型，除了保存到指定的文件中之外，还会将它复制到一个名为'best_model.pth'的文件中。

- checkpoint_dir：指定保存检查点文件的目录。

下面是一个使用save_checkpoint()函数的例子：

import torch
import torchvision.models as models

# 创建一个模型
model = models.resnet18(pretrained=True)

# 创建一个优化器
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)

# 创建一个字典来保存训练状态信息
state = {'epoch': 10,
         'state_dict': model.state_dict(),
         'optimizer': optimizer.state_dict()}

# 保存模型和状态信息到文件
torch.save_checkpoint(state, 'checkpoint.pth')

# 加载模型和状态信息
loaded_checkpoint = torch.load_checkpoint('checkpoint.pth')
loaded_model = models.resnet18(pretrained=True)
loaded_model.load_state_dict(loaded_checkpoint['state_dict'])
loaded_optimizer = torch.optim.Adam(loaded_model.parameters(), lr=0.001)
loaded_optimizer.load_state_dict(loaded_checkpoint['optimizer'])

在上面的例子中，我们首先创建了一个预训练的ResNet模型和一个Adam优化器。然后，将模型的状态字典、优化器的状态字典和当前的训练轮数等信息保存在一个字典中。接下来，调用save_checkpoint()函数将这个字典保存到文件'checkpoint.pth'中。

最后，我们使用torch.load_checkpoint()函数从文件中加载模型和状态信息。首先，我们创建了一个新的ResNet模型和一个新的Adam优化器。然后，使用load_state_dict()方法将从文件中加载的状态字典加载到新模型和优化器中。

通过使用save_checkpoint()函数，我们可以在训练模型的过程中定期保存检查点，并在需要时恢复训练，而不必从头开始重新训练整个模型。这对于长时间的训练任务非常有用，可以节省大量的时间和资源。