利用python的save_checkpoint()函数保存训练模型的整个状态

发布时间：2023-12-30 13:30:19

在PyTorch中，可以使用save_checkpoint()函数来保存训练模型的整个状态。这个函数可以保存模型的参数及优化器的状态，以便在之后恢复模型的训练或进行推理。

下面是一个使用save_checkpoint()函数保存模型状态的示例：

import torch
import torch.nn as nn
import torch.optim as optim

# 定义模型结构
class Model(nn.Module):
    def __init__(self):
        super(Model, self).__init__()
        self.fc = nn.Linear(10, 1)
    
    def forward(self, x):
        return self.fc(x)

# 定义数据和目标
data = torch.randn(100, 10)
target = torch.randn(100, 1)

# 定义模型、损失函数和优化器
model = Model()
criterion = nn.MSELoss()
optimizer = optim.SGD(model.parameters(), lr=0.01)

# 训练模型
for epoch in range(10):
    # 前向传播
    output = model(data)
    loss = criterion(output, target)
    
    # 反向传播和优化
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()
    
    print(f"Epoch {epoch+1}, Loss: {loss.item()}")

# 保存模型状态
checkpoint = {'model': model.state_dict(),
              'optimizer': optimizer.state_dict()}
torch.save(checkpoint, 'checkpoint.pth')

在上面的示例中，我们首先定义了一个简单的模型，数据和目标。然后定义了模型的损失函数和优化器。接下来，使用一个循环训练模型，每个epoch都进行前向传播、计算loss、反向传播和优化。

最后，我们使用state_dict()方法来获取模型和优化器的状态，并将它们保存在一个字典中。然后，可以使用torch.save()函数将这个字典保存到文件中，其中'checkpoint.pth'是保存文件的路径。

当需要恢复模型状态时，可以使用load_state_dict()方法加载模型和优化器的状态，并继续训练或进行推理。

下面是一个使用load_state_dict()函数加载模型状态的示例：

# 创建模型、损失函数和优化器
model = Model()
criterion = nn.MSELoss()
optimizer = optim.SGD(model.parameters(), lr=0.01)

# 加载之前保存的模型状态
checkpoint = torch.load('checkpoint.pth')
model.load_state_dict(checkpoint['model'])
optimizer.load_state_dict(checkpoint['optimizer'])

# 恢复训练或进行推理
# ...

在上面的示例中，我们首先创建了一个与之前训练时完全相同的模型、损失函数和优化器。然后使用load_state_dict()方法加载之前保存的模型状态。

接下来，可以继续训练模型或进行推理。