PyTorch中的学习率调度器:了解torch.optim.lr_scheduler的使用方法

发布时间：2024-01-19 21:27:24

PyTorch中，在训练神经网络时，学习率的选择对于模型的性能和训练速度非常重要。随着训练的进行，可能需要动态地调整学习率以达到更好的效果。为了方便地实现学习率调度器，PyTorch提供了torch.optim.lr_scheduler模块，其中包含了多种学习率调度器的实现。

torch.optim.lr_scheduler模块提供了一系列的学习率调整策略，例如StepLR、MultiStepLR、ExponentialLR、CosineAnnealingLR等，下面我们将介绍这些调度器的使用方法，并提供相应的示例。

首先，我们需要导入torch.optim.lr_scheduler模块，并创建一个优化器对象和一个学习率调度器对象。

import torch
from torch.optim import lr_scheduler

# 创建优化器对象
optimizer = torch.optim.SGD(model.parameters(), lr=0.1)

# 创建学习率调度器对象
scheduler = lr_scheduler.StepLR(optimizer, step_size=30, gamma=0.1)

上述代码中，我们使用了torch.optim.SGD作为优化器，并设置了初始学习率为0.1。然后，我们创建了一个学习率调度器对象，采用StepLR算法。StepLR算法根据给定的step_size和gamma进行学习率的调整。具体来说，每经过step_size个epochs，学习率会乘以gamma进行更新。

下面，我们将使用CIFAR-10数据集进行模型训练，并在每个epoch中调用学习率调度器进行学习率的更新。

import torchvision.transforms as transforms
import torchvision.datasets as datasets

# 加载CIFAR-10数据集
train_dataset = datasets.CIFAR10(root='./data', train=True, download=True, transform=transforms.ToTensor())
train_loader = torch.utils.data.DataLoader(dataset=train_dataset, batch_size=128, shuffle=True)

# 模型训练
for epoch in range(100):
    for batch_idx, (images, labels) in enumerate(train_loader):
        # 正向传播
        outputs = model(images)
        loss = criterion(outputs, labels)

        # 反向传播
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

    # 更新学习率
    scheduler.step()

在每个epoch的训练过程中，我们首先进行正向传播和反向传播，然后调用optimizer.step()来更新模型参数。最后，我们调用scheduler.step()来更新学习率。

除了StepLR，torch.optim.lr_scheduler模块还提供了其他几种学习率调度器的实现。下面是一个使用CosineAnnealingLR学习率调度器的示例。

# 创建优化器对象
optimizer = torch.optim.SGD(model.parameters(), lr=0.1)

# 创建学习率调度器对象
scheduler = lr_scheduler.CosineAnnealingLR(optimizer, T_max=100)

# 模型训练
for epoch in range(100):
    for batch_idx, (images, labels) in enumerate(train_loader):
        # 正向传播
        outputs = model(images)
        loss = criterion(outputs, labels)

        # 反向传播
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

    # 更新学习率
    scheduler.step()

在上述示例中，我们使用了CosineAnnealingLR算法进行学习率的调整。CosineAnnealingLR算法根据给定的T_max（最大迭代次数）进行学习率的更新，学习率将按照余弦退火的方式进行变化。

除了StepLR和CosineAnnealingLR，torch.optim.lr_scheduler模块还提供了其他学习率调度器的实现，例如MultiStepLR、ExponentialLR等。根据不同的训练需求，可以选择适合的学习率调度器来优化模型的性能和训练速度。