PyTorch优化器的学习率调整方法总结

发布时间：2023-12-18 23:18:54

PyTorch优化器的学习率调整方法总结如下：

1. 固定学习率：最简单的学习率调整方法是将学习率设置为一个固定值，不随训练过程发生变化。这种方法适用于数据集较小或者模型较简单的情况。例如：

import torch
import torch.optim as optim

model = ...
optimizer = optim.SGD(model.parameters(), lr=0.01)

# 在训练过程中使用固定的学习率
for input, target in dataset:
    optimizer.zero_grad()
    output = model(input)
    loss = loss_function(output, target)
    loss.backward()
    optimizer.step()

2. 学习率衰减：学习率衰减是一种常用的学习率调整方法，它可以根据训练的进程来调整学习率的大小。常见的学习率衰减方法有步长衰减和指数衰减。

- 步长衰减：在训练过程中固定改变学习率的大小。可以在每个epoch结束后改变学习率或者在每个固定的步骤后改变学习率。例如：

     import torch
     import torch.optim as optim

     model = ...
     optimizer = optim.SGD(model.parameters(), lr=0.01)
     scheduler = optim.lr_scheduler.StepLR(optimizer, step_size=10, gamma=0.1)

     for epoch in range(num_epochs):
         # 在每个epoch结束后更新学习率
         scheduler.step()  
         for input, target in dataset:
             optimizer.zero_grad()
             output = model(input)
             loss = loss_function(output, target)
             loss.backward()
             optimizer.step()

- 指数衰减：将学习率按照指数函数进行衰减。例如，可以将torch.optim.lr_scheduler.ExponentialLR作为优化器的学习率调度器使用：

     import torch
     import torch.optim as optim

     model = ...
     optimizer = optim.SGD(model.parameters(), lr=0.01)
     scheduler = optim.lr_scheduler.ExponentialLR(optimizer, gamma=0.9)

     for epoch in range(num_epochs):
         # 按指数函数更新学习率
         scheduler.step()  
         for input, target in dataset:
             optimizer.zero_grad()
             output = model(input)
             loss = loss_function(output, target)
             loss.backward()
             optimizer.step()

3. 余弦退火学习率：余弦退火学习率是一种基于余弦函数形状的学习率调整方法，它在训练的过程中逐渐减小学习率，可以帮助模型更好地收敛。可以使用torch.optim.lr_scheduler.CosineAnnealingLR来实现余弦退火学习率的调整：

   import torch
   import torch.optim as optim

   model = ...
   optimizer = optim.SGD(model.parameters(), lr=0.01)
   scheduler = optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max=num_epochs)

   for epoch in range(num_epochs):
       # 使用余弦退火衰减学习率
       scheduler.step()  
       for input, target in dataset:
           optimizer.zero_grad()
           output = model(input)
           loss = loss_function(output, target)
           loss.backward()
           optimizer.step()

4. 自适应学习率：自适应学习率调整方法会根据梯度的情况来自动调整学习率的大小。常见的自适应学习率方法有AdaGrad、RMSprop和Adam等。这些方法会根据参数的梯度大小来自动调整学习率的大小，从而在训练过程中更加有效地更新参数。

   import torch
   import torch.optim as optim

   model = ...
   optimizer = optim.Adam(model.parameters(), lr=0.01)

   for epoch in range(num_epochs):
       for input, target in dataset:
           optimizer.zero_grad()
           output = model(input)
           loss = loss_function(output, target)
           loss.backward()
           optimizer.step()

此外，PyTorch还提供了其他一些学习率调整的方法，比如SGDR、ReduceLROnPlateau和CyclicLR等，可以根据具体的任务和需求选择适合的学习率调整方法。