使用RolloutStorage()实现对策略梯度算法的优化

发布时间：2024-01-02 15:45:45

RolloutStorage 是一种用于实现策略梯度算法的优化算法，使用它可以存储和处理来自环境的观察、行动、奖励和下一个观察的序列样本。这种算法常用于强化学习任务中，尤其是基于神经网络的策略梯度方法。

在下面的例子中，我们将使用 RolloutStorage 来实现一种简单的策略梯度算法，以训练一个智能体在一个连续动作空间中找到策略。

首先，我们需要定义一个神经网络作为智能体的策略网络，它将根据环境的观察来输出一个动作。

import torch
import torch.nn as nn

class PolicyNetwork(nn.Module):
    def __init__(self, input_size, output_size):
        super(PolicyNetwork, self).__init__()
        self.fc1 = nn.Linear(input_size, 64)
        self.fc2 = nn.Linear(64, 64)
        self.fc3 = nn.Linear(64, output_size)
        self.relu = nn.ReLU()
        self.softmax = nn.Softmax(dim=-1)
        
    def forward(self, x):
        x = self.relu(self.fc1(x))
        x = self.relu(self.fc2(x))
        x = self.fc3(x)
        return self.softmax(x)

接下来，我们定义 RolloutStorage 类和一些用于更新策略的方法。

class RolloutStorage():
    def __init__(self, num_steps, obs_size, action_size):
        self.observations = torch.zeros(num_steps + 1, obs_size)
        self.actions = torch.zeros(num_steps, action_size)
        self.rewards = torch.zeros(num_steps, 1)
        self.masks = torch.ones(num_steps, 1)
        
    def insert(self, step, observation, action, reward, mask):
        self.observations[step + 1].copy_(observation)
        self.actions[step].copy_(action)
        self.rewards[step].copy_(reward)
        self.masks[step].copy_(mask)
        
    def after_update(self):
        self.observations[0].copy_(self.observations[-1])
    
    def compute_returns(self, next_value, gamma):
        returns = torch.zeros(self.rewards.shape[0] + 1, 1)
        returns[-1] = next_value
        for step in reversed(range(self.rewards.shape[0])):
            returns[step] = returns[step + 1] * gamma * self.masks[step] + self.rewards[step]
        return returns[:-1]

在主循环中，我们将使用 RolloutStorage 存储采样的序列，并使用这些序列来更新策略网络。

env = gym.make('CartPole-v0')
obs_size = env.observation_space.shape[0]
action_size = env.action_space.n

policy_network = PolicyNetwork(obs_size, action_size)
optimizer = torch.optim.Adam(policy_network.parameters(), lr=0.01)
rollout_storage = RolloutStorage(num_steps=10, obs_size=obs_size, action_size=action_size)

num_epochs = 1000
for epoch in range(num_epochs):
    obs = env.reset()
    done = False
    
    for step in range(rollout_storage.observations.shape[0] - 1):
        with torch.no_grad():
            action_prob = policy_network(torch.tensor(obs).float())
            action = torch.multinomial(action_prob, 1).item()
            
        next_obs, reward, done, _ = env.step(action)
        rollout_storage.insert(step, obs, action, reward, done)
        
        obs = next_obs
        if done:
            break
            
    next_value = torch.zeros(1, 1)
    if not done:
        next_value = policy_network(torch.tensor(obs).float())
        
    returns = rollout_storage.compute_returns(next_value, gamma=0.99)
    log_probs = []
    values = []
    
    for step in range(rollout_storage.actions.shape[0]):
        obs = torch.tensor(rollout_storage.observations[step]).float()
        action = torch.tensor(rollout_storage.actions[step]).long()
        action_prob = policy_network(obs).gather(0, action.view(-1, 1)).squeeze(1).log()
        
        log_probs.append(action_prob)
        values.append(policy_network(obs))
        
    log_probs = torch.cat(log_probs)
    values = torch.cat(values)
    
    policy_loss = -(log_probs * (returns - values)).mean()
    optimizer.zero_grad()
    policy_loss.backward()
    optimizer.step()
    
    rollout_storage.after_update()
    
    if epoch % 100 == 0:
        print("Epoch: {}, Policy Loss: {}".format(epoch, policy_loss.item()))

在这个例子中，我们使用了 Gym 的 CartPole-v0 环境作为训练环境。每个 epoch 中，我们将智能体与环境交互一定数量的时间步，并把这些序列存储在 RolloutStorage 中。然后，我们计算每个时间步的策略梯度，并使用这些梯度来更新策略网络的参数。

这个例子只是一个简单的示例，策略梯度算法还有很多改进和扩展的方法。使用 RolloutStorage 可以方便地实现这些改进和扩展，例如使用其他的优化器、添加熵正则化项、使用基线等。通过使用 RolloutStorage，我们可以更加灵活地进行策略梯度算法的实现和调试。