在强化学习中使用RolloutStorage()进行经验采样与回放

发布时间：2024-01-02 15:50:02

在强化学习中，经验回放是一种重要的训练技巧，它能够帮助训练过程更加稳定和高效。在处理连续决策问题时，经验回放可以通过保存历史经验进行随机采样，从而提高训练的样本效率。RolloutStorage 是一个常用的经验回放类，它能够方便地进行经验采样与回放，并在训练过程中维护一个滚动存储的数据结构。

为了更好地理解 RolloutStorage 的使用方法，让我们以一个简单的例子来说明。我们假设有一个智能体在环境中学习，环境的状态和动作空间都是连续的。智能体使用一个神经网络来估计动作的价值，然后根据当前状态选择动作。

首先，我们需要导入相关的库和模块：

import torch
from torch.distributions import Categorical
from torch.optim import Adam
import gym

from rollout_storage import RolloutStorage

接下来，我们定义环境和其他超参数：

env = gym.make("Pendulum-v0")
state_dim = env.observation_space.shape[0]
action_dim = env.action_space.shape[0]
hidden_dim = 256
num_steps = 2048
num_epochs = 10

然后，我们定义智能体的神经网络和优化器：

class ActorCritic(torch.nn.Module):
    def __init__(self):
        super(ActorCritic, self).__init__()
        self.actor = torch.nn.Sequential(
            torch.nn.Linear(state_dim, hidden_dim),
            torch.nn.ReLU(),
            torch.nn.Linear(hidden_dim, action_dim),
            torch.nn.Tanh()
        )
        self.critic = torch.nn.Sequential(
            torch.nn.Linear(state_dim, hidden_dim),
            torch.nn.ReLU(),
            torch.nn.Linear(hidden_dim, 1)
        )

    def forward(self, state):
        action_probs = self.actor(state)
        state_value = self.critic(state)
        return action_probs, state_value

model = ActorCritic()
optimizer = Adam(model.parameters(), lr=3e-4)

接下来，我们创建一个 RolloutStorage 对象：

rollout_storage = RolloutStorage(num_steps, state_dim)

在每个训练周期中，我们使用 RolloutStorage 进行经验采样和回放。首先，我们重置环境状态，并保存当前状态到 RolloutStorage 中：

state = env.reset()
rollout_storage.states[0].copy_(torch.tensor(state))

然后，我们开始进行采样，选择动作并与环境交互：

for step in range(1, num_steps + 1):
    with torch.no_grad():
        action_probs, _ = model(rollout_storage.states[step - 1].view(1, -1))
        action_dist = Categorical(action_probs)
        action = action_dist.sample()
    
    next_state, reward, done, _ = env.step(action.item())
    
    rollout_storage.add_step(step, torch.tensor(next_state), action_dist.log_prob(action), torch.tensor(reward), done)
    
    if done:
        state = env.reset()
    else:
        state = next_state

在采样过程中，我们保存了下一个状态、选择的动作的对数概率、奖励和是否终止的信息。

经过采样后，我们可以使用 RolloutStorage 进行经验回放。在每个训练周期中，我们从滚动存储中随机选择一批经验，并进行训练：

for epoch in range(num_epochs):
    for i in range(num_steps):
        state = rollout_storage.states[i]
        action_log_prob = rollout_storage.action_log_probs[i]
        reward = rollout_storage.rewards[i]
        done = rollout_storage.dones[i]
        
        _, state_value = model(state.view(1, -1))
        
        next_state = rollout_storage.states[i + 1]
        _, next_state_value = model(next_state.view(1, -1))
        
        target_value = reward + (1 - done) * next_state_value
        advantage = target_value - state_value
        
        actor_loss = -(action_log_prob * advantage.detach()).mean()
        critic_loss = advantage.pow(2).mean()
        loss = actor_loss + critic_loss

        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

在训练中，我们使用了一个带有价值函数的特殊的损失函数。损失函数由两部分组成，分别是 actor_loss 和 critic_loss。我们将 actor_loss 定义为动作的对数概率乘以优势的负均值，并将 critic_loss 定义为价值函数的均方误差。最终，我们将两者相加得到总体的损失，并使用优化器更新模型参数。

以上就是使用 RolloutStorage 进行经验采样和回放的一个简单例子。通过这个例子，可以看到 RolloutStorage 在实际训练中的用途以及它如何简化采样和回放的过程。在实际应用中，可以根据需要对其进行修改和扩展，以适应不同的环境和算法。