PyTorch数据采样器指南

发布时间：2024-01-16 02:00:57

PyTorch提供了灵活且功能强大的数据采样器类，用于在训练和测试过程中对数据进行采样。数据采样器允许我们从数据集中选择子集，按照特定的规则对数据进行排序或重排，以及为不平衡数据集提供平衡的样本。

PyTorch中的数据采样器类位于torch.utils.data.sampler模块中。常见的数据采样器包括RandomSampler、SequentialSampler、SubsetRandomSampler等。

- RandomSampler：随机采样器，从数据集中随机选择样本。

- SequentialSampler：顺序采样器，按照数据集的顺序逐个选择样本。

- SubsetRandomSampler：子集随机采样器，从数据集的指定子集中随机选择样本。

以下是一个使用数据采样器的示例，假设我们有一个包含100个样本的数据集：

import torch
from torch.utils.data import DataLoader, RandomSampler

dataset = torch.arange(100)  # 创建一个包含100个样本的数据集

sampler = RandomSampler(dataset)  # 创建一个随机采样器
dataloader = DataLoader(dataset, batch_size=10, sampler=sampler)  # 创建一个数据加载器

for batch in dataloader:
    print(batch)

在上面的示例中，我们首先创建了一个包含100个样本的数据集。然后，我们使用RandomSampler创建了一个随机采样器，并将其指定为数据加载器的参数。最后，我们通过迭代数据加载器来获取批次数据。

可以看到，每个批次的数据是随机选择的，因为我们使用了随机采样器。如果我们使用顺序采样器SequentialSampler，每个批次的数据将按照数据集的顺序依次选择。

PyTorch还提供了一些特殊的数据采样器类，用于处理各种数据集情况。

- WeightedRandomSampler：带权重的随机采样器，根据样本的权重进行随机采样。

- SubsetSampler：子集采样器，根据给定的索引列表选择子集。

- BatchSampler：批次采样器，将样本按照批次大小分组。

以下是一个使用WeightedRandomSampler的示例，假设我们有一个不平衡的数据集，其中正样本的数量比负样本多：

import torch
from torch.utils.data import DataLoader, WeightedRandomSampler

dataset = torch.randn(100, 2)  # 创建一个包含100个样本的数据集
labels = torch.cat([torch.ones(80), torch.zeros(20)])  # 创建一个包含标签的数据集

class_weights = torch.tensor([0.1, 1.0])  # 创建一个包含样本权重的张量

sampler = WeightedRandomSampler(class_weights, num_samples=100, replacement=True)  # 创建一个带权重的随机采样器

dataloader = DataLoader(dataset, batch_size=10, sampler=sampler)  # 创建一个数据加载器

for batch in dataloader:
    print(batch)

在上面的示例中，我们首先创建了一个包含100个样本的数据集和一组对应的标签。然后，我们为每个样本创建了一个样本权重，正样本的权重较小，负样本的权重较大。接下来，我们使用WeightedRandomSampler创建了一个带权重的随机采样器，并将其指定为数据加载器的参数。

我们可以根据具体的需求选择合适的数据采样器，以实现对数据集的灵活处理和优化。无论是平衡不平衡的数据集，还是选择特定子集或随机化样本顺序，PyTorch的数据采样器类能够满足各种需求。