torch.utils.data.sampler中的随机采样方法详解

发布时间：2023-12-16 23:37:59

在PyTorch中，torch.utils.data.sampler是用于定义数据采样方法的模块。数据采样是在训练过程中从数据集中选择一个小批量数据的过程。这个模块提供了一些常用的采样方法，可以根据具体的需求进行选择。

下面详细介绍几种常见的随机采样方法，并给出相应的使用例子：

1. RandomSampler: 随机采样器，根据给定的数据集随机选择数据。可以使用shuffle参数控制是否在每个epoch开始时打乱数据。

from torch.utils.data import RandomSampler, DataLoader
from torch.utils.data.dataset import TensorDataset

# 创建一个示例数据集
data = torch.Tensor([[1, 2, 3, 4],
                     [5, 6, 7, 8],
                     [9, 10, 11, 12],
                     [13, 14, 15, 16]])
target = torch.Tensor([1, 2, 3, 4])

dataset = TensorDataset(data, target)

# 使用随机采样器进行数据加载
sampler = RandomSampler(dataset)
dataloader = DataLoader(dataset, sampler=sampler, batch_size=2)

for batch in dataloader:
    print(batch)

2. SubsetRandomSampler: 根据给定的索引列表随机选择数据。通过定义索引列表，可以灵活地选择子集。

from torch.utils.data import SubsetRandomSampler, DataLoader
from torch.utils.data.dataset import TensorDataset

# 创建一个示例数据集
data = torch.Tensor([[1, 2, 3, 4],
                     [5, 6, 7, 8],
                     [9, 10, 11, 12],
                     [13, 14, 15, 16]])
target = torch.Tensor([1, 2, 3, 4])

dataset = TensorDataset(data, target)

# 定义一个索引列表
indices = [0, 2]

# 使用SubsetRandomSampler进行数据加载
sampler = SubsetRandomSampler(indices)
dataloader = DataLoader(dataset, sampler=sampler, batch_size=1)

for batch in dataloader:
    print(batch)

3. WeightedRandomSampler: 根据给定的权重随机采样数据。可以用于处理不平衡数据集，通过提供样本的权重来控制采样概率。

from torch.utils.data import WeightedRandomSampler, DataLoader
from torch.utils.data.dataset import TensorDataset

# 创建一个示例数据集
data = torch.Tensor([[1, 2, 3, 4],
                     [5, 6, 7, 8],
                     [9, 10, 11, 12],
                     [13, 14, 15, 16]])
target = torch.Tensor([1, 1, 0, 0])

dataset = TensorDataset(data, target)

# 设置样本权重
weights = torch.Tensor([0.3, 0.7, 0.5, 1.0])

# 使用WeightedRandomSampler进行数据加载
sampler = WeightedRandomSampler(weights, num_samples=4, replacement=True)
dataloader = DataLoader(dataset, sampler=sampler, batch_size=1)

for batch in dataloader:
    print(batch)

以上介绍了几种常见的随机采样方法，可以根据实际需求选择合适的采样方法。在数据量较大的情况下，采样方法的选择对模型的训练效果有一定的影响。