利用torch.utils.data.sampler实现数据加载的随机和固定顺序方法

发布时间：2023-12-19 05:24:36

torch.utils.data.sampler是PyTorch中用于数据加载的一个工具类，它可以用于实现数据加载的随机和固定顺序方法。该工具类中有两个常用的类：RandomSampler和SequentialSampler。

RandomSampler可以用于随机加载数据，它会在每个epoch开始时打乱数据的顺序。可以通过设置参数replacement为True来实现重复采样和replacement为False来实现不重复采样。

SequentialSampler可以用于按照固定顺序加载数据，它会按照数据索引的顺序逐个加载数据。可以通过设置参数replacement为True来实现重复采样和replacement为False来实现不重复采样。

下面是利用torch.utils.data.sampler实现数据加载的随机和固定顺序方法的使用例子：

import torch
from torch.utils.data import Dataset, DataLoader
from torch.utils.data.sampler import RandomSampler, SequentialSampler

# 自定义数据集类
class CustomDataset(Dataset):
    def __init__(self, data):
        self.data = data

    def __getitem__(self, index):
        return self.data[index]

    def __len__(self):
        return len(self.data)

# 创建数据集
data = list(range(10))
dataset = CustomDataset(data)

# 随机加载数据
random_sampler = RandomSampler(dataset, replacement=True)
random_dataloader = DataLoader(dataset, sampler=random_sampler, batch_size=4)
for batch in random_dataloader:
    print(batch)

# 固定顺序加载数据
sequential_sampler = SequentialSampler(dataset, replacement=False)
sequential_dataloader = DataLoader(dataset, sampler=sequential_sampler, batch_size=4)
for batch in sequential_dataloader:
    print(batch)

在上述例子中，首先定义了一个自定义的数据集类CustomDataset，然后创建了一个数据集dataset。接下来，利用RandomSampler和SequentialSampler分别创建了随机采样器random_sampler和固定顺序采样器sequential_sampler。最后，通过DataLoader将数据集和采样器传入，创建了随机加载器random_dataloader和固定顺序加载器sequential_dataloader。

在随机加载器random_dataloader中，由于replacement参数设置为True，所以每个epoch开始时会对数据进行打乱，随机加载数据。

在固定顺序加载器sequential_dataloader中，由于replacement参数设置为False，所以每个epoch开始时会按照数据索引的顺序逐个加载数据。

通过以上例子，可以灵活地利用torch.utils.data.sampler实现数据加载的随机和固定顺序方法，根据实际需要选择适合的采样器进行数据加载。