了解Python中的SubsetRandomSampler()函数及其用法

发布时间：2024-01-11 23:03:22

SubsetRandomSampler()函数是Python中torch.utils.data模块中的一个函数，通常用于创建一个用于数据集划分的采样器。采样器用于从数据集中随机选择一个子集，并返回该子集的索引。这在机器学习中经常用于训练集、验证集和测试集的划分。

该函数的用法如下：

torch.utils.data.SubsetRandomSampler(indices)

参数indices是一个列表，其中包含了数据集中所有样本的索引。函数会从这个列表中随机选择一个子集，并返回该子集的索引。

下面是一个使用SubsetRandomSampler()函数的例子：

import torch
from torch.utils.data import Dataset, DataLoader
from torch.utils.data.sampler import SubsetRandomSampler

# 创建一个自定义的数据集
class MyDataset(Dataset):
    def __init__(self):
        self.data = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
    
    def __getitem__(self, index):
        return self.data[index]
    
    def __len__(self):
        return len(self.data)

# 创建数据集实例
dataset = MyDataset()

# 创建采样器，将数据集划分为训练集和验证集
train_indices = [0, 1, 2, 3, 4]
valid_indices = [5, 6, 7, 8, 9]
train_sampler = SubsetRandomSampler(train_indices)
valid_sampler = SubsetRandomSampler(valid_indices)

# 创建数据加载器
train_loader = DataLoader(dataset, batch_size=2, sampler=train_sampler)
valid_loader = DataLoader(dataset, batch_size=2, sampler=valid_sampler)

# 进行训练和验证
for batch in train_loader:
    print("Training batch:", batch)

for batch in valid_loader:
    print("Validation batch:", batch)

在这个例子中，首先我们创建了一个自定义的数据集类MyDataset，其中定义了数据集中的样本及其长度。

然后我们将数据集划分为训练集和验证集，其中训练集的索引为[0, 1, 2, 3, 4]，验证集的索引为[5, 6, 7, 8, 9]。

接下来我们通过SubsetRandomSampler函数创建了对应的采样器train_sampler和valid_sampler。

最后我们使用DataLoader来创建训练集加载器train_loader和验证集加载器valid_loader，并通过遍历加载器来获取数据。

需要注意的是，采样器SubsetRandomSampler()函数是在每个epoch中都会重新生成一个随机的子集，而不是每个iteration都重新生成。这样可以确保每个epoch中都使用了不同的子集，增加了模型的泛化能力。

综上所述，SubsetRandomSampler()函数是Python中用于数据集划分的采样器函数，通过随机选择数据集的子集，帮助我们实现训练集、验证集和测试集的划分。