实例教程：如何使用WeightedRandomSampler()函数进行样本采样

发布时间：2023-12-29 11:04:54

WeightedRandomSampler()函数是PyTorch库中的一个采样器类，用于从数据集中按照权重进行样本采样。在机器学习和深度学习任务中，我们通常会遇到数据不平衡的情况，即不同类别的样本数量差异较大。为了解决这个问题，可以使用WeightedRandomSampler()函数来调整样本的采样概率，使得每个类别的样本都能够被充分采样到。

在使用WeightedRandomSampler()函数之前，首先需要对数据集中的每个样本指定一个权重。权重可以根据数据集的特点和需求来指定，例如可以根据每个样本的类别来设定权重，或者根据样本的重要性来设定权重。

下面以一个二分类任务为例，介绍如何使用WeightedRandomSampler()函数进行样本采样。

假设我们有一个包含1000个样本的数据集，其中正样本有800个，负样本有200个。由于正样本的数量远远多于负样本，所以需要进行样本采样来保证正负样本的平衡。

首先，我们需要计算每个样本的权重。在本例中，我们可以使用正负样本的比例来作为权重。正样本的权重为1（相对于总样本数量800来说），负样本的权重为4（相对于总样本数量200来说）。

import torch
from torch.utils.data import Dataset, DataLoader, WeightedRandomSampler

# 定义数据集类
class CustomDataset(Dataset):
    def __init__(self):
        # 初始化数据集
        self.data = [(torch.randn(3), 1) for _ in range(800)] + [(torch.randn(3), 0) for _ in range(200)]
        
    def __len__(self):
        # 返回数据集大小
        return len(self.data)
    
    def __getitem__(self, idx):
        # 返回指定索引的数据样本
        x, y = self.data[idx]
        return x, y

# 创建数据集对象
dataset = CustomDataset()

# 计算每个样本的权重
weights = [1 if label == 1 else 4 for _, label in dataset]

# 创建采样器对象
sampler = WeightedRandomSampler(weights, len(dataset))

# 创建数据加载器对象
dataloader = DataLoader(dataset, batch_size=32, sampler=sampler)

上述代码中，我们首先定义了一个名为CustomDataset的自定义数据集类，其中__init__方法初始化了一个包含800个正样本和200个负样本的数据集。__getitem__方法返回指定索引的数据样本。然后，我们计算了每个样本的权重，正样本的权重为1，负样本的权重为4。

接下来，我们使用WeightedRandomSampler函数创建了一个采样器对象sampler，并传入样本的权重和数据集的大小。最后，我们创建了一个数据加载器对象dataloader，并指定了批量大小为32和采样器为sampler。

通过上述步骤，我们成功地使用WeightedRandomSampler函数对样本进行了采样，保证了正负样本的平衡。

总结来说，使用WeightedRandomSampler函数可以有效地解决数据不平衡问题，通过调整样本的采样概率来保证每个类别的样本都能够被充分采样到。使用该函数只需计算每个样本的权重，并将权重传入WeightedRandomSampler函数即可。