使用WeightedRandomSampler()实现数据集的平衡采样方法

发布时间：2023-12-29 11:07:24

在处理不平衡数据集时，一种常见的方法是使用加权随机采样（Weighted Random Sampler）。加权随机采样允许我们在训练过程中以更平衡的方式选择样本，以便每个类别都能被充分学习。

PyTorch中的torch.utils.data模块提供了WeightedRandomSampler类，可用于创建自定义的加权随机采样器。使用WeightedRandomSampler的一般步骤如下：

Step 1: 计算每个类别的样本权重

首先，需要计算每个类别的样本权重。样本权重可以根据类别不平衡程度来赋值。例如，对于一个有10个正样本和90个负样本的二分类任务，可以将正样本的权重设为9，负样本的权重设为1。

Step 2: 创建数据集并加载权重

接下来，使用torchvision.datasets或自定义数据集创建数据集对象，并为每个样本加载其对应的权重。数据集对象中的每个样本应该是一个元组，包含数据和目标标签。可以使用DataLoader加载数据集。

Step 3: 创建加权随机采样器

使用WeightedRandomSampler类创建加权随机采样器。WeightedRandomSampler接受一个权重列表，并根据权重来进行采样。

Step 4: 创建数据加载器

最后，使用数据加载器将数据集和加权随机采样器结合起来。数据加载器将自动使用加权随机采样器进行训练。

下面是一个使用WeightedRandomSampler进行加权随机采样的示例代码：

import torch
from torch.utils.data import DataLoader, WeightedRandomSampler
from torchvision.datasets import MNIST

# Step 1: 计算样本权重
# 假设有一个二分类任务，有10个正样本和90个负样本
# 正样本的权重设为9，负样本的权重设为1

weights = [9, 1]  # 样本权重列表

# Step 2: 创建数据集并加载权重

# 创建MNIST数据集，并设置样本权重
train_dataset = MNIST('path_to_data', train=True, download=True)

# 将样本权重加载到数据集中
train_dataset.weights = [weights[label] for label in train_dataset.targets]

# Step 3: 创建加权随机采样器

# 创建加权随机采样器
sampler = WeightedRandomSampler(weights=train_dataset.weights,
                                num_samples=len(train_dataset),
                                replacement=True)

# Step 4: 创建数据加载器

# 创建数据加载器，将数据集和加权随机采样器结合起来
train_loader = DataLoader(train_dataset, batch_size=32, sampler=sampler)

# 循环迭代数据加载器
for data, target in train_loader:
    # 进行训练或其他操作
    pass

在上面的示例中，我们首先计算了每个样本的权重，然后将权重加载到数据集中。然后，我们使用WeightedRandomSampler创建了一个加权随机采样器。最后，我们使用创建的数据加载器迭代训练数据。

使用WeightedRandomSampler进行数据集的平衡采样可以有效地解决类别不平衡问题，从而提高模型在少数类别上的表现。这在处理诸如肿瘤检测、欺诈检测等具有严重不平衡数据的任务中尤为重要。