Python中的WeightedRandomSampler()函数使用教程

发布时间：2023-12-29 11:03:02

WeightedRandomSampler()函数是PyTorch库中的一个采样器，用于对数据集进行加权随机采样。在实际应用中，我们可能会遇到一些数据集不平衡的情况，即某些类别的样本数量较少，或者某些样本的重要性不同。为了使训练过程更加平衡和有效，可以使用WeightedRandomSampler()函数进行加权随机采样，提高样本数据在训练中的使用频率。

WeightedRandomSampler(weights, num_samples, replacement=True)接受三个参数：

1. weights：一个指定每个样本的权重的列表，权重越大，样本被选中的概率就越高。

2. num_samples：指定采样的总样本数。

3. replacement：一个布尔值，指定是否允许有放回地采样，即是否允许同一个样本在采样过程中被采集多次。默认值为True，表示允许有放回地采样。

下面是一个使用WeightedRandomSampler()函数的简单示例，假设有一个数据集包含三个类别，其样本数量分别为100, 200和300，并且我们希望对数据集进行加权随机采样，使得每个类别的样本被选中的概率分别为0.2, 0.3和0.5。

import torch
from torch.utils.data import WeightedRandomSampler

# 假设三个类别的样本数量分别为100, 200和300
# 样本总数为600
class_samples = [100, 200, 300]

# 计算每个类别的权重
weights = [0.2, 0.3, 0.5]

# 创建WeightedRandomSampler采样器
sampler = WeightedRandomSampler(weights, num_samples=600, replacement=True)

# 创建一个随机数据集，用于演示采样结果
dataset = torch.randn(600, 10)

# 使用采样器对数据集进行加权随机采样
dataloader = torch.utils.data.DataLoader(dataset, batch_size=4, sampler=sampler)

# 遍历采样结果
for data in dataloader:
    print(data)

在这个例子中，我们首先通过计算每个类别的权重，得到了一个权重列表weights。然后使用weights列表创建了一个WeightedRandomSampler采样器。该采样器会根据权重来决定每个样本被选中的概率。最后，我们创建了一个随机数据集dataset，并使用dataloader对数据集进行加权随机采样。

在遍历采样结果时，我们可以看到每个批次数据中不同类别样本的数量比例接近我们设定的权重比例。通过使用WeightedRandomSampler()函数，我们可以更加精确地控制样本的数据分布，提高训练的效果和稳定性。