使用torchtext数据API加载中文数据集

发布时间：2023-12-31 22:31:42

在以下示例中，我们将展示如何使用torchtext数据API加载中文数据集。首先，您需要安装torchtext库：

pip install torchtext

我们以电影评论情感分类数据集（CCTS) 为例。首先，创建两个文本文件：train.txt和test.txt。每个文件的每一行应该包含一个样本的文本和情感标签，用制表符分隔。例如：

这个电影太棒了！    positive
演员表演很棒。   positive
这家酒店真糟糕。   negative
我非常失望。    negative
...

然后，您可以使用以下代码加载数据集：

import torch
from torchtext.data import Field, TabularDataset, BucketIterator

# 定义Field对象
TEXT = Field(tokenize='jieba', include_lengths=True)
LABEL = Field(sequential=False, is_target=True)

# 加载数据集
train_data, test_data = TabularDataset.splits(
    path='.', train='train.txt', test='test.txt', format='tsv',
    fields=[('text', TEXT), ('label', LABEL)])

# 构建词汇表
TEXT.build_vocab(train_data, min_freq=2)
LABEL.build_vocab(train_data)

# 创建迭代器
batch_size = 32
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
train_iterator, test_iterator = BucketIterator.splits(
    (train_data, test_data), batch_size=batch_size, sort_key=lambda x: len(x.text),
    sort_within_batch=True, device=device)

在上面的代码中，我们首先定义了两个Field对象：TEXT和LABEL。TEXT对象用于处理文本数据，LABEL对象用于处理情感标签。在Field对象的构造函数中，我们可以指定一些参数来进行标记化和预处理操作。在这个例子中，我们使用jieba作为中文分词工具，并设置include_lengths=True，这样可以获取每个样本的文本长度。LABEL对象是一个二分类标签，因此sequential=False表示它不是一个序列。

接下来，我们使用TabularDataset类加载数据集。这个类可以从Tab分隔符文本文件中读取数据，并使用fields参数指定如何处理每一列的数据。

然后，我们构建词汇表（vocabulary）对象。build_vocab函数将根据训练数据集创建词汇表，并在词汇表中保留出现频率超过min_freq次的词汇。

最后，我们通过BucketIterator类创建迭代器对象。这个类可以根据样本的文本长度自动划分成批次，并将其转换为PyTorch张量。

现在，您可以使用train_iterator和test_iterator对象来遍历数据集并进行模型训练和测试了。