使用torchtext.vocabVectors()加载中文词向量表并进行词汇表扩展

发布时间：2024-01-09 09:48:57

torchtext.vocab.Vectors()是torchtext库中用来加载和处理词向量的类。它提供了一种简单的方式来加载已预训练的词向量表，并将其用于构建数据集的词汇表。

使用torchtext.vocab.Vectors()加载中文词向量表的步骤如下：

1. 导入必要的库：

import torch
from torchtext.vocab import Vectors, Vocab

2. 下载中文词向量文件（如word2vec、glove等）。以word2vec为例，可以从以下地址下载预训练的中文词向量：https://github.com/Embedding/Chinese-Word-Vectors

3. 加载词向量表使用Vectors()函数：

vector_file_path = 'path_to_pretrained_vectors_file'
vectors = Vectors(name=vector_file_path)

这里需要将'path_to_pretrained_vectors_file'替换为你下载的中文词向量文件的路径。

4. 使用vocab.Vectors()对象扩展词汇表：

vocab = Vocab(Counter(tokens), vectors=vectors, specials=['<unk>', '<pad>', '<bos>', '<eos>'])

这里的tokens是一个包含数据集中所有文本的句子的列表。可以使用Python中的Counter类来统计句子中的词频，并将其传递给Vocab类的构造函数。

vectors参数可以传递先前加载的Vectors()对象，用于将词向量加载到词汇表中。

specials参数可用于自定义在扩展词汇表时要添加的特殊标记。

最后，得到的vocab对象是一个扩展了词汇表的Vocab类的实例，可以用于构建数据集。

下面是一个完整的加载中文词向量表并进行词汇表扩展的示例：

import torch
from torchtext.vocab import Vectors, Vocab
from collections import Counter

# 加载中文词向量表
vector_file_path = 'path_to_pretrained_vectors_file'
vectors = Vectors(name=vector_file_path)

# 示例数据
tokens = [['这', '是', '一个', '示例', '句子'], ['第', '二', '个', '示例', '句子']]

# 构建词汇表
vocab = Vocab(Counter(tokens), vectors=vectors, specials=['<unk>', '<pad>', '<bos>', '<eos>'])

# 查看词汇表大小
print('词汇表大小：', len(vocab))

# 获取词汇表中词的索引
print('"<unk>"的索引：', vocab['<unk>'])
print('"<pad>"的索引：', vocab['<pad>'])
print('"<bos>"的索引：', vocab['<bos>'])
print('"<eos>"的索引：', vocab['<eos>'])
print('"示例"的索引：', vocab['示例'])

# 获取词汇表中的词向量
print('"<unk>"的词向量：', vocab.vectors[vocab['<unk>']])
print('"<pad>"的词向量：', vocab.vectors[vocab['<pad>']])
print('"<bos>"的词向量：', vocab.vectors[vocab['<bos>']])
print('"<eos>"的词向量：', vocab.vectors[vocab['<eos>']])
print('"示例"的词向量：', vocab.vectors[vocab['示例']])

这样，我们就可以使用torchtext.vocab.Vectors()加载中文词向量表，并用它对词汇表进行扩展。