欢迎访问宙启技术站
智能推送

Python中使用from_pretrained()函数从预训练模型中加载词表

发布时间:2024-01-03 19:44:57

在PyTorch中,可以使用from_pretrained()函数从预训练模型中加载词表。这个函数通常用于加载预训练的词向量模型,如GloVe或Word2Vec。

下面是一个使用from_pretrained()函数加载GloVe词向量模型的例子:

from torchtext.vocab import GloVe

# 加载预训练的GloVe词向量模型
glove = GloVe(name='6B', dim=100)

# 获取词表的大小
vocab_size = len(glove.stoi)

# 获取单词"hello"的词向量
hello_vector = glove['hello']

# 输出词向量的维度
print(hello_vector.size())

# 打印"hello"这个单词的词向量
print(hello_vector)

在上述示例中,GloVe(name='6B', dim=100)表示加载GloVe模型的名称为'6B',向量维度为100。可以使用其他名称和维度的GloVe模型,具体可以在torchtext官方文档中查看。

glove.stoi返回预训练模型中的单词-索引映射,len(glove.stoi)获取了词表的大小。

glove['hello']返回了单词'hello'的词向量。

hello_vector.size()打印了词向量的维度。

print(hello_vector)打印了'hello'这个单词的词向量。

除了GloVe模型,还可以使用from_pretrained()函数加载其他预训练模型,如fasttextword2vec等。

需要注意的是,加载预训练的词向量模型需要下载对应的预训练模型文件。在首次运行时,PyTorch会自动下载相应的文件,并将其缓存到本地。