在Python中使用pytorch_pretrained_bert.BertTokenizerfrom_pretrained()生成中文标题
发布时间:2023-12-16 07:41:59
在Python中,我们可以使用pytorch_pretrained_bert库中的BertTokenizerfrom_pretrained函数来生成中文标题。下面是一个带有例子的代码:
import torch
from pytorch_pretrained_bert import BertTokenizer
# 加载预训练的BertTokenizer模型
tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')
# 原始文本
text = "这是一个例子"
# 使用tokenizer对文本进行分词
tokens = tokenizer.tokenize(text)
# 将分词结果转换为词索引
token_ids = tokenizer.convert_tokens_to_ids(tokens)
# 打印分词结果和词索引
print("分词结果:", tokens)
print("词索引:", token_ids)
输出结果类似于:
分词结果: ['这', '是', '一个', '例', '子'] 词索引: [6821, 3221, 671, 4944, 4517]
在上面的代码中,我们首先加载了预训练的BertTokenizer模型,然后使用tokenizer.tokenize函数对给定的文本进行分词处理。然后,我们使用tokenizer.convert_tokens_to_ids将分词结果转换为词索引。最后,我们打印了分词结果和词索引。
请注意,你需要使用pip安装pytorch_pretrained_bert库,并确保已经下载了预训练的BertTokenizer模型。
