使用pytorch_pretrained_bert.BertTokenizerfrom_pretrained()函数在Python中生成中文标题的示例
发布时间:2023-12-16 07:42:30
使用pytorch_pretrained_bert.BertTokenizer.from_pretrained()函数可以从预训练的BERT模型中加载预训练好的tokenizer。
下面是一个生成中文标题的示例:
from pytorch_pretrained_bert import BertTokenizer
# 加载中文BERT的tokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')
# 中文标题示例
title = "你好,世界!"
# 对标题进行分词
tokens = tokenizer.tokenize(title)
# 输出分词结果
print(tokens)
这段代码中,首先通过BertTokenizer.from_pretrained()函数加载了预训练的BERT tokenizer。在这个例子中,我们使用了中文BERT模型,它的名称是bert-base-chinese。你可以根据实际情况选择其他的预训练的BERT模型,比如英文的bert-base-uncased。
接下来,我们定义了一个中文标题,即变量title,这个标题是"你好,世界!"。
然后,通过tokenizer.tokenize()函数对标题进行分词。这个函数会将标题切分成一个个的词语,并返回一个词语列表。在这个例子中,我们将"你好,世界!"分词成了["你", "好", ",", "世", "界", "!"]。你可以根据实际情况选择是否将标点符号作为一个独立的词语。
最后,我们打印了分词结果,即["你", "好", ",", "世", "界", "!"]。
希望这个例子能帮助到你!
