使用pytorch_pretrained_bert.BertTokenizerfrom_pretrained()函数处理中文标题的示例代码

发布时间：2024-01-15 06:41:52

使用pytorch_pretrained_bert库中的BertTokenizer类可以对中文标题进行处理。以下是一个示例代码：

import torch
from pytorch_pretrained_bert import BertTokenizer

# 加载预训练的BertTokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')

# 要处理的中文标题
title = "今天天气怎么样？

# 对标题进行分词
tokens = tokenizer.tokenize(title)

# 打印分词结果
print(tokens)

在上面的代码中，我们首先从bert-base-chinese预训练模型中加载了一个BertTokenizer对象。接下来，我们定义一个中文标题title，然后调用tokenizer.tokenize(title)方法对标题进行分词。最后，我们打印出分词结果。

输出结果将会是一个列表，包含分词后的标题。例如，对于中文标题“今天天气怎么样？”，输出将会是['今', '天', '天', '气', '怎', '么', '样', '？']。

除了分词之外，BertTokenizer还可以进行其他的文本预处理操作，例如将文本转化为Bert的输入格式（token化、转化为索引、添加特殊符号等），具体可以参考pytorch_pretrained_bert库的文档。