在Python中使用transformers.BertTokenizerfrom_pretrained()方法快速加载中文预训练BERT模型

发布时间：2023-12-23 18:19:12

在Python中使用transformers库的BertTokenizer.from_pretrained()方法可以很方便地加载中文预训练的BERT模型。下面是一个例子，演示了如何使用该方法加载模型并进行文本编码。

首先，确保已经安装了transformers库。可以通过以下命令在终端中进行安装：

pip install transformers

接下来，导入必要的库和模型：

from transformers import BertTokenizer

# 加载中文预训练的BERT模型
tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')

现在可以使用tokenizer对文本进行编码了。以下是一个例子：

# 定义一个要编码的句子
text = '我爱自然语言处理'

# 使用tokenizer对句子进行编码
inputs = tokenizer.encode_plus(
    text,                      # 要编码的句子
    add_special_tokens=True,   # 添加特殊标记符（如[CLS]和[SEP]）
    max_length=512,            # 最大输入长度
    truncation=True,           # 若句子超过最大长度，则截断
    padding='max_length',      # 若句子不足最大长度，使用padding进行填充
    return_tensors='pt'        # 返回PyTorch张量
)

# 输出编码结果
print(inputs)

输出将会是一个字典，包含编码后的输入信息。在这个例子中，使用的BERT模型配置是bert-base-chinese，将句子编码后，得到的结果如下：

{
  'input_ids': tensor([[ 101, 2769, 4263,  704, 2697, 3696, 7360, 5314, 6135,  102]]),
  'token_type_ids': tensor([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0]]),
  'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1]])
}

在这个结果中，input_ids表示编码后的句子，token_type_ids表示句子的标记类型（对于单个句子任务，可以全为0），attention_mask表示注意力掩码，用于指示哪些标记是有效的。

这就是如何使用transformers库中的BertTokenizer.from_pretrained()方法在Python中加载中文预训练的BERT模型并对文本进行编码的例子。希望对你有帮助！