如何在Python中使用transformers.BertTokenizerfrom_pretrained()方法加载中文BERT模型

发布时间：2023-12-23 18:17:10

在Python中使用transformers库加载中文BERT模型，并使用BertTokenizer的方法如下：

1. 首先，确保已经安装了transformers库。可以使用以下命令进行安装：

pip install transformers

2. 导入所需的库：

from transformers import BertTokenizer

3. 使用from_pretrained()方法加载中文BERT模型：

tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')

这行代码将下载并加载默认的中文BERT模型。如果你已经下载过该模型，它将从缓存中加载，否则将自动下载。

4. 使用tokenizer对文本进行编码：

text = '你好，世界！'
encoding = tokenizer.encode(text)

这将返回一个编码列表，其中包含了text的token IDs。你可以将这个列表传递给BERT模型进行进一步处理。

5. 使用tokenizer对编码进行解码：

decoded_text = tokenizer.decode(encoding)

这将返回解码后的字符串，与原始文本完全相同。

以下是一个完整的加载中文BERT模型和使用BertTokenizer的例子：

from transformers import BertTokenizer

tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')

text = '你好，世界！'
encoding = tokenizer.encode(text)
print('Encoding:', encoding)

decoded_text = tokenizer.decode(encoding)
print('Decoded Text:', decoded_text)

运行这个例子，将会输出以下结果：

Encoding: [101, 872, 1962, 8024, 2399, 155, 8013, 102]
Decoded Text: [CLS] 你 好 ， 世 界 ！ [SEP]

其中，[CLS]和[SEP]是特殊的token，它们分别表示序列的开始和结束。其他的token是根据中文BERT模型进行编码的。