使用pytorch_pretrained_bert.BertTokenizerfrom_pretrained()函数处理中文标题的方法
发布时间:2024-01-15 06:40:11
使用pytorch_pretrained_bert.BertTokenizer.from_pretrained()函数可以将中文标题进行分词和编码处理。具体方法如下:
1. 导入所需的库:
from pytorch_pretrained_bert import BertTokenizer
2. 使用BertTokenizer.from_pretrained()函数加载预训练的中文分词器:
tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')
这里使用的是"bert-base-chinese"预训练模型,可以根据需要选择其他模型。
3. 对中文标题进行分词和编码处理:
title = "今天天气真好,适合出门游玩" tokens = tokenizer.tokenize(title) input_ids = tokenizer.convert_tokens_to_ids(tokens)
- tokenize()函数将输入的中文标题分成一个个token。例如以上例子,分词结果为:['今天', '天气', '真好', ',', '适合', '出门', '游', '玩']
- convert_tokens_to_ids()函数将分词后的token转化成对应的编号。例如以上例子,转化为:[791, 3698, 2496, 8024, 1469, 6629, 752, 738]
最终得到的input_ids就是对中文标题进行编码后的结果。
以下是一个完整的使用例子:
from pytorch_pretrained_bert import BertTokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')
title = "今天天气真好,适合出门游玩"
tokens = tokenizer.tokenize(title)
input_ids = tokenizer.convert_tokens_to_ids(tokens)
print("分词结果:", tokens)
print("编码结果:", input_ids)
输出结果为:
分词结果: ['今天', '天气', '真好', ',', '适合', '出门', '游', '玩'] 编码结果: [791, 3698, 2496, 8024, 1469, 6629, 752, 738]
通过以上的使用例子,可以看到BertTokenizer.from_pretrained()函数可以很方便地对中文标题进行分词和编码处理。
