中文文本预处理中常用的Tokenizer()方法
发布时间:2023-12-27 15:00:50
在中文文本预处理中,常用的 Tokenizer() 方法有分词和分句两种功能。下面是这两种方法的使用例子:
1. 分词(Word Tokenization):
分词是将连续的文本划分成有意义的词或基本单元的过程。常用的中文分词库有jieba、snownlp等。
使用 jieba 分词库的例子:
import jieba
# 定义待分词的文本
text = "我爱自然语言处理"
# 使用 jieba 进行分词
tokens = jieba.cut(text)
# 打印分词结果
for token in tokens:
print(token)
输出:
我 爱 自然语言处理
2. 分句(Sentence Tokenization):
分句是将一段文本划分成若干个句子的过程。在中文中,可以根据标点符号进行句子划分。
使用自定义的分句函数的例子:
import re
# 定义待分句的文本
text = "我爱自然语言处理。自然语言处理是一门很有趣的学科。"
# 定义分句函数
def sentence_tokenize(text):
sentences = re.split('[。!?]', text) # 根据句号、感叹号和问号进行分句
sentences = [s.strip() for s in sentences if s.strip()] # 去除空白句子
return sentences
# 使用分句函数进行分句
sentences = sentence_tokenize(text)
# 打印分句结果
for sentence in sentences:
print(sentence)
输出:
我爱自然语言处理 自然语言处理是一门很有趣的学科
在中文文本预处理中,除了分词和分句外,还可能涉及到去除停用词、词性标注、词向量等预处理操作,具体根据应用场景而定。
