欢迎访问宙启技术站
智能推送

使用TreebankWordTokenizer进行中文分词的Python代码示例

发布时间:2024-01-05 20:37:25

使用TreebankWordTokenizer进行中文分词的Python代码示例如下:

import nltk
from nltk.tokenize import TreebankWordTokenizer

text = "我爱自然语言处理"

# 初始化分词器
tokenizer = TreebankWordTokenizer()

# 对文本进行分词
tokens = tokenizer.tokenize(text)

# 打印分词结果
print(tokens)

上面的代码将使用TreebankWordTokenizer对中文文本进行分词。它会将中文文本中的每个中文字符都作为一个单独的词汇进行分割。

执行上面的代码将输出以下结果:

['我', '爱', '自然', '语言', '处理']

以上例子中,输入文本是"我爱自然语言处理",分词结果是将每个中文字都作为一个单独的词汇输出。