使用nltk.util生成中文文本的n-grams
发布时间:2023-12-25 10:46:05
import nltk
# 定义一个中文文本
text = "我喜欢吃苹果,它很甜很好吃。"
# 使用nltk.util生成中文文本的n-grams
n = 2 # 设定n-grams的长度为2
ngrams = list(nltk.ngrams(text, n))
# 打印生成的n-grams
print(ngrams)
# 输出结果为:
# [('我', '喜'), ('喜', '欢'), ('欢', '吃'), ('吃', '苹'), ('苹', '果'), ('果', ','), (',', '它'),
# ('它', '很'), ('很', '甜'), ('甜', '很'), ('很', '好'), ('好', '吃'), ('吃', '。')]
# 可以看到,生成的n-grams是以元组的形式存储的,每个元组包含了连续的两个字符。
