欢迎访问宙启技术站
智能推送

使用nltk.util生成中文文本的n-grams

发布时间:2023-12-25 10:46:05

import nltk

# 定义一个中文文本

text = "我喜欢吃苹果,它很甜很好吃。"

# 使用nltk.util生成中文文本的n-grams

n = 2  # 设定n-grams的长度为2

ngrams = list(nltk.ngrams(text, n))

# 打印生成的n-grams

print(ngrams)

# 输出结果为:

# [('我', '喜'), ('喜', '欢'), ('欢', '吃'), ('吃', '苹'), ('苹', '果'), ('果', ','), (',', '它'),

#  ('它', '很'), ('很', '甜'), ('甜', '很'), ('很', '好'), ('好', '吃'), ('吃', '。')]

# 可以看到,生成的n-grams是以元组的形式存储的,每个元组包含了连续的两个字符。