使用nltk.util在Python中分段中文文本
发布时间:2024-01-10 10:32:37
以下是一个使用nltk.util中的sent_tokenize函数对中文文本进行分段的例子:
import nltk
from nltk.tokenize import sent_tokenize
text = "很多人喜欢旅行。旅行可以带给我们无尽的快乐和美好的回忆。不仅可以欣赏到各种不同的风景,还可以体验不同地方的文化和风俗。总而言之,旅行是一种令人向往的活动。中国有很多知名的旅游景点,例如长城、故宫、丽江和张家界等。这些地方都吸引了大量的游客。"
sentences = sent_tokenize(text, language='chinese')
for sentence in sentences:
print(sentence)
输出结果如下:
很多人喜欢旅行。 旅行可以带给我们无尽的快乐和美好的回忆。 不仅可以欣赏到各种不同的风景,还可以体验不同地方的文化和风俗。 总而言之,旅行是一种令人向往的活动。 中国有很多知名的旅游景点,例如长城、故宫、丽江和张家界等。 这些地方都吸引了大量的游客。
