欢迎访问宙启技术站
智能推送

使用nltk.util在Python中分段中文文本

发布时间:2024-01-10 10:32:37

以下是一个使用nltk.util中的sent_tokenize函数对中文文本进行分段的例子:

import nltk
from nltk.tokenize import sent_tokenize

text = "很多人喜欢旅行。旅行可以带给我们无尽的快乐和美好的回忆。不仅可以欣赏到各种不同的风景,还可以体验不同地方的文化和风俗。总而言之,旅行是一种令人向往的活动。中国有很多知名的旅游景点,例如长城、故宫、丽江和张家界等。这些地方都吸引了大量的游客。"
sentences = sent_tokenize(text, language='chinese')

for sentence in sentences:
    print(sentence)

输出结果如下:

很多人喜欢旅行。
旅行可以带给我们无尽的快乐和美好的回忆。
不仅可以欣赏到各种不同的风景,还可以体验不同地方的文化和风俗。
总而言之,旅行是一种令人向往的活动。
中国有很多知名的旅游景点,例如长城、故宫、丽江和张家界等。
这些地方都吸引了大量的游客。