word_tokenize()函数来进行单词分割
发布时间:2023-07-01 20:04:48
word_tokenize()函数是Natural Language Toolkit(NLTK)库中用于将文本分割成单词的函数之一。以下是一个示例,展示如何使用word_tokenize()函数对一个文本进行单词分割:
from nltk.tokenize import word_tokenize text = "NLTK is a powerful Python library for natural language processing." tokens = word_tokenize(text) print(tokens)
执行上述代码,将输出以下结果:
['NLTK', 'is', 'a', 'powerful', 'Python', 'library', 'for', 'natural', 'language', 'processing', '.']
在上述代码中,首先导入了word_tokenize()函数,然后定义了一个文本变量。接下来,使用word_tokenize()函数对文本进行单词分割,并将结果存储在tokens变量中。最后,输出tokens变量的结果,即分割后的单词列表。
请注意,为了使用word_tokenize()函数,需要先安装NLTK库并通过nltk.download('punkt')下载必要的数据。
