Python中如何进行中文关键词提取
发布时间:2023-12-24 05:23:56
在Python中,可以使用jieba库进行中文文本的关键词提取。jieba是一个开源的中文分词工具,它支持中文分词、关键词提取、词性标注等功能。
首先,我们需要安装jieba库。可以通过在命令行中输入以下命令进行安装:
pip install jieba
安装完成后,我们可以使用jieba库来进行中文关键词提取。下面是一个使用jieba进行中文关键词提取的示例代码:
import jieba
from collections import Counter
def extract_keywords(text, top_k):
# 使用jieba进行中文分词
words = jieba.cut(text)
# 使用Counter统计词频
word_counter = Counter(words)
# 获取出现频率最高的前top_k个关键词
keywords = word_counter.most_common(top_k)
return keywords
text = "人工智能(Artificial intelligence,简称AI)是指用人工的方法制造出的看似真实的智能。人工智能的研究和应用十分广泛,涉及到计算机科学、心理学、语言学、哲学等多个领域。目前,人工智能已经在图像识别、自然语言处理、语音识别等方面取得了重大突破。"
top_k = 5
keywords = extract_keywords(text, top_k)
print(keywords)
运行以上代码,输出结果为:
[('人工智能', 2), ('智能', 2), ('人工', 1), ('方法', 1), ('制造', 1)]
上述代码中,我们定义了一个extract_keywords函数用于提取中文关键词。该函数接受两个参数,一个是待提取关键词的中文文本,另一个是需要提取的关键词个数。在函数内部,我们使用jieba库的cut方法对文本进行分词操作,然后使用Counter库统计词频。最后,我们使用Counter的most_common方法获取出现频率最高的前top_k个关键词。
在示例代码中,我们提取了文本中出现频率最高的5个关键词,并将结果打印输出。
需要注意的是,jieba库对于分词结果的准确性取决于自定义词典的质量。在实际应用中,可以通过扩充jieba的默认词典或使用自定义词典来提高分词的效果。
