Python函数示例：如何提取文本中的关键字

发布时间：2023-06-11 15:24:29

Python 是一种功能强大的编程语言，具有广泛的应用。在文本处理领域，Python 的应用也非常广泛，常用于关键字提取、文本分类、情感分析、机器翻译等任务。本文将介绍如何使用 Python 提取文本中的关键字，希望对读者有所帮助。

一、什么是关键字提取

关键字提取（Keyword Extraction）是自然语言处理中的一个重要问题。给定一段文本，关键字提取旨在从中提取出能够代表文本主题、内容、特点的关键词或短语。这些关键词可以用于信息检索、文本摘要、分类等应用。

二、Python 中的关键字提取方法

Python 中有多种方法可以用于关键字提取，包括词频统计、TF-IDF、TextRank 等。以下是其中三种方法的具体实现。

1. 词频统计法

词频统计法简单直观，它认为文本中出现频率较高的词汇越可能是关键字。代码如下：

import jieba

# 读入文本
with open('text.txt', 'r', encoding='utf-8') as f:
    text = f.read()

# 分词
words = jieba.cut(text)

# 统计词频
word_count = {}
for word in words:
    if word in word_count:
        word_count[word] += 1
    else:
        word_count[word] = 1

# 排序输出
sorted_word_count = sorted(word_count.items(), key=lambda x:x[1], reverse=True)
for i in range(10):
    print(sorted_word_count[i])

上述代码中，我们首先使用 jieba 库对文本进行分词。接着，使用 Python 字典记录每个词出现的次数。最后，对词频进行排序，输出出现频率较高的前 10 个词。

2. TF-IDF 法

TF-IDF（Term Frequency-Inverse Document Frequency）是一种经典的关键字提取方法，它不仅考虑了词频，还考虑了文档频率。代码实现如下：

import jieba
from sklearn.feature_extraction.text import TfidfVectorizer

# 读入文本
with open('text.txt', 'r', encoding='utf-8') as f:
    corpus = f.readlines()

# 分词
corpus = [' '.join(jieba.lcut(sentence)) for sentence in corpus]

# 计算 TF-IDF
vectorizer = TfidfVectorizer()
tfidf = vectorizer.fit_transform(corpus)

# 输出关键字
terms = vectorizer.get_feature_names()
for i in range(10):
    idx = tfidf[0].todense().tolist()[0].index(sorted(tfidf[0].todense().tolist()[0], reverse=True)[i])
    print(terms[idx])

上述代码中，我们通过读入一个文本文件，并使用 jieba 库进行分词。接着使用 sklearn 库中的 TfidfVectorizer 类计算每个单词在所有文档中的 TF-IDF 值。最后，输出 TF-IDF 值最大的前 10 个单词。

3. TextRank 法

TextRank 是一种基于图的排序算法，它考虑到了单词之间的关系。算法思路类似于 Google 的 PageRank 算法。代码如下：

import jieba
import jieba.analyse

# 读入文本
with open('text.txt', 'r', encoding='utf-8') as f:
    text = f.read()

# 抽取关键字
keywords = jieba.analyse.textrank(text, topK=10, withWeight=True, allowPOS=('n', 'v'))

# 输出关键字
for item in keywords:
    print(item[0], item[1])

上述代码中，我们使用 jieba 库中的 textrank 方法提取文本中的关键字。其中 topK 参数表示要输出的关键字数目，withWeight 参数表示是否输出权重，allowPOS 参数表示只抽取名词和动词。最后，输出得到的关键字和权重。

三、总结

本文介绍了三种常用的 Python 关键字提取方法：词频统计法、TF-IDF 法和 TextRank 法。在实际应用中，我们可以根据具体需求选择不同的方法，以获得最优的效果。同时，我们也可以根据实际需求将文本进行预处理或加入领域专有词汇等操作，以提升关键字提取的准确性和可用性。