用Python编写的中文分词工具有哪些
发布时间:2023-12-31 21:21:11
中文分词是自然语言处理领域中的一个重要步骤,有助于将中文文本划分为具有语义完整性的词语。以下是一些常用的Python中文分词工具及其使用示例:
1. jieba
- 安装:pip install jieba
- 示例代码:
import jieba
# 分词
text = "我爱自然语言处理"
words = jieba.cut(text)
print(list(words)) # 输出: ['我', '爱', '自然', '语言', '处理']
# 添加自定义词典
jieba.add_word("自然语言处理")
words = jieba.cut(text)
print(list(words)) # 输出: ['我', '爱', '自然语言处理']
# 关键词提取
text = "文本内容..."
keywords = jieba.analyse.extract_tags(text, topK=5)
print(keywords)
2. pkuseg
- 安装:pip install pkuseg-python
- 示例代码:
import pkuseg # 分词 text = "我爱自然语言处理" seg = pkuseg.pkuseg() words = seg.cut(text) print(words) # 输出: ['我', '爱', '自然', '语言', '处理'] # 分词并进行词性标注 text = "我爱自然语言处理" seg = pkuseg.pkuseg(postag=True) words, pos = seg.cut(text) print(words) # 输出: ['我', '爱', '自然', '语言', '处理'] print(pos) # 输出: ['r', 'v', 'n', 'n', 'v']
3. SnowNLP
- 安装:pip install snownlp
- 示例代码:
from snownlp import SnowNLP # 分词 text = "我爱自然语言处理" s = SnowNLP(text) words = s.words print(words) # 输出: ['我', '爱', '自然', '语言', '处理'] # 情感分析 text = "这个电影非常好看" s = SnowNLP(text) sentiment = s.sentiments print(sentiment) # 输出: 0.9259874557829871
4. THULAC
- 安装:pip install thulac
- 示例代码:
import thulac
# 分词
text = "我爱自然语言处理"
thu = thulac.thulac(seg_only=True)
words = thu.cut(text, text=True).split()
print(words) # 输出: ['我', '爱', '自然', '语言', '处理']
# 分词并进行词性标注
text = "我爱自然语言处理"
thu = thulac.thulac()
result = thu.cut(text)
for word, pos in result:
print(word, pos)
这些都是Python中常用的中文分词工具,根据自己的需求选择适合的工具进行使用。
