欢迎访问宙启技术站
智能推送

用Python编写的中文分词工具有哪些

发布时间:2023-12-31 21:21:11

中文分词是自然语言处理领域中的一个重要步骤,有助于将中文文本划分为具有语义完整性的词语。以下是一些常用的Python中文分词工具及其使用示例:

1. jieba

- 安装:pip install jieba

- 示例代码:

   import jieba
   
   # 分词
   text = "我爱自然语言处理"
   words = jieba.cut(text)
   print(list(words))  # 输出: ['我', '爱', '自然', '语言', '处理']
   
   # 添加自定义词典
   jieba.add_word("自然语言处理")
   words = jieba.cut(text)
   print(list(words))  # 输出: ['我', '爱', '自然语言处理']
   
   # 关键词提取
   text = "文本内容..."
   keywords = jieba.analyse.extract_tags(text, topK=5)
   print(keywords)
   

2. pkuseg

- 安装:pip install pkuseg-python

- 示例代码:

   import pkuseg
   
   # 分词
   text = "我爱自然语言处理"
   seg = pkuseg.pkuseg()
   words = seg.cut(text)
   print(words)  # 输出: ['我', '爱', '自然', '语言', '处理']
   
   # 分词并进行词性标注
   text = "我爱自然语言处理"
   seg = pkuseg.pkuseg(postag=True)
   words, pos = seg.cut(text)
   print(words)  # 输出: ['我', '爱', '自然', '语言', '处理']
   print(pos)  # 输出: ['r', 'v', 'n', 'n', 'v']
   

3. SnowNLP

- 安装:pip install snownlp

- 示例代码:

   from snownlp import SnowNLP

   # 分词
   text = "我爱自然语言处理"
   s = SnowNLP(text)
   words = s.words
   print(words)  # 输出: ['我', '爱', '自然', '语言', '处理']
   
   # 情感分析
   text = "这个电影非常好看"
   s = SnowNLP(text)
   sentiment = s.sentiments
   print(sentiment)  # 输出: 0.9259874557829871
   

4. THULAC

- 安装:pip install thulac

- 示例代码:

   import thulac
   
   # 分词
   text = "我爱自然语言处理"
   thu = thulac.thulac(seg_only=True)
   words = thu.cut(text, text=True).split()
   print(words)  # 输出: ['我', '爱', '自然', '语言', '处理']
   
   # 分词并进行词性标注
   text = "我爱自然语言处理"
   thu = thulac.thulac()
   result = thu.cut(text)
   for word, pos in result:
       print(word, pos)
   

这些都是Python中常用的中文分词工具,根据自己的需求选择适合的工具进行使用。