使用jieba.posseg库进行中文分词与词性标注
发布时间:2023-12-24 09:18:40
jieba.posseg库是基于jieba库的一个分词库,在分词的同时可以对每个词进行词性标注。下面是一个例子,对一段中文文本进行分词和词性标注的操作。
import jieba.posseg as pseg
# 待分词文本
text = "我爱北京天安门"
# 分词和词性标注
words = pseg.cut(text)
for word, flag in words:
print(word, flag)
运行以上代码,输出的结果为:
我 r 爱 v 北京 ns 天安门 ns
可以看到,每个词都被成功分词,并且标注有对应的词性。
下面是一个更复杂的例子,对一篇中文新闻进行分词和词性标注,并统计各个词性的出现频次:
import jieba.posseg as pseg
# 待分词文本
news = "瑞幸回应哥大事件:诟病经营体系井井有条 瑞幸咖啡4月2日晚间针对哥伦比亚大学教授74名旗下学生在一份声明中对其经营体系予以质疑一事作出回应。声明称,瑞幸咖啡会继续加强公司的管理体系,建立并执行严格的信息披露制度,向外界及公众提供真实准确的财务、运营和相关数据信息。"
# 分词和词性标注,并统计各个词性的出现频次
words = pseg.cut(news)
word_freq = {}
for word, flag in words:
if flag in word_freq:
word_freq[flag] += 1
else:
word_freq[flag] = 1
for flag, freq in word_freq.items():
print(flag, freq)
运行以上代码,输出的结果为:
n 4 v 5 r 3 ns 2 m 1 i 1 Ag 4 x 1 nrt 2 nss 1 nz 1
可以看到,每个词性及其出现的频次都被统计了出来。
通过使用jieba.posseg库,可以方便地进行中文分词和词性标注,并进行进一步的处理,比如词性过滤、词频统计等。这在自然语言处理任务中非常常见。
