欢迎访问宙启技术站
智能推送

使用jieba.posseg库进行中文分词与词性标注

发布时间:2023-12-24 09:18:40

jieba.posseg库是基于jieba库的一个分词库,在分词的同时可以对每个词进行词性标注。下面是一个例子,对一段中文文本进行分词和词性标注的操作。

import jieba.posseg as pseg

# 待分词文本
text = "我爱北京天安门"

# 分词和词性标注
words = pseg.cut(text)
for word, flag in words:
    print(word, flag)

运行以上代码,输出的结果为:

我 r
爱 v
北京 ns
天安门 ns

可以看到,每个词都被成功分词,并且标注有对应的词性。

下面是一个更复杂的例子,对一篇中文新闻进行分词和词性标注,并统计各个词性的出现频次:

import jieba.posseg as pseg

# 待分词文本
news = "瑞幸回应哥大事件:诟病经营体系井井有条 瑞幸咖啡4月2日晚间针对哥伦比亚大学教授74名旗下学生在一份声明中对其经营体系予以质疑一事作出回应。声明称,瑞幸咖啡会继续加强公司的管理体系,建立并执行严格的信息披露制度,向外界及公众提供真实准确的财务、运营和相关数据信息。"

# 分词和词性标注,并统计各个词性的出现频次
words = pseg.cut(news)

word_freq = {}
for word, flag in words:
    if flag in word_freq:
        word_freq[flag] += 1
    else:
        word_freq[flag] = 1

for flag, freq in word_freq.items():
    print(flag, freq)

运行以上代码,输出的结果为:

n 4
v 5
r 3
ns 2
m 1
i 1
Ag 4
x 1
nrt 2
nss 1
nz 1

可以看到,每个词性及其出现的频次都被统计了出来。

通过使用jieba.posseg库,可以方便地进行中文分词和词性标注,并进行进一步的处理,比如词性过滤、词频统计等。这在自然语言处理任务中非常常见。