菜鸟如何使用hanlp做分词的过程记录

发布时间：2023-05-17 23:38:50

作为一个菜鸟，要想学习使用HanLP进行分词，首先需要了解HanLP是什么。HanLP是一个开源的中文自然语言处理工具包，它支持中文分词、词性标注、命名实体识别等多种文本处理功能。下面就是一个菜鸟使用HanLP进行分词的过程记录。

一、安装HanLP

安装HanLP最简便的方法是使用pip命令。打开终端或命令行，输入以下命令即可：

pip install pyhanlp

等待安装完成后，即可使用HanLP。

二、使用HanLP

1.导入HanLP

使用HanLP需要先进行导入。在Python中导入HanLP的方法如下：

from pyhanlp import *

2.分词

导入HanLP后，就可以对中文文本进行分词了。假设要对一个字符串进行分词，可以使用HanLP中的分词器完成。以下是一个简单的分词示例：

text = "我爱北京天安门"

segment = HanLP.newSegment().enablePlaceRecognize(True)

print(segment.seg(text))

代码中，定义了一个字符串text，然后创建了一个新的分词器segment。然后使用enablePlaceRecognize(True)开启地名识别功能。最后使用segment.seg(text)进行分词，并将结果打印输出。

3.获取分词结果

在分词完成后，可以使用segment.seg(text)方法获取分词结果。该方法返回的是一个列表，列表中的每个元素代表一个分词结果。以下是一个获取分词结果的示例：

text = "我爱北京天安门"

segment = HanLP.newSegment().enablePlaceRecognize(True)

result = segment.seg(text)

for i in result:

print(i.word)

代码中，定义了一个字符串text，创建了一个新的分词器segment，并开启了地名识别功能。获取分词结果后，使用for循环遍历结果的每个元素，并使用i.word获取每个分词结果的内容。

4.更多分词选项

除了上述指定地名识别功能之外，HanLP还支持许多其他的分词选项。以下是几种常用的选项：

* 开启用户词典

可以通过以下代码开启用户词典：

CustomDictionary.insert("北京大学", "university 1024")

这个代码的作用是在分词器中添加一个自定义词条“北京大学”。这个词条将会被分词器优先匹配到。此处“university”和“1024”为自定义词条的词性和频率。可以根据需要进行修改。

* 开启命名实体识别

可以通过以下代码开启命名实体识别功能：

segment.enableNameRecognize(True)

这个代码的作用是开启命名实体识别功能。在分词过程中，分词器会为人名、地名、机构名等命名实体打上标记。

* 设置分词算法

HanLP提供了多种分词算法，可以根据需要进行设置。以下是几种常用的分词算法：

- HMM分词（默认算法）

segment = HanLP.newSegment().enableCustomDictionary(False).enablePlaceRecognize(True)

- n最短路径分词

segment = HanLP.newSegment('viterbi')

- CRF分词

segment = HanLP.newSegment('crf')

以上是菜鸟使用HanLP进行分词的过程记录。HanLP提供了很多的分词选项，可以根据需要进行配置。在实际应用中，需要根据文本的不同特点进行不同的选项配置，以达到最优的分词效果。