欢迎访问宙启技术站
智能推送

利用Python编写的ToSentences()函数将中文文本切割为句子的实用方法

发布时间:2023-12-17 11:20:02

下面是一个使用Python编写的ToSentences()函数的实用方法和使用例子:

import re

def ToSentences(text):
    # 将中文文本切割为句子的函数
    # 使用正则表达式匹配句子的分隔符
    pattern = r'[\u4e00-\u9fa5]+[,。!?]'
    sentences = re.findall(pattern, text)
    return sentences

# 使用例子
text = '大家好,我叫小明。很高兴认识大家!你们在干什么呢?'
sentences = ToSentences(text)
for sentence in sentences:
    print(sentence)

在上面的代码中,使用了正则表达式和re.findall()函数来匹配中文句子。正则表达式[\u4e00-\u9fa5]+[,。!?]表示匹配包含中文字符且以逗号、句号、感叹号或问号结尾的字符串。

使用ToSentences()函数可以将中文文本切割为句子。在使用例子中,我们将文本"大家好,我叫小明。很高兴认识大家!你们在干什么呢?"传递给ToSentences()函数,然后将返回的句子逐个打印出来。

输出结果为:

大家好,
我叫小明。
很高兴认识大家!
你们在干什么呢?

这样就成功将中文文本切割为句子了。你可以根据需要将这些句子存储到列表或做其他处理。