欢迎访问宙启技术站
智能推送

Python实现的ToSentences()函数:将中文文本转换为句子序列的高效方式

发布时间:2023-12-17 11:19:11

在Python中,可以通过使用正则表达式来实现ToSentences()函数,将中文文本转换为句子序列。下面是一个实现的示例代码:

import re

def ToSentences(text):
    sentences = re.split('[。?!;]', text.replace('
',''))
    sentences = [s.strip() for s in sentences if s.strip()]
    return sentences

# 使用例子
text = """
某些短句也可以构成一个完整的句子;例如,请给我一杯水。
但是,有些长句可能包含多个完整的句子。
换行符也可以在这里。
"""

sentences = ToSentences(text)
for sentence in sentences:
    print(sentence)

以上代码中的ToSentences()函数首先使用正则表达式'[。?!;]'将文本按照句号、问号、感叹号和分号分隔成句子序列。接着去除每个句子前后的空格,并排除空句子。最后返回句子序列。

使用例子中的文本包含了各种情况,包括短句、多个完整句子在一个长句中,以及换行符。运行输出结果为:

某些短句也可以构成一个完整的句子
例如,请给我一杯水
但是,有些长句可能包含多个完整的句子
换行符也可以在这里

这是将中文文本转换为句子序列的一个高效方式,可以快速而准确地分割中文句子。