Python实现的ToSentences()函数:将中文文本转换为句子序列的高效方式
发布时间:2023-12-17 11:19:11
在Python中,可以通过使用正则表达式来实现ToSentences()函数,将中文文本转换为句子序列。下面是一个实现的示例代码:
import re
def ToSentences(text):
sentences = re.split('[。?!;]', text.replace('
',''))
sentences = [s.strip() for s in sentences if s.strip()]
return sentences
# 使用例子
text = """
某些短句也可以构成一个完整的句子;例如,请给我一杯水。
但是,有些长句可能包含多个完整的句子。
换行符也可以在这里。
"""
sentences = ToSentences(text)
for sentence in sentences:
print(sentence)
以上代码中的ToSentences()函数首先使用正则表达式'[。?!;]'将文本按照句号、问号、感叹号和分号分隔成句子序列。接着去除每个句子前后的空格,并排除空句子。最后返回句子序列。
使用例子中的文本包含了各种情况,包括短句、多个完整句子在一个长句中,以及换行符。运行输出结果为:
某些短句也可以构成一个完整的句子 例如,请给我一杯水 但是,有些长句可能包含多个完整的句子 换行符也可以在这里
这是将中文文本转换为句子序列的一个高效方式,可以快速而准确地分割中文句子。
