使用Python编写的ToSentences()函数:将中文文本转换为句子列表
发布时间:2023-12-17 11:18:23
以下是一个使用Python编写的ToSentences()函数的示例:
import re
def ToSentences(text):
# 替换一些特殊字符,以便正确分割句子
text = re.sub(r'([。!?;])', r'\1
', text)
# 使用换行符分割文本为句子列表
sentences = text.split('
')
# 去除空白句子
sentences = [sentence.strip() for sentence in sentences if sentence.strip() != '']
return sentences
# 测试例子
text = '这是 句。这是第二句!这是第三句?这是第四句;这是第五句。'
sentences = ToSentences(text)
for sentence in sentences:
print(sentence)
输出结果为:
这是 句。 这是第二句! 这是第三句? 这是第四句; 这是第五句。
这个函数的主要步骤是:
1. 使用正则表达式将句子分隔符(句号、感叹号、问号、分号)替换为带有换行符的版本,以便正确分割句子。
2. 使用换行符将文本分割为句子列表。
3. 去除空白句子,避免出现由于多个分隔符导致的空行。
这个函数主要适用于中文文本,可以将文本准确地分割为句子列表。你可以将任何长度的中文文本作为输入,函数将返回对应的句子列表。
