欢迎访问宙启技术站
智能推送

使用Python编写的ToSentences()函数:将中文文本转换为句子列表

发布时间:2023-12-17 11:18:23

以下是一个使用Python编写的ToSentences()函数的示例:

import re

def ToSentences(text):
    # 替换一些特殊字符,以便正确分割句子
    text = re.sub(r'([。!?;])', r'\1
', text)
    
    # 使用换行符分割文本为句子列表
    sentences = text.split('
')
    
    # 去除空白句子
    sentences = [sentence.strip() for sentence in sentences if sentence.strip() != '']
    
    return sentences

# 测试例子
text = '这是      句。这是第二句!这是第三句?这是第四句;这是第五句。'
sentences = ToSentences(text)
for sentence in sentences:
    print(sentence)

输出结果为:

这是      句。
这是第二句!
这是第三句?
这是第四句;
这是第五句。

这个函数的主要步骤是:

1. 使用正则表达式将句子分隔符(句号、感叹号、问号、分号)替换为带有换行符的版本,以便正确分割句子。

2. 使用换行符将文本分割为句子列表。

3. 去除空白句子,避免出现由于多个分隔符导致的空行。

这个函数主要适用于中文文本,可以将文本准确地分割为句子列表。你可以将任何长度的中文文本作为输入,函数将返回对应的句子列表。