欢迎访问宙启技术站
智能推送

使用Python编写的ToSentences()函数:快速将中文文本转换为句子集合

发布时间:2023-12-17 11:20:31

以下是使用Python编写的ToSentences()函数,该函数可以快速将中文文本转换为句子集合:

import re

def ToSentences(text):
    # 使用正则表达式将文本拆分为句子
    sentences = re.split('[。!?]', text)
    
    # 移除空句子和句子前面的空格
    sentences = [s.strip() for s in sentences if s.strip()]
    
    return sentences

使用例子:

text = """
这是一个示例文本。它包含多个句子!使用ToSentences函数可以将文本拆分成句子集合。你可以方便地对每个句子进行处理。
"""

sentences = ToSentences(text)
print(sentences)

输出:

['这是一个示例文本', '它包含多个句子', '使用ToSentences函数可以将文本拆分成句子集合', '你可以方便地对每个句子进行处理']

该函数使用正则表达式将文本按照句号、感叹号和问号进行拆分,然后移除空句子和句子前面的空格。这样可以快速将中文文本转换为句子集合。