利用Python编写的ToSentences()函数将中文文本切割为句子的实用方法
发布时间:2023-12-17 11:20:02
下面是一个使用Python编写的ToSentences()函数的实用方法和使用例子:
import re
def ToSentences(text):
# 将中文文本切割为句子的函数
# 使用正则表达式匹配句子的分隔符
pattern = r'[\u4e00-\u9fa5]+[,。!?]'
sentences = re.findall(pattern, text)
return sentences
# 使用例子
text = '大家好,我叫小明。很高兴认识大家!你们在干什么呢?'
sentences = ToSentences(text)
for sentence in sentences:
print(sentence)
在上面的代码中,使用了正则表达式和re.findall()函数来匹配中文句子。正则表达式[\u4e00-\u9fa5]+[,。!?]表示匹配包含中文字符且以逗号、句号、感叹号或问号结尾的字符串。
使用ToSentences()函数可以将中文文本切割为句子。在使用例子中,我们将文本"大家好,我叫小明。很高兴认识大家!你们在干什么呢?"传递给ToSentences()函数,然后将返回的句子逐个打印出来。
输出结果为:
大家好, 我叫小明。 很高兴认识大家! 你们在干什么呢?
这样就成功将中文文本切割为句子了。你可以根据需要将这些句子存储到列表或做其他处理。
