欢迎访问宙启技术站
智能推送

计算中文标题的BLEU得分:运用Python中的nltk.translate.bleu_score.corpus_bleu()函数

发布时间:2023-12-23 18:29:38

BLEU(Bilingual Evaluation Understudy)是一种常用的评估机器翻译结果质量的指标。nltk提供了计算BLEU得分的函数corpus_bleu()。

corpus_bleu()函数的用法如下:

from nltk.translate.bleu_score import corpus_bleu

# 参考句子
references = [['这', '是', '一个', '参考', '句子'], ['这', '是', '另一个', '参考', '句子']]

# 候选句子
candidates = [['这', '是', '一个', '候选', '句子', '1'], ['这', '是', '另一个', '候选', '句子', '2']]

# 计算BLEU得分
score = corpus_bleu(references, candidates)

print(score)

在上述示例中,我们使用corpus_bleu()函数计算了两个候选句子的BLEU得分。references是一个包含参考句子的列表,每个参考句子也是一个由单词组成的列表。candidates是一个包含候选句子的列表,每个候选句子也是一个由单词组成的列表。最后,我们将得分打印出来。

注意:corpus_bleu()函数将参考句子和候选句子都看作是tokenized的。这意味着,在使用函数计算得分之前,需要对参考句子和候选句子进行tokenization(分词)。在中文中,可以使用分词工具如jieba进行分词。

希望这能帮助到你!