计算中文标题的BLEU得分：运用Python中的nltk.translate.bleu_score.corpus_bleu()函数

发布时间：2023-12-23 18:29:38

BLEU（Bilingual Evaluation Understudy）是一种常用的评估机器翻译结果质量的指标。nltk提供了计算BLEU得分的函数corpus_bleu()。

corpus_bleu()函数的用法如下：

from nltk.translate.bleu_score import corpus_bleu

# 参考句子
references = [['这', '是', '一个', '参考', '句子'], ['这', '是', '另一个', '参考', '句子']]

# 候选句子
candidates = [['这', '是', '一个', '候选', '句子', '1'], ['这', '是', '另一个', '候选', '句子', '2']]

# 计算BLEU得分
score = corpus_bleu(references, candidates)

print(score)

在上述示例中，我们使用corpus_bleu()函数计算了两个候选句子的BLEU得分。references是一个包含参考句子的列表，每个参考句子也是一个由单词组成的列表。candidates是一个包含候选句子的列表，每个候选句子也是一个由单词组成的列表。最后，我们将得分打印出来。

注意：corpus_bleu()函数将参考句子和候选句子都看作是tokenized的。这意味着，在使用函数计算得分之前，需要对参考句子和候选句子进行tokenization（分词）。在中文中，可以使用分词工具如jieba进行分词。

希望这能帮助到你！