如何在Python中使用函数计算平均数

发布时间：2023-06-16 12:42:40

在Python中，使用函数计算平均数可以帮助我们更快速、更方便地进行数学统计操作。本文将从以下几个方面介绍如何在Python中使用函数计算平均数：

1. 简单的平均数计算

2. 对于大数据集的平均数计算

3. 忽略或排除列表中的异常值

4. 自定义计算平均数的函数

1. 简单的平均数计算

在Python中，计算一个列表的平均数非常简单。我们只需要通过sum函数将列表中的所有数相加，再除以列表的长度即可：

def mean(numbers):
    return sum(numbers)/len(numbers)

numbers = [1, 2, 3, 4, 5]
print(mean(numbers)) # 3.0

上面的代码定义了一个名为mean的函数，接受一个参数numbers，表示需要计算平均数的列表。该函数内部通过sum与len函数实现了对列表的求和和求平均操作。最后，我们调用该函数并传入一个列表[1, 2, 3, 4, 5]，得到其平均数为3.0。

2. 对于大数据集的平均数计算

当我们面对的是一个非常大的数据集时，简单地将所有数相加再除以总数的方式可能会导致内存溢出或者计算时间过长等问题。这时候，我们可以利用Python中的生成器来实现一边计算一边得到平均数的功能。具体来说，我们可以定义一个函数，每次从数据集中读入一批数据，计算这批数据的平均数，再使用yield关键字返回结果。

def mean_gen(numbers, batch_size=1000):
    batch_total = 0
    batch_count = 0
    for num in numbers:
        batch_total += num
        batch_count += 1
        if batch_count == batch_size:
            yield batch_total / batch_count
            batch_total = 0
            batch_count = 0
    if batch_count > 0:
        yield batch_total / batch_count

numbers = [i for i in range(1, 10001)]
for batch_mean in mean_gen(numbers):
    print(batch_mean)

上述代码中，我们定义了一个名为mean_gen的生成器函数，接受两个参数：numbers表示需要计算平均数的数据集，batch_size表示每次从数据集中读入的数据批次大小。在函数内部使用for循环逐个读入数据，并累加批次合计和数量。当批次达到指定大小时，计算该批次的平均数，并使用yield关键字输出结果。如果数据集不足一批，该函数会输出该批次的平均数。

在上述代码中，我们利用了列表生成器生成了一个由1到10000的自然数组成的列表，接着我们使用mean_gen函数逐批计算平均数并输出结果。由于我们设置的每个批次大小为1000，所以总共会输出10个结果，代表了整个数据集的平均数。

3. 忽略或排除列表中的异常值

在某些情况下，数据集中可能会存在一些异常值，这些值会对平均数的计算产生不利的影响。因此，我们需要寻找一种方法来忽略或排除这些异常值。一种可行的方案是设定一个阈值，将列表中小于该阈值或大于该阈值的值忽略掉，再进行平均数的计算。

def mean_ignoring_outliers(numbers, threshold=1):
    return sum(filter(lambda x: abs(x - mean(numbers)) <= threshold, numbers)) /\
            len(list(filter(lambda x: abs(x - mean(numbers)) <= threshold, numbers)))

numbers = [1, 2, 3, 4, 5, 100]
print(mean_ignoring_outliers(numbers, 5)) # 3.0

上述代码中，我们定义了一个名为mean_ignoring_outliers的函数，接受两个参数：numbers表示需要计算平均数的数据集，threshold表示用于忽略异常值的阈值。在这个函数内部，我们首先减去平均值，然后根据可接受的阈值来过滤出符合条件的数值，在进行求和操作。最后，我们将符合条件的数值的总和除以其数量，得到平均数。

在本例中，数据集中包含了一个异常值100，我们使用mean_ignoring_outliers函数将该值忽略后，得到的平均数为3.0。

4. 自定义计算平均数的函数

在一些特定的场景中，标准的平均数计算方法可能不足以满足要求，这时我们需要针对性地定义一个自己的计算平均数的函数。例如，某些应用场景需要对每个数据乘以一个权重系数，并对最终的总和进行平均处理。

def weighted_mean(numbers, weights):
    return sum([x * w for x, w in zip(numbers, weights)]) / sum(weights)

numbers = [1, 2, 3, 4, 5]
weights = [1, 2, 3, 4, 5]
print(weighted_mean(numbers, weights)) # 3.6666666666666665

在上述代码中，我们定义了一个名为weighted_mean的函数，接受两个参数：numbers表示需要计算平均数的数据集，weights表示每个数据所对应的权重系数。在该函数内部，我们分别将数据集中的每个数与对应的权重进行相乘，再对结果求和。最终，我们将得到的结果除以权重总和，得到所求的平均数。

在本例中，我们定义了一个自定义的权重系数列表weights，将其传入weighted_mean函数中，得到的加权平均数为3.6666666666666665。

总结：

本文介绍了在Python中使用函数计算平均数的几种方法，包括简单的平均数计算、对于大数据集的平均数计算、忽略或排除列表中的异常值以及自定义计算平均数的函数。根据实际应用场景的需要，可以灵活选择这些方法中的一个或多个来对数据进行处理。无论是对于小规模数据的求解还是大规模数据的计算，Python都提供了一系列有效而便利的解决方案。