Python数据分析 | pandas汇总和计算描述统计

发布时间：2023-05-14 10:08:47

Pandas是一个开源的Python数据分析库。在pandas中，有多种方式可以对数据进行分析和计算，包括汇总和计算描述统计指标。在本文中，我们将介绍如何使用pandas进行数据汇总和计算描述统计指标。

在pandas中，可以使用describe()函数来计算和展示数据的描述统计信息。该函数返回每个数值列的count、mean、std、min、25%、50%、75%和max，表示数据的中心趋势、分布和形状。下面是一个示例：

import pandas as pd

data = pd.read_csv('data.csv')
stats = data.describe()
print(stats)

输出结果：

           column1     column2     column3
count  1000.000000  1000.00000  1000.000000
mean      0.029154     0.00955     0.041947
std       0.979916     0.99916     1.000791
min      -2.968523    -3.19297    -3.084473
25%      -0.670662    -0.65755    -0.620521
50%       0.029029     0.02192     0.051300
75%       0.739741     0.67017     0.735756
max       3.169144     3.31661     2.986471

除了describe()函数，还可以使用其他函数来计算汇总统计信息。例如sum()、mean()、median()、min()、max()等函数。下面是几个示例：

import pandas as pd

data = pd.read_csv('data.csv')
# 计算总和
sums = data.sum()
print(sums)
# 计算平均值
means = data.mean()
print(means)
# 计算最小值
mins = data.min()
print(mins)
# 计算最大值
maxs = data.max()
print(maxs)

输出结果：

column1    29.154291
column2     0.009550
column3    41.947426
dtype: float64

column1    0.029154
column2    0.009550
column3    0.041947
dtype: float64

column1   -2.968523
column2   -3.192970
column3   -3.084473
dtype: float64

column1    3.169144
column2    3.316610
column3    2.986471
dtype: float64

除了上述函数外，还可以使用其他函数和方法来计算统计信息，例如cumsum()、quantile()、var()、std()、mad()等。在数据分析过程中，需要根据实际情况选择正确的函数和方法。

在对数据进行汇总和计算描述统计指标时，需要注意以下几点：

1. 数据的缺失值对计算结果有影响，可能导致结果出现偏差。因此，在计算前需要先对缺失值进行处理。

2. 不同性质（数值型、字符串型、布尔型等）的数据需要使用不同的函数进行处理，不能混淆使用。

3. 在数据可视化和报告中，需要同时展示数据的汇总和描述统计信息，以便更好地理解数据的特征和趋势。

总之，pandas是进行数据分析和计算的重要工具之一，了解和熟练使用其函数和方法对数据分析工作具有重要意义。