如何使用PandasDataFrame计算统计指标

发布时间：2023-12-22 20:54:56

使用Pandas DataFrame计算统计指标非常简单，它为我们提供了丰富的函数和方法来处理数据。下面将通过一些例子来介绍如何使用Pandas DataFrame计算常见的统计指标。

首先，让我们导入Pandas库并创建一个示例DataFrame：

import pandas as pd

data = {'Name': ['Tom', 'Nick', 'John', 'Sam'],
        'Age': [20, 25, 30, 35],
        'Height': [175, 180, 170, 185],
        'Weight': [70, 75, 80, 85]}

df = pd.DataFrame(data)

这个DataFrame包含了四个列：Name（姓名），Age（年龄），Height（身高）和Weight（体重）。

现在，让我们来计算一些统计指标。

1. 基本统计信息

要获取DataFrame的基本统计信息，可以使用describe()方法：

print(df.describe())

这将输出DataFrame各列的计数、均值、标准差、最小值、25%分位数、50%分位数、75%分位数和最大值。

2. 平均值

要计算DataFrame中一列的平均值，可以使用mean()方法：

print(df['Age'].mean())

这将输出Age列的平均值。

3. 中位数

要计算DataFrame中一列的中位数，可以使用median()方法：

print(df['Height'].median())

这将输出Height列的中位数。

4. 众数

要计算DataFrame中一列的众数，可以使用mode()方法：

print(df['Weight'].mode())

这将输出Weight列的众数。有时候可能会有多个众数，所以结果是一个Series。

5. 方差和标准差

要计算DataFrame中一列的方差和标准差，可以使用var()和std()方法：

print(df['Age'].var())
print(df['Age'].std())

这将分别输出Age列的方差和标准差。

6. 最小值和最大值

要获取DataFrame中一列的最小值和最大值，可以使用min()和max()方法：

print(df['Weight'].min())
print(df['Weight'].max())

这将分别输出Weight列的最小值和最大值。

7. 四分位数

要计算DataFrame中一列的四分位数，可以使用quantile()方法：

print(df['Height'].quantile(0.25))
print(df['Height'].quantile(0.5))
print(df['Height'].quantile(0.75))

这将分别输出Height列的四分位数、中位数和第三四分位数。

8. 相关系数

要计算DataFrame中两列的相关系数，可以使用corr()方法：

print(df['Height'].corr(df['Weight']))

这将输出Height列和Weight列的相关系数。

这些示例展示了如何使用Pandas DataFrame计算常见的统计指标。Pandas还提供了很多其他函数和方法，可以根据具体需求来选择使用。