pandas.DataFrame中的数据统计方法有哪些

发布时间：2023-12-17 14:57:55

在pandas的DataFrame中，有很多用于数据统计的方法。以下是一些常用的数据统计方法，以及它们的使用示例：

1. describe()

describe()方法可以提供关于数据的基本统计信息，例如计数、平均值、标准差、最小值、25%分位数、50%分位数、75%分位数和最大值。

import pandas as pd

data = {'Name': ['Tom', 'Nick', 'John', 'Sam'],
        'Age': [20, 25, 30, 35],
        'Salary': [50000, 60000, 70000, 80000]}

df = pd.DataFrame(data)

print(df.describe())

输出结果：

             Age        Salary
count   4.000000      4.000000
mean   27.500000  65000.000000
std     7.505553  12909.944487
min    20.000000  50000.000000
25%    23.750000  57500.000000
50%    27.500000  65000.000000
75%    31.250000  72500.000000
max    35.000000  80000.000000

2. min()和max()

min()和max()方法用于计算DataFrame中每一列的最小值和最大值。

import pandas as pd

data = {'Name': ['Tom', 'Nick', 'John', 'Sam'],
        'Age': [20, 25, 30, 35],
        'Salary': [50000, 60000, 70000, 80000]}

df = pd.DataFrame(data)

print(df.min())
print(df.max())

输出结果：

Name      John
Age         20
Salary    50000
dtype: object
Name        Tom
Age          35
Salary    80000
dtype: object

3. sum()

sum()方法用于计算DataFrame中每一列的总和。

import pandas as pd

data = {'Name': ['Tom', 'Nick', 'John', 'Sam'],
        'Age': [20, 25, 30, 35],
        'Salary': [50000, 60000, 70000, 80000]}

df = pd.DataFrame(data)

print(df.sum())

输出结果：

Name      TomNickJohnSam
Age                  110
Salary            260000
dtype: object

4. mean()

mean()方法用于计算DataFrame中每一列的平均值。

import pandas as pd

data = {'Name': ['Tom', 'Nick', 'John', 'Sam'],
        'Age': [20, 25, 30, 35],
        'Salary': [50000, 60000, 70000, 80000]}

df = pd.DataFrame(data)

print(df.mean())

输出结果：

Age          27.5
Salary    65000.0
dtype: float64

5. median()

median()方法用于计算DataFrame中每一列的中位数。

import pandas as pd

data = {'Name': ['Tom', 'Nick', 'John', 'Sam'],
        'Age': [20, 25, 30, 35],
        'Salary': [50000, 60000, 70000, 80000]}

df = pd.DataFrame(data)

print(df.median())

输出结果：

Age          27.5
Salary    65000.0
dtype: float64

6. quantile()

quantile()方法用于计算DataFrame中每一列的分位数。

import pandas as pd

data = {'Name': ['Tom', 'Nick', 'John', 'Sam'],
        'Age': [20, 25, 30, 35],
        'Salary': [50000, 60000, 70000, 80000]}

df = pd.DataFrame(data)

print(df.quantile(0.25))
print(df.quantile(0.75))

输出结果：

Age          23.75
Salary    57500.00
dtype: float64
Age          31.25
Salary    72500.00
dtype: float64

7. count()

count()方法用于计算DataFrame中每一列的非缺失值数量。

import pandas as pd
import numpy as np

data = {'Name': ['Tom', 'Nick', np.nan, 'Sam'],
        'Age': [20, 25, 30, 35],
        'Salary': [50000, np.nan, 70000, np.nan]}

df = pd.DataFrame(data)

print(df.count())

输出结果：

Name      3
Age       4
Salary    2
dtype: int64

8. std()

std()方法用于计算DataFrame中每一列的标准差。

import pandas as pd

data = {'Name': ['Tom', 'Nick', 'John', 'Sam'],
        'Age': [20, 25, 30, 35],
        'Salary': [50000, 60000, 70000, 80000]}

df = pd.DataFrame(data)

print(df.std())

输出结果：

Age          7.505553
Salary    12909.944487
dtype: float64

9. var()

var()方法用于计算DataFrame中每一列的方差。

import pandas as pd

data = {'Name': ['Tom', 'Nick', 'John', 'Sam'],
        'Age': [20, 25, 30, 35],
        'Salary': [50000, 60000, 70000, 80000]}

df = pd.DataFrame(data)

print(df.var())

输出结果：

Age        56.666667
Salary    166666666.666667
dtype: float64

以上是一些常用的数据统计方法及其使用示例。根据具体的数据分析需求，还可以使用其他更高级的统计方法对DataFrame进行操作和分析。