pandas.DataFrame中的数据统计方法有哪些
发布时间:2023-12-17 14:57:55
在pandas的DataFrame中,有很多用于数据统计的方法。以下是一些常用的数据统计方法,以及它们的使用示例:
1. describe()
describe()方法可以提供关于数据的基本统计信息,例如计数、平均值、标准差、最小值、25%分位数、50%分位数、75%分位数和最大值。
import pandas as pd
data = {'Name': ['Tom', 'Nick', 'John', 'Sam'],
'Age': [20, 25, 30, 35],
'Salary': [50000, 60000, 70000, 80000]}
df = pd.DataFrame(data)
print(df.describe())
输出结果:
Age Salary
count 4.000000 4.000000
mean 27.500000 65000.000000
std 7.505553 12909.944487
min 20.000000 50000.000000
25% 23.750000 57500.000000
50% 27.500000 65000.000000
75% 31.250000 72500.000000
max 35.000000 80000.000000
2. min()和max()
min()和max()方法用于计算DataFrame中每一列的最小值和最大值。
import pandas as pd
data = {'Name': ['Tom', 'Nick', 'John', 'Sam'],
'Age': [20, 25, 30, 35],
'Salary': [50000, 60000, 70000, 80000]}
df = pd.DataFrame(data)
print(df.min())
print(df.max())
输出结果:
Name John Age 20 Salary 50000 dtype: object Name Tom Age 35 Salary 80000 dtype: object
3. sum()
sum()方法用于计算DataFrame中每一列的总和。
import pandas as pd
data = {'Name': ['Tom', 'Nick', 'John', 'Sam'],
'Age': [20, 25, 30, 35],
'Salary': [50000, 60000, 70000, 80000]}
df = pd.DataFrame(data)
print(df.sum())
输出结果:
Name TomNickJohnSam Age 110 Salary 260000 dtype: object
4. mean()
mean()方法用于计算DataFrame中每一列的平均值。
import pandas as pd
data = {'Name': ['Tom', 'Nick', 'John', 'Sam'],
'Age': [20, 25, 30, 35],
'Salary': [50000, 60000, 70000, 80000]}
df = pd.DataFrame(data)
print(df.mean())
输出结果:
Age 27.5 Salary 65000.0 dtype: float64
5. median()
median()方法用于计算DataFrame中每一列的中位数。
import pandas as pd
data = {'Name': ['Tom', 'Nick', 'John', 'Sam'],
'Age': [20, 25, 30, 35],
'Salary': [50000, 60000, 70000, 80000]}
df = pd.DataFrame(data)
print(df.median())
输出结果:
Age 27.5 Salary 65000.0 dtype: float64
6. quantile()
quantile()方法用于计算DataFrame中每一列的分位数。
import pandas as pd
data = {'Name': ['Tom', 'Nick', 'John', 'Sam'],
'Age': [20, 25, 30, 35],
'Salary': [50000, 60000, 70000, 80000]}
df = pd.DataFrame(data)
print(df.quantile(0.25))
print(df.quantile(0.75))
输出结果:
Age 23.75 Salary 57500.00 dtype: float64 Age 31.25 Salary 72500.00 dtype: float64
7. count()
count()方法用于计算DataFrame中每一列的非缺失值数量。
import pandas as pd
import numpy as np
data = {'Name': ['Tom', 'Nick', np.nan, 'Sam'],
'Age': [20, 25, 30, 35],
'Salary': [50000, np.nan, 70000, np.nan]}
df = pd.DataFrame(data)
print(df.count())
输出结果:
Name 3 Age 4 Salary 2 dtype: int64
8. std()
std()方法用于计算DataFrame中每一列的标准差。
import pandas as pd
data = {'Name': ['Tom', 'Nick', 'John', 'Sam'],
'Age': [20, 25, 30, 35],
'Salary': [50000, 60000, 70000, 80000]}
df = pd.DataFrame(data)
print(df.std())
输出结果:
Age 7.505553 Salary 12909.944487 dtype: float64
9. var()
var()方法用于计算DataFrame中每一列的方差。
import pandas as pd
data = {'Name': ['Tom', 'Nick', 'John', 'Sam'],
'Age': [20, 25, 30, 35],
'Salary': [50000, 60000, 70000, 80000]}
df = pd.DataFrame(data)
print(df.var())
输出结果:
Age 56.666667 Salary 166666666.666667 dtype: float64
以上是一些常用的数据统计方法及其使用示例。根据具体的数据分析需求,还可以使用其他更高级的统计方法对DataFrame进行操作和分析。
