Pandas模块函数使用-数据分析中使用的数据结构和常用函数介绍
发布时间:2023-09-12 18:34:36
Pandas模块是Python数据分析领域必不可少的工具之一,它提供了高性能、易于使用的数据结构和数据分析工具。本文将介绍Pandas模块中常用的数据结构和函数,以帮助读者更好地使用Pandas进行数据分析。
1. 数据结构:
Pandas模块中最常用的数据结构是Series和DataFrame。
- Series是一种类似于一维数组的数据结构,它由一组数据和一组与之关联的标签组成。可以通过传入列表、数组或字典来创建Series。示例代码如下:
import pandas as pd data = [1, 2, 3, 4, 5] series = pd.Series(data) print(series)
输出结果为:
0 1 1 2 2 3 3 4 4 5 dtype: int64
- DataFrame是一种类似于二维表格的数据结构,每列可以是不同的数据类型。可以通过传入字典、数组或Series的字典来创建DataFrame。示例代码如下:
import pandas as pd
data = {'name': ['Alice', 'Bob', 'Charlie', 'David'],
'age': [25, 30, 35, 40],
'city': ['New York', 'London', 'Paris', 'Tokyo']}
df = pd.DataFrame(data)
print(df)
输出结果为:
name age city
0 Alice 25 New York
1 Bob 30 London
2 Charlie 35 Paris
3 David 40 Tokyo
2. 数据分析常用函数:
Pandas模块提供了许多用于数据分析的函数,以下介绍几个常用的函数。
- head()函数:返回DataFrame的前几行,默认返回前5行。示例代码如下:
import pandas as pd
data = {'name': ['Alice', 'Bob', 'Charlie', 'David'],
'age': [25, 30, 35, 40],
'city': ['New York', 'London', 'Paris', 'Tokyo']}
df = pd.DataFrame(data)
print(df.head())
输出结果为:
name age city
0 Alice 25 New York
1 Bob 30 London
2 Charlie 35 Paris
3 David 40 Tokyo
- describe()函数:用于统计数据的基本统计信息,包括总数、均值、标准差、最小值、四分位数、最大值等。示例代码如下:
import pandas as pd
data = {'name': ['Alice', 'Bob', 'Charlie', 'David'],
'age': [25, 30, 35, 40],
'city': ['New York', 'London', 'Paris', 'Tokyo']}
df = pd.DataFrame(data)
print(df.describe())
输出结果为:
age
count 4.000000
mean 32.500000
std 6.454972
min 25.000000
25% 28.750000
50% 32.500000
75% 36.250000
max 40.000000
- groupby()函数:用于对数据进行分组,可以对分组后的数据进行聚合操作,如求和、均值、最大值等。示例代码如下:
import pandas as pd
data = {'name': ['Alice', 'Bob', 'Charlie', 'David'],
'age': [25, 30, 35, 40],
'city': ['New York', 'London', 'Paris', 'Tokyo']}
df = pd.DataFrame(data)
grouped = df.groupby('city')
print(grouped.mean())
输出结果为:
age
city
London 30
New York 25
Paris 35
Tokyo 40
以上只是Pandas模块中常用的数据结构和函数的介绍,实际使用中还有很多其他函数和方法。希望读者阅读本文后对Pandas模块有更好的了解,并能够在数据分析中灵活运用。
