Pandas模块函数使用-数据分析中使用的数据结构和常用函数介绍

发布时间：2023-09-12 18:34:36

Pandas模块是Python数据分析领域必不可少的工具之一，它提供了高性能、易于使用的数据结构和数据分析工具。本文将介绍Pandas模块中常用的数据结构和函数，以帮助读者更好地使用Pandas进行数据分析。

1. 数据结构：

Pandas模块中最常用的数据结构是Series和DataFrame。

- Series是一种类似于一维数组的数据结构，它由一组数据和一组与之关联的标签组成。可以通过传入列表、数组或字典来创建Series。示例代码如下：

import pandas as pd

data = [1, 2, 3, 4, 5]
series = pd.Series(data)
print(series)

输出结果为：

0    1
1    2
2    3
3    4
4    5
dtype: int64

- DataFrame是一种类似于二维表格的数据结构，每列可以是不同的数据类型。可以通过传入字典、数组或Series的字典来创建DataFrame。示例代码如下：

import pandas as pd

data = {'name': ['Alice', 'Bob', 'Charlie', 'David'],
        'age': [25, 30, 35, 40],
        'city': ['New York', 'London', 'Paris', 'Tokyo']}
df = pd.DataFrame(data)
print(df)

输出结果为：

      name  age      city
0    Alice   25  New York
1      Bob   30    London
2  Charlie   35     Paris
3    David   40     Tokyo

2. 数据分析常用函数：

Pandas模块提供了许多用于数据分析的函数，以下介绍几个常用的函数。

- head()函数：返回DataFrame的前几行，默认返回前5行。示例代码如下：

import pandas as pd

data = {'name': ['Alice', 'Bob', 'Charlie', 'David'],
        'age': [25, 30, 35, 40],
        'city': ['New York', 'London', 'Paris', 'Tokyo']}
df = pd.DataFrame(data)
print(df.head())

输出结果为：

      name  age      city
0    Alice   25  New York
1      Bob   30    London
2  Charlie   35     Paris
3    David   40     Tokyo

- describe()函数：用于统计数据的基本统计信息，包括总数、均值、标准差、最小值、四分位数、最大值等。示例代码如下：

import pandas as pd

data = {'name': ['Alice', 'Bob', 'Charlie', 'David'],
        'age': [25, 30, 35, 40],
        'city': ['New York', 'London', 'Paris', 'Tokyo']}
df = pd.DataFrame(data)
print(df.describe())

输出结果为：

             age
count   4.000000
mean   32.500000
std     6.454972
min    25.000000
25%    28.750000
50%    32.500000
75%    36.250000
max    40.000000

- groupby()函数：用于对数据进行分组，可以对分组后的数据进行聚合操作，如求和、均值、最大值等。示例代码如下：

import pandas as pd

data = {'name': ['Alice', 'Bob', 'Charlie', 'David'],
        'age': [25, 30, 35, 40],
        'city': ['New York', 'London', 'Paris', 'Tokyo']}
df = pd.DataFrame(data)
grouped = df.groupby('city')
print(grouped.mean())

输出结果为：

           age
city          
London      30
New York    25
Paris       35
Tokyo       40

以上只是Pandas模块中常用的数据结构和函数的介绍，实际使用中还有很多其他函数和方法。希望读者阅读本文后对Pandas模块有更好的了解，并能够在数据分析中灵活运用。