欢迎访问宙启技术站
智能推送

如何使用Python中的pandas函数处理数据表格和数据集?

发布时间:2023-05-22 19:08:35

Pandas是一种常用的基于Python的数据处理库,它提供了强大的数据结构和数据分析工具,使得处理数据表格和数据集变得非常简单。在本文中,我们将介绍如何使用pandas函数来处理数据表格和数据集。

1. 导入pandas

在使用pandas之前,我们需要导入它。导入语句通常如下:

import pandas as pd

这将把pandas库导入到我们的Python程序中,并且我们可以使用'pd'作为pandas库的别名,方便以后的使用。

2. 创建数据集

在pandas中,我们可以使用pandas.DataFrame()函数来创建一个数据集,并将数据集存储为pandas数据帧。数据集可以是从文件、数据库或其他数据源中加载的,也可以手动创建。接下来,让我们手动创建一个数据集并将其存储为pandas数据帧。

我们可以通过以下代码创建一个数据集:

data = {
    '名字': ['张三', '李四', '王五', '赵六'],
    '年龄': [20, 25, 30, 35],
    '城市': ['北京', '上海', '广州', '深圳'],
    '职业': ['工程师', '教师', '医生', '销售员']
}
df = pd.DataFrame(data)

在这个例子中,我们定义了四列:'名字'、'年龄'、'城市'和'职业',并给每列赋了值。接着,我们使用pd.DataFrame()函数将这个数据集存储为一个pandas数据帧df。

3. 查看数据集

在创建完数据集后,我们需要查看数据集的内容。可以使用.dataFrame.head()函数查看前几行数据集。例如:

df.head()

这将显示数据集的前五行。如果我们要查看指定数量的行,可以在.head()函数中传入指定的参数,例如:

df.head(3)

这将显示数据集的前三行数据。

4. 选择数据集的列

在处理数据集时,我们通常只需要处理一部分数据,可以对数据集中的列进行选择。使用pandas.DataFrame[]来选择数据集中的列。例如,如果我们只需要选择'名字'和'年龄'这两列,可以如下选择:

df[['名字', '年龄']]

5. 选择数据集的行

与选择列类似,我们使用pandas.DataFrame[]函数来选择数据集中的行。我们可以使用pandas.DataFrame.loc[]和pandas.DataFrame.iloc[]函数来选择行。

pandas.DataFrame.loc[]函数通过标签或布尔数组选择行。例如,如果我们需要选择第二行,可以使用以下代码:

df.loc[1]

如果我们需要选择第二行到第四行,则可以使用以下代码:

df.loc[1:3]

pandas.DataFrame.iloc[]函数通过行号来选择行。例如,如果我们需要选择第二行,可以使用以下代码:

df.iloc[1]

如果我们需要选择第二行到第四行,则可以使用以下代码:

df.iloc[1:4]

6. 过滤数据集

使用pandas.DataFrame[]来过滤数据集。我们可以通过以下方式过滤数据集:

df[df['职业'] == '工程师']

这将筛选职业为'工程师'的行。我们也可以使用其他比较运算符,例如'>'、'<'和'!='等。

7. 排序数据集

我们可以使用pandas.DataFrame.sort_values()函数对数据集进行排序。例如,如果我们要按照年龄对数据集进行排序,则可以使用以下代码:

df.sort_values(by=['年龄'])

将数据集按年龄升序排列。我们也可以使用'ascending'参数来实现降序排列。例如,如果我们要将数据集按年龄降序排列,则可以使用以下代码:

df.sort_values(by=['年龄'], ascending=False)

8. 删除数据集中的行和列

有时,我们需要从数据集中删除某些行或列。使用pandas.DataFrame.drop()函数删除行和列。例如,如果我们要删除'名字'这一列,可以使用以下代码:

df.drop(['名字'], axis=1)

使用'axis'参数删除行或列。如果要删除多列,只需将名称传递给列表即可。例如,如果要删除'名字'和'城市'这两列,则可以使用以下代码:

df.drop(['名字', '城市'], axis=1)

我们也可以删除特定的行。例如,如果我们要删除第二行,则可以使用以下代码:

df.drop(1)

如果我们要删除前两行,则可以使用以下代码:

df.drop([0, 1])

9. 添加列

我们可以使用pandas.DataFrame[]函数向数据集中添加新列。例如,如果我们要将'年龄'列转换为出生年份列,则可以使用以下代码:

df['出生年份'] = 2022 - df['年龄']

这将添加一个名为'出生年份'的新列。

10. 应用函数到数据集

我们可以使用pandas.DataFrame.apply()函数将函数应用到数据集中的列。例如,如果我们要将'年龄'列中的所有值乘以2,则可以使用以下代码:

df['年龄'] = df['年龄'].apply(lambda x: x*2)

这将df的年龄列中的每个元素都乘以2。

总结

本文介绍了使用pandas函数处理数据表格和数据集的方法。我们学习了如何创建数据集、查看数据集、选择和过滤数据集、排序数据集、删除数据集中的行和列、添加列以及将函数应用到数据集。pandas是一种非常强大且实用的数据处理库。通过学习本文,我们可以开始在Python中使用pandas来处理数据集。