欢迎访问宙启技术站
智能推送

Python函数用于数据清洗和转换

发布时间:2023-06-13 05:32:48

Python是一门非常流行的编程语言,在最近几年中,Python因为其易于学习和适用于许多任务的能力而变得越来越受欢迎。Python有许多函数可以用于数据清洗和转换,这些函数可以将数据从一种格式转换为另一种格式,还可以删除重复值和缺失值等。本文将介绍一些常用的Python函数,用于数据清洗和转换。

1. 将字符串转换为数值型

在数据处理中,字符串格式不便于进行计算,因此我们需要将字符串转换为数值型。Python提供了两个函数,用于将字符串转换为整数或浮点数。这两个函数分别是int()和float()。int()函数可以将一个字符串转换为整数,而float()函数可以将一个字符串转换为浮点数。

例如:

str1 = "20"
str2 = "67.89"
int_number = int(str1)
float_number = float(str2)
print("int number:",int_number)
print("float number:",float_number)

这个例子中,int()函数将字符串“20”转换为20,而float()函数将字符串“67.89”转换为67.89。

2. 去除重复项

在数据分析中,数据中常常会出现重复的条目。重复的项目会影响我们的结果,因此我们需要去除重复项。在Python中,我们可以使用set()函数来删除重复项。set()函数将 的元素添加到一个集合中,因此我们只需要将数据放入set()函数中即可。

例如,下面的代码演示了如何从一个列表中删除重复项:

input_list = [1, 2, 3, 3, 4, 4, 5, 6, 7, 7]
unique_list = list(set(input_list))
print(unique_list)

在这里,我们使用 set() 函数,将 的元素添加到一个集合中。 然后将集合转换回列表,以获得一个没有重复元素的列表。

3. 填充缺失值

在数据分析中,经常会出现一些缺失值,这些缺失值可能会导致我们的结果和分析出现偏差。因此,我们需要使用Python填充缺失值。在Python中,我们可以使用Pandas库中的fillna()函数来填充缺失值。

例如,下面的代码演示了如何使用fillna()函数在DataFrame中填充缺失值:

import pandas as pd
import numpy as np

data_frame = pd.DataFrame({"Name": ["Jack", "Mark", "Lucy", "Lisa", "John", "James"],
                       "Age": [28, 29, np.nan, 27, np.nan, 30],
                       "Salary": [50000, 55000, 45000, np.nan, 60000, 70000]})


print(data_frame.fillna(0))

在这里,我们创建了一个DataFrame对象。我们的数据包含三列:名称,年龄和薪水。然而,数据中有两个缺失值,一个是年龄列中的NaN值,另一个是薪资列中的NaN值。可以看到,fillna()函数将没有值的字段填充为0。

4. 删除null值

在数据分析中,我们可能需要删除存储了null值的行或列。在Python中,我们可以使用Pandas库中的dropna()函数来删除null值。dropna()函数将DataFrame对象中所有包含null值的行或列全部删除。

例如,下面的代码演示了如何使用dropna()函数在DataFrame中删除null值:

import pandas as pd

data_frame = pd.DataFrame({"Name": ["Jack", "Mark", "Lucy", "Lisa", "John", "James"],
                       "Age": [28, 29, None, 27, None, 30],
                       "Salary": [50000, 55000, 45000, None, 60000, 70000]})

print(data_frame.dropna())

在这里,我们创建了一个DataFrame对象。我们的数据包含三列:名称,年龄和薪水。然而,数据中有两个null值,一个是年龄列中的None值,另一个是薪资列中的None值。dropna()函数删除了包含null值的行。

总结

在数据清洗和转换中,Python提供了许多有用的函数。在这篇文章中,我们介绍了一些常用的函数,包括将字符串转换为数值型、删除重复项、填充缺失值和删除null值。这些函数可以让数据分析人员更轻松地进行数据清理和转换。当然python语言还有更多其他API可以帮助数据清理工作的开展。