Python函数用于数据清洗和转换
Python是一门非常流行的编程语言,在最近几年中,Python因为其易于学习和适用于许多任务的能力而变得越来越受欢迎。Python有许多函数可以用于数据清洗和转换,这些函数可以将数据从一种格式转换为另一种格式,还可以删除重复值和缺失值等。本文将介绍一些常用的Python函数,用于数据清洗和转换。
1. 将字符串转换为数值型
在数据处理中,字符串格式不便于进行计算,因此我们需要将字符串转换为数值型。Python提供了两个函数,用于将字符串转换为整数或浮点数。这两个函数分别是int()和float()。int()函数可以将一个字符串转换为整数,而float()函数可以将一个字符串转换为浮点数。
例如:
str1 = "20"
str2 = "67.89"
int_number = int(str1)
float_number = float(str2)
print("int number:",int_number)
print("float number:",float_number)
这个例子中,int()函数将字符串“20”转换为20,而float()函数将字符串“67.89”转换为67.89。
2. 去除重复项
在数据分析中,数据中常常会出现重复的条目。重复的项目会影响我们的结果,因此我们需要去除重复项。在Python中,我们可以使用set()函数来删除重复项。set()函数将 的元素添加到一个集合中,因此我们只需要将数据放入set()函数中即可。
例如,下面的代码演示了如何从一个列表中删除重复项:
input_list = [1, 2, 3, 3, 4, 4, 5, 6, 7, 7] unique_list = list(set(input_list)) print(unique_list)
在这里,我们使用 set() 函数,将 的元素添加到一个集合中。 然后将集合转换回列表,以获得一个没有重复元素的列表。
3. 填充缺失值
在数据分析中,经常会出现一些缺失值,这些缺失值可能会导致我们的结果和分析出现偏差。因此,我们需要使用Python填充缺失值。在Python中,我们可以使用Pandas库中的fillna()函数来填充缺失值。
例如,下面的代码演示了如何使用fillna()函数在DataFrame中填充缺失值:
import pandas as pd
import numpy as np
data_frame = pd.DataFrame({"Name": ["Jack", "Mark", "Lucy", "Lisa", "John", "James"],
"Age": [28, 29, np.nan, 27, np.nan, 30],
"Salary": [50000, 55000, 45000, np.nan, 60000, 70000]})
print(data_frame.fillna(0))
在这里,我们创建了一个DataFrame对象。我们的数据包含三列:名称,年龄和薪水。然而,数据中有两个缺失值,一个是年龄列中的NaN值,另一个是薪资列中的NaN值。可以看到,fillna()函数将没有值的字段填充为0。
4. 删除null值
在数据分析中,我们可能需要删除存储了null值的行或列。在Python中,我们可以使用Pandas库中的dropna()函数来删除null值。dropna()函数将DataFrame对象中所有包含null值的行或列全部删除。
例如,下面的代码演示了如何使用dropna()函数在DataFrame中删除null值:
import pandas as pd
data_frame = pd.DataFrame({"Name": ["Jack", "Mark", "Lucy", "Lisa", "John", "James"],
"Age": [28, 29, None, 27, None, 30],
"Salary": [50000, 55000, 45000, None, 60000, 70000]})
print(data_frame.dropna())
在这里,我们创建了一个DataFrame对象。我们的数据包含三列:名称,年龄和薪水。然而,数据中有两个null值,一个是年龄列中的None值,另一个是薪资列中的None值。dropna()函数删除了包含null值的行。
总结
在数据清洗和转换中,Python提供了许多有用的函数。在这篇文章中,我们介绍了一些常用的函数,包括将字符串转换为数值型、删除重复项、填充缺失值和删除null值。这些函数可以让数据分析人员更轻松地进行数据清理和转换。当然python语言还有更多其他API可以帮助数据清理工作的开展。
