Python函数用于数据清洗和转换

发布时间：2023-06-13 05:32:48

Python是一门非常流行的编程语言，在最近几年中，Python因为其易于学习和适用于许多任务的能力而变得越来越受欢迎。Python有许多函数可以用于数据清洗和转换，这些函数可以将数据从一种格式转换为另一种格式，还可以删除重复值和缺失值等。本文将介绍一些常用的Python函数，用于数据清洗和转换。

1. 将字符串转换为数值型

在数据处理中，字符串格式不便于进行计算，因此我们需要将字符串转换为数值型。Python提供了两个函数，用于将字符串转换为整数或浮点数。这两个函数分别是int（）和float（）。int（）函数可以将一个字符串转换为整数，而float（）函数可以将一个字符串转换为浮点数。

例如:

str1 = "20"
str2 = "67.89"
int_number = int(str1)
float_number = float(str2)
print("int number:",int_number)
print("float number:",float_number)

这个例子中，int（）函数将字符串“20”转换为20，而float（）函数将字符串“67.89”转换为67.89。

2. 去除重复项

在数据分析中，数据中常常会出现重复的条目。重复的项目会影响我们的结果，因此我们需要去除重复项。在Python中，我们可以使用set（）函数来删除重复项。set（）函数将的元素添加到一个集合中，因此我们只需要将数据放入set（）函数中即可。

例如，下面的代码演示了如何从一个列表中删除重复项：

input_list = [1, 2, 3, 3, 4, 4, 5, 6, 7, 7]
unique_list = list(set(input_list))
print(unique_list)

在这里，我们使用 set() 函数，将的元素添加到一个集合中。然后将集合转换回列表，以获得一个没有重复元素的列表。

3. 填充缺失值

在数据分析中，经常会出现一些缺失值，这些缺失值可能会导致我们的结果和分析出现偏差。因此，我们需要使用Python填充缺失值。在Python中，我们可以使用Pandas库中的fillna()函数来填充缺失值。

例如，下面的代码演示了如何使用fillna()函数在DataFrame中填充缺失值：

import pandas as pd
import numpy as np

data_frame = pd.DataFrame({"Name": ["Jack", "Mark", "Lucy", "Lisa", "John", "James"],
                       "Age": [28, 29, np.nan, 27, np.nan, 30],
                       "Salary": [50000, 55000, 45000, np.nan, 60000, 70000]})


print(data_frame.fillna(0))

在这里，我们创建了一个DataFrame对象。我们的数据包含三列：名称，年龄和薪水。然而，数据中有两个缺失值，一个是年龄列中的NaN值，另一个是薪资列中的NaN值。可以看到，fillna()函数将没有值的字段填充为0。

4. 删除null值

在数据分析中，我们可能需要删除存储了null值的行或列。在Python中，我们可以使用Pandas库中的dropna()函数来删除null值。dropna()函数将DataFrame对象中所有包含null值的行或列全部删除。

例如，下面的代码演示了如何使用dropna()函数在DataFrame中删除null值：

import pandas as pd

data_frame = pd.DataFrame({"Name": ["Jack", "Mark", "Lucy", "Lisa", "John", "James"],
                       "Age": [28, 29, None, 27, None, 30],
                       "Salary": [50000, 55000, 45000, None, 60000, 70000]})

print(data_frame.dropna())

在这里，我们创建了一个DataFrame对象。我们的数据包含三列：名称，年龄和薪水。然而，数据中有两个null值，一个是年龄列中的None值，另一个是薪资列中的None值。dropna()函数删除了包含null值的行。

总结

在数据清洗和转换中，Python提供了许多有用的函数。在这篇文章中，我们介绍了一些常用的函数，包括将字符串转换为数值型、删除重复项、填充缺失值和删除null值。这些函数可以让数据分析人员更轻松地进行数据清理和转换。当然python语言还有更多其他API可以帮助数据清理工作的开展。