使用Python函数进行数据清洗和整理

发布时间：2023-06-02 08:35:59

Python是一种高级编程语言，许多数据分析项目使用Python进行数据清洗和整理。 Python提供了许多有用的函数和库，可以帮助您更轻松地清理和整理数据，包括 NumPy、Pandas、Matplotlib 和 SciPy。在本文中，我们将介绍一些常用的Python函数，以进行数据清洗和整理。

1. 去重（unique）

去重是数据清洗和整理的重要部分。Python提供了许多有用的去重函数，其中最常用的是unique函数。该函数用于从数据数组中去除重复元素，并且仅返回值。以下是一个用法示例：

import numpy as np

# 定义数组
arr = np.array([3, 2, 1, 2, 3, 4, 5, 4, 3, 2, 1])

# 去除重复元素
unique_arr = np.unique(arr)

# 打印结果
print('Unique array:', unique_arr)

2. 缺失值填充（fillna）

在数据分析项目中，缺失值通常会导致麻烦。有时，您可能需要填充缺失值以保持数据集的完整性。在这种情况下，您可以使用fillna函数。该函数用于将缺失值替换为指定的值。以下是一个用法示例：

import pandas as pd
import numpy as np

# 定义包含缺失值的数据框
df = pd.DataFrame({
    'A': [1, 2, 3, np.nan, 5],
    'B': [5, np.nan, 3, np.nan, 0],
    'C': [1, 2, 3, 4, 5],
})

# 填充缺失值（替换为0）
filled_df = df.fillna(0)

# 打印结果
print('Filled dataframe:', filled_df)

3. 数据类型转换（astype）

有时，您需要将一种数据类型转换为另一种类型。在Python中，可以使用astype函数实现此目的。该函数用于将数据类型转换为指定的数据类型。以下是一个用法示例：

import pandas as pd

# 定义包含数字和字符串列的数据框
df = pd.DataFrame({
    'A': [1, 2, 3, 4, 5],
    'B': ['a', 'b', 'c', 'd', 'e'],
})

# 将 A 列转换为字符串类型
df['A'] = df['A'].astype(str)

# 打印结果
print('Converted dataframe:', df)

4. 字符串清洗（strip）

在文本数据集上进行数据清洗时，清除字符串中的空格和其他不必要的字符非常重要。 Python提供了许多有用的字符串函数，其中最常用的是strip函数。该函数用于从字符串中删除空格和特殊字符。以下是一个用法示例：

# 定义一个字符串
txt = '  This is a sentence. '

# 清除空格和特殊字符
clean_txt = txt.strip()

# 打印结果
print('Cleaned text:', clean_txt)

5. 数据集排序（sort）

在数据分析项目中，通常需要按特定字段对数据进行排序。在Python中，可以使用sort函数来实现此目的。该函数用于按指定的字段对数据进行排序。以下是一个用法示例：

import pandas as pd

# 定义一个包含数字和字符串列的数据框
df = pd.DataFrame({
    'A': [4, 3, 2, 1],
    'B': ['d', 'c', 'b', 'a'],
})

# 按 A 列进行排序
sorted_df = df.sort_values(by='A')

# 打印结果
print('Sorted dataframe:', sorted_df)

6. 数据集筛选（query）

有时，您可能需要从数据框中选择满足特定条件的行或列。在Python中，可以使用query函数来实现此目的。该函数用于按照给定的表达式筛选数据集。以下是一个用法示例：

import pandas as pd

# 定义一个包含数字和字符串列的数据框
df = pd.DataFrame({
    'A': [1, 2, 3, 4, 5],
    'B': ['a', 'b', 'c', 'd', 'e'],
})

# 从数据框中选择 A 列值大于或等于 3 的行
selected_df = df.query('A >= 3')

# 打印结果
print('Selected dataframe:', selected_df)

7. 数据提取（extract）

有时，您需要从字符串中提取特定的文本。在Python中，可以使用extract函数来实现此目的。该函数用于从字符串中提取与指定正则表达式匹配的文本。以下是一个用法示例：

import pandas as pd

# 定义一个包含字符串列的数据框
df = pd.DataFrame({
    'A': ['First sentence.', 'Second sentence.', 'Third sentence.'],
})

# 从 A 列中提取数字
df['B'] = df['A'].str.extract('(\d+)')

# 打印结果
print('Extracted dataframe:', df)

8. 描述性统计（describe）

通常，您需要对数据集执行简单的统计分析。在Python中，可以使用describe函数来执行此操作。该函数用于生成有关数据集的描述性统计信息。以下是一个用法示例：

import pandas as pd
import numpy as np

# 定义一个包含数字的数据框
df = pd.DataFrame({
    'A': np.random.randn(100),
    'B': np.random.randn(100),
})

# 生成描述性统计信息
stats_df = df.describe()

# 打印结果
print('Statistics:', stats_df)

总之，以上是比较常用的Python函数，可以帮助您更轻松地清理和整理数据。当您在Python项目中进行数据清洗和整理时，请尝试使用这些函数。