欢迎访问宙启技术站
智能推送

使用Python函数进行数据清洗和整理

发布时间:2023-06-02 08:35:59

Python是一种高级编程语言,许多数据分析项目使用Python进行数据清洗和整理。 Python提供了许多有用的函数和库,可以帮助您更轻松地清理和整理数据,包括 NumPy、Pandas、Matplotlib 和 SciPy。 在本文中,我们将介绍一些常用的Python函数,以进行数据清洗和整理。

1. 去重(unique)

去重是数据清洗和整理的重要部分。Python提供了许多有用的去重函数,其中最常用的是unique函数。 该函数用于从数据数组中去除重复元素,并且仅返回 值。 以下是一个用法示例:

import numpy as np

# 定义数组
arr = np.array([3, 2, 1, 2, 3, 4, 5, 4, 3, 2, 1])

# 去除重复元素
unique_arr = np.unique(arr)

# 打印结果
print('Unique array:', unique_arr)

2. 缺失值填充(fillna)

在数据分析项目中,缺失值通常会导致麻烦。 有时,您可能需要填充缺失值以保持数据集的完整性。 在这种情况下,您可以使用fillna函数。 该函数用于将缺失值替换为指定的值。 以下是一个用法示例:

import pandas as pd
import numpy as np

# 定义包含缺失值的数据框
df = pd.DataFrame({
    'A': [1, 2, 3, np.nan, 5],
    'B': [5, np.nan, 3, np.nan, 0],
    'C': [1, 2, 3, 4, 5],
})

# 填充缺失值(替换为0)
filled_df = df.fillna(0)

# 打印结果
print('Filled dataframe:', filled_df)

3. 数据类型转换(astype)

有时,您需要将一种数据类型转换为另一种类型。 在Python中,可以使用astype函数实现此目的。 该函数用于将数据类型转换为指定的数据类型。 以下是一个用法示例:

import pandas as pd

# 定义包含数字和字符串列的数据框
df = pd.DataFrame({
    'A': [1, 2, 3, 4, 5],
    'B': ['a', 'b', 'c', 'd', 'e'],
})

# 将 A 列转换为字符串类型
df['A'] = df['A'].astype(str)

# 打印结果
print('Converted dataframe:', df)

4. 字符串清洗(strip)

在文本数据集上进行数据清洗时,清除字符串中的空格和其他不必要的字符非常重要。 Python提供了许多有用的字符串函数,其中最常用的是strip函数。 该函数用于从字符串中删除空格和特殊字符。 以下是一个用法示例:

# 定义一个字符串
txt = '  This is a sentence. '

# 清除空格和特殊字符
clean_txt = txt.strip()

# 打印结果
print('Cleaned text:', clean_txt)

5. 数据集排序(sort)

在数据分析项目中,通常需要按特定字段对数据进行排序。 在Python中,可以使用sort函数来实现此目的。 该函数用于按指定的字段对数据进行排序。 以下是一个用法示例:

import pandas as pd

# 定义一个包含数字和字符串列的数据框
df = pd.DataFrame({
    'A': [4, 3, 2, 1],
    'B': ['d', 'c', 'b', 'a'],
})

# 按 A 列进行排序
sorted_df = df.sort_values(by='A')

# 打印结果
print('Sorted dataframe:', sorted_df)

6. 数据集筛选(query)

有时,您可能需要从数据框中选择满足特定条件的行或列。 在Python中,可以使用query函数来实现此目的。 该函数用于按照给定的表达式筛选数据集。 以下是一个用法示例:

import pandas as pd

# 定义一个包含数字和字符串列的数据框
df = pd.DataFrame({
    'A': [1, 2, 3, 4, 5],
    'B': ['a', 'b', 'c', 'd', 'e'],
})

# 从数据框中选择 A 列值大于或等于 3 的行
selected_df = df.query('A >= 3')

# 打印结果
print('Selected dataframe:', selected_df)

7. 数据提取(extract)

有时,您需要从字符串中提取特定的文本。 在Python中,可以使用extract函数来实现此目的。 该函数用于从字符串中提取与指定正则表达式匹配的文本。 以下是一个用法示例:

import pandas as pd

# 定义一个包含字符串列的数据框
df = pd.DataFrame({
    'A': ['First sentence.', 'Second sentence.', 'Third sentence.'],
})

# 从 A 列中提取数字
df['B'] = df['A'].str.extract('(\d+)')

# 打印结果
print('Extracted dataframe:', df)

8. 描述性统计(describe)

通常,您需要对数据集执行简单的统计分析。 在Python中,可以使用describe函数来执行此操作。 该函数用于生成有关数据集的描述性统计信息。 以下是一个用法示例:

import pandas as pd
import numpy as np

# 定义一个包含数字的数据框
df = pd.DataFrame({
    'A': np.random.randn(100),
    'B': np.random.randn(100),
})

# 生成描述性统计信息
stats_df = df.describe()

# 打印结果
print('Statistics:', stats_df)

总之,以上是比较常用的Python函数,可以帮助您更轻松地清理和整理数据。 当您在Python项目中进行数据清洗和整理时,请尝试使用这些函数。