Python实现数据清洗与预处理技术

发布时间：2023-12-27 08:46:25

在进行数据分析和建模之前，数据清洗和预处理是非常重要的步骤。数据清洗是指对原始数据进行处理，以纠正、删除或填充缺失的数据、清除冗余数据、处理异常值等。数据预处理是指对数据进行转换和归一化，以提高数据质量和可用性。

以下是一些常见的Python数据清洗和预处理技术，以及相应的使用示例。

1. 缺失值处理：对于包含缺失值的数据，一种常见的处理方法是删除包含缺失值的行或列，另一种方法是使用均值、中位数或其他统计量来填充缺失值。

import numpy as np
import pandas as pd

# 创建包含缺失值的DataFrame
df = pd.DataFrame({'A': [1, 2, np.nan], 'B': [np.nan, 3, 4]})

# 删除包含缺失值的行
df.dropna(inplace=True)

# 使用均值填充缺失值
df.fillna(df.mean(), inplace=True)

2. 重复值处理：对于存在重复值的数据，可以使用drop_duplicates()方法删除重复值。

import pandas as pd

# 创建包含重复值的DataFrame
df = pd.DataFrame({'A': [1, 1, 2, 3], 'B': [4, 5, 5, 6]})

# 删除重复值
df.drop_duplicates(inplace=True)

3. 异常值处理：对于存在异常值的数据，可以使用统计方法、箱线图等进行检测和处理。

import numpy as np
import pandas as pd
import seaborn as sns

# 创建包含异常值的DataFrame
df = pd.DataFrame({'A': [1, 2, 3, 4, 100]})

# 使用3倍标准差法检测异常值
mean = np.mean(df['A'])
std = np.std(df['A'])
threshold = 3 * std
df = df[np.abs(df['A'] - mean) < threshold]

# 使用箱线图检测异常值
sns.boxplot(x=df['A'])

4. 数据转换：可以使用函数、映射、字符串处理等方法对数据进行转换。

import pandas as pd

# 创建包含字符串的DataFrame
df = pd.DataFrame({'A': ['cat', 'dog', 'cat', 'dog']})

# 字符串映射为数字
mapping = {'cat': 0, 'dog': 1}
df['A'] = df['A'].map(mapping)

# 使用正则表达式提取字符串中的数字
df['A'] = df['A'].str.extract('(\d+)')

5. 数据归一化：对于具有不同量纲或取值范围的数据，可以使用归一化方法将其缩放到统一的范围内，例如将数据缩放到[0,1]或使用标准化方法。

import pandas as pd
from sklearn.preprocessing import MinMaxScaler, StandardScaler

# 创建包含数值数据的DataFrame
df = pd.DataFrame({'A': [1, 2, 3, 4]})

# 使用Min-Max归一化将数据缩放到[0,1]
scaler = MinMaxScaler()
df['A'] = scaler.fit_transform(df[['A']])

# 使用标准化将数据转换为均值为0，标准差为1的分布
scaler = StandardScaler()
df['A'] = scaler.fit_transform(df[['A']])

以上是一些常见的Python数据清洗和预处理技术的示例，根据具体的数据和问题，可以选择适合的方法进行数据清洗和预处理，以提高数据的质量和可用性。