Python的merge()函数如何处理重复值和缺失值

发布时间：2024-01-02 01:34:02

merge()函数是Python中pandas库的一个功能之一，用于将两个DataFrame对象按照指定的列进行合并。该函数可以处理重复值和缺失值，具体处理方法如下。

1. 处理重复值：

在DataFrame对象中，如果有多行具有相同的合并键（指定的列名），merge()函数会将这些行合并为一行，并且将其它列的值进行合并或者拼接。下面是一个例子：

df1 = pd.DataFrame({'key': ['A', 'B', 'C'], 'value1': [1, 2, 3]})
df2 = pd.DataFrame({'key': ['A', 'B', 'B', 'C'], 'value2': [4, 5, 6, 7]})

result = pd.merge(df1, df2, on='key')
print(result)

运行结果如下：

  key  value1  value2
0   A       1       4
1   B       2       5
2   B       2       6
3   C       3       7

在这个例子中，df1和df2中都有一个key为'B'的行，在合并时，并没有进行去重操作，而是将这两行进行了合并并且保留了重复的行。

2. 处理缺失值：

merge()函数还可以处理缺失值，即某些行不存在于其中一个DataFrame对象中的情况。具体处理方法有三种：左连接（left）、右连接（right）和外连接（outer）。

左连接：将个DataFrame对象的所有行保留下来，同时将第二个DataFrame对象中有对应合并键的行加入到结果中。

df1 = pd.DataFrame({'key': ['A', 'B', 'C'], 'value1': [1, 2, 3]})
df2 = pd.DataFrame({'key': ['A', 'D', 'D', 'E'], 'value2': [4, 5, 6, 7]})

result = pd.merge(df1, df2, on='key', how='left')
print(result)

运行结果如下：

  key  value1  value2
0   A       1     4.0
1   B       2     NaN
2   C       3     NaN

在这个例子中，df2中有两行的合并键不在df1中，使用左连接后，这两行会被保留下来，并在结果中对应的列（value2）显示为缺失值。

右连接与左连接相反，在结果中保留右边DataFrame对象的所有行，并将左边DataFrame对象中有对应合并键的行加入到结果中。

外连接是左连接和右连接的并集。在结果中保留左右DataFrame对象的所有行，并且不存在的行的对应列显示为缺失值。

除了以上三种连接方式外，merge()函数还提供了内连接（inner），在结果中只保留两个DataFrame对象中合并键完全匹配的行。

总结起来，merge()函数在处理重复值时不会自动去重，而是将重复行保留在结果中；在处理缺失值时，可以通过设置连接方式（how参数）来选择不同的连接方式，实现缺失值的处理。