unstack()函数教程：从堆叠到解堆叠

发布时间：2024-01-09 17:07:15

unstack() 是一个用于堆叠和解堆叠数据的函数，常用于 Pandas 库中的 DataFrame 和 Series 对象。它可以将多级索引的数据重新排列为一个新的 DataFrame 或 Series，或者将数据从多级索引解堆叠为单级索引的 DataFrame 或 Series。

在堆叠（stack）数据之前，我们先介绍一下多级索引（MultiIndex）。多级索引是指索引具有多个级别的结构，这使得我们可以在数据中看到更多的维度信息。在 Pandas 中，可以使用多种方式创建多级索引，例如使用 set_index() 函数指定多个列作为索引，或使用 MultiIndex.from_tuples() 函数指定元组列表作为索引。

现在，我们从一个具有多级索引的 DataFrame 开始，使用 unstack() 函数进行解堆叠。

首先，我们创建一个示例 DataFrame：

import pandas as pd

data = {'A': ['foo', 'foo', 'foo', 'bar', 'bar', 'bar'],
        'B': ['one', 'one', 'two', 'two', 'one', 'one'],
        'C': ['x', 'y', 'x', 'y', 'x', 'y'],
        'D': [1, 2, 3, 4, 5, 6],
        'E': [7, 8, 9, 10, 11, 12]}

df = pd.DataFrame(data)
df = df.set_index(['A','B','C'])
print(df)

这个 DataFrame 是一个多级索引的 DataFrame，它有三个级别的索引，分别是 A、B 和 C。现在我们使用 unstack() 函数将最后一个级别的索引进行解堆叠：

unstacked_df = df.unstack()
print(unstacked_df)

输出结果是：

   D             E          
C  x    y    x     y  
A B                    
bar one  5  6.0  11  12.0
    two  4  NaN  10   NaN
foo one  1  2.0   7   8.0
    two  3  NaN   9   NaN

我们可以看到，原来的多级索引变成了单级索引，同时解堆叠的那个级别的索引变成了列索引。

在这个例子中，我们解堆叠了 C 这个级别的索引，所以原来的 C 一共有两个值（x 和 y），现在变成了两个列，分别是 x 和 y。解堆叠之后，DataFrame 的行索引变成了原来 DataFrame 的 A 和 B 的组合，即 'bar one', 'bar two', 'foo one', 'foo two'。

unstack() 函数还有更多的参数，以便于根据不同的需求进行解堆叠操作。例如，可以指定需要解堆叠的级别的名称，默认是最里面的级别。还可以指定解堆叠之后的级别的名称，默认是解堆叠的级别的名称。另外，可以使用 dropna 参数来控制是否删除解堆叠之后可能产生的缺失值。

unstack() 函数的逆操作是 stack() 函数。如果我们想要重新将解堆叠的数据进行堆叠，在列索引上加上一个新的级别，可以使用 stack() 函数。

希望这个简短的教程能够帮助你理解 unstack() 函数，并在实际应用中能够灵活地使用它。