pandas实战技巧：如何使用unstack()函数解开数据中的堆叠

发布时间：2024-01-09 17:22:47

在使用Pandas处理数据时，有时我们会碰到数据中存在堆叠情况的情况。堆叠指的是数据的某一维度被压缩成一列，而其他维度却在同一列中多次出现。这种情况下，我们就需要使用unstack()函数解开数据的堆叠，将它们恢复成原来的多维数据结构。下面将通过一个例子来演示如何使用unstack()函数。

假设我们有一个销售数据表，其中包含了销售额和销售数量。数据表的结构如下：

| 日期 | 地区 | 产品 | 销售额 | 销售数量 |

|------------|-----------|---------|--------|-----------|

| 2021-01-01 | 北京市 | 产品A | 100 | 10 |

| 2021-01-01 | 北京市 | 产品B | 200 | 20 |

| 2021-01-01 | 上海市 | 产品A | 150 | 15 |

| 2021-01-01 | 上海市 | 产品B | 250 | 25 |

| 2021-01-02 | 北京市 | 产品A | 120 | 12 |

| 2021-01-02 | 北京市 | 产品B | 220 | 22 |

| 2021-01-02 | 上海市 | 产品A | 130 | 13 |

| 2021-01-02 | 上海市 | 产品B | 230 | 23 |

我们的目标是将上述数据表中的地区和产品两个维度解开，将它们作为列名，从而得到一个更直观的数据表。

首先，我们需要读取数据表，并设置合适的索引，使得日期成为行索引，地区和产品成为列索引。代码如下：

import pandas as pd

# 读取数据表
df = pd.read_excel('sales_data.xlsx')

# 设置日期为行索引
df.set_index('日期', inplace=True)

# 设置地区和产品为多级列索引
df.set_index(['地区', '产品'], inplace=True)

执行完上述代码后，我们得到了一个堆叠的数据表，如下所示：

| | 销售额 | 销售数量 |

|----------------|--------|----------|

| 地区 | 产品 | | |

| 北京市 | 产品A | 100 | 10 |

| | 产品B | 200 | 20 |

| 上海市 | 产品A | 150 | 15 |

| | 产品B | 250 | 25 |

| 北京市 | 产品A | 120 | 12 |

| | 产品B | 220 | 22 |

| 上海市 | 产品A | 130 | 13 |

| | 产品B | 230 | 23 |

接下来，我们可以使用unstack()函数来解开数据的堆叠。unstack()函数会将指定的列索引解开，并将其转换为列名。我们可以使用unstack()函数解开地区和产品两个维度的堆叠。代码如下：

# 解开地区和产品的堆叠
df_unstacked = df.unstack(level=[0, 1])

执行完上述代码后，我们得到了一个解开堆叠的数据表，结果如下所示：

| | 销售额 | | 销售数量 |

|----------|--------------------------|---------|-------------------------|

| 地区 | 产品 | 北京市 | 上海市 | 北京市 | 上海市 |

| | | | | |

| 日期 | | | | |

| 2021-01-01 | 产品A | 100 | 150 | 10 | 15 |

| | 产品B | 200 | 250 | 20 | 25 |

| 2021-01-02 | 产品A | 120 | 130 | 12 | 13 |

| | 产品B | 220 | 230 | 22 | 23 |

通过使用unstack()函数，我们成功将原始数据表中的地区和产品两个维度解开，并恢复成了多维数据结构，使得数据更加直观易读。

综上所述，unstack()函数是Pandas中一个非常有用的函数，它可以帮助我们解开数据中存在的堆叠，从而恢复成原来的多维数据结构。使用unstack()函数可以让数据更加直观易读，方便我们进一步分析和处理数据。希望这个例子能够帮助你更好地理解和使用unstack()函数。