unstack()函数与stack()函数的对比和应用

发布时间：2024-01-09 17:21:25

unstack()函数与stack()函数是pandas库中针对数据透视表的函数。

unstack()函数可以将数据透视表中的行索引转化为列索引，相当于将多层次的行索引解压缩成单层次的列索引。stack()函数则是unstack()函数的逆操作，可以将列索引转化为行索引。

这两个函数在处理数据透视表时非常有用，可以对数据进行重塑和转换，方便后续的分析和统计。下面将结合示例演示这两个函数的用法和应用。

首先，我们准备了一个包含了多层次行索引的数据透视表，如下所示：

import pandas as pd

data = {'A': ['foo', 'foo', 'foo', 'bar', 'bar', 'bar'],
        'B': ['one', 'one', 'two', 'two', 'one', 'one'],
        'C': ['small', 'large', 'small', 'large', 'small', 'large'],
        'D': [1, 2, 3, 4, 5, 6]}

df = pd.DataFrame(data)

pivot_table = df.pivot_table(index=['A', 'B'], columns='C', values='D', aggfunc=sum)

得到的数据透视表如下所示：

C        large  small
A   B               
bar one    6.0    5.0
    two    4.0    NaN
foo one    2.0    1.0
    two    NaN    3.0

现在我们可以使用unstack()函数将多层次的行索引转化为列索引：

pivot_table_unstacked = pivot_table.unstack()

print(pivot_table_unstacked)

输出结果如下所示：

C      A    B  
large  bar  one    6.0
              two    4.0
       foo  one    2.0
small  bar  one    5.0
       foo  one    1.0
            two    3.0
dtype: float64

可以看到，unstack()函数将多层次的行索引解压缩成了单层次的列索引，方便后续的分析和统计。在这个例子中，我们可以通过unstack()函数将数据透视表的行索引转化为列索引，然后可以使用列索引进行筛选和计算。

接下来，我们再使用stack()函数将列索引转化为行索引：

pivot_table_stacked = pivot_table_unstacked.stack()

print(pivot_table_stacked)

输出结果如下所示：

C       A    B  
large   bar  one    6.0
              two    4.0
        foo  one    2.0
small   bar  one    5.0
        foo  one    1.0
              two    3.0
dtype: float64

可以看到，stack()函数将列索引转化为了行索引，恢复了原始的数据透视表结构。

除了上述示例中的用法和应用外，unstack()函数和stack()函数还可以用于其他方面的数据处理和分析。比如，在多层次索引的数据框中，可以使用unstack()函数将其中一层次的索引解压缩成列索引，方便后续的数据分析；而使用stack()函数则可以将列索引转化为行索引，从而形成多层次索引的数据框。

综上所述，unstack()函数和stack()函数在处理数据透视表时非常实用，可以对数据进行重塑和转换，方便后续的分析和统计。此外，这两个函数还可以用于多层次索引的数据框中，方便进行数据分析和处理。