通过unstack()函数快速对二维数据进行展开

发布时间：2024-01-09 17:13:41

unstack()函数是pandas库中的一个函数，用于快速对二维数据进行展开。在pandas中，数据通常以DataFrame的形式存储，DataFrame是一个二维表格，类似于Excel中的工作表。每个DataFrame都有一个索引（index）和列（columns），数据可以按照索引和列进行访问和操作。

unstack()函数可以将DataFrame中的一个或多个列索引（MultiIndex）转换为行索引，从而实现对二维数据的展开。展开后的数据形式更加直观，便于分析和可视化。

下面以一个简单的例子来演示unstack()函数的使用。

首先，我们创建一个包含人员、科目和成绩的DataFrame，如下所示：

import pandas as pd

data = {'Name': ['Tom', 'Jerry', 'Alice', 'Bob'],
        'Subject': ['Math', 'Physics', 'Chemistry', 'Math'],
        'Score': [90, 85, 95, 80]}

df = pd.DataFrame(data)

print(df)

输出结果为：

    Name    Subject  Score
0    Tom       Math     90
1  Jerry    Physics     85
2  Alice  Chemistry     95
3    Bob       Math     80

接下来，我们使用set_index()函数将科目设置为行索引，代码如下：

df = df.set_index('Subject')

print(df)

输出结果为：

            Name  Score
Subject                
Math         Tom     90
Physics    Jerry     85
Chemistry  Alice     95
Math         Bob     80

现在，我们可以看到科目已经成为了行索引。

最后，我们可以使用unstack()函数将科目展开为列索引，代码如下：

df = df.unstack()

print(df)

输出结果为：

            Subject  
Name        Math         Tom
            Physics    Jerry
            Chemistry  Alice
            Math         Bob
Score       Math          90
            Physics      85
            Chemistry    95
            Math          80
dtype: object

展开后的数据形式更加直观，每一行表示一个数据点，包括人员、科目和成绩。

unstack()函数还可以指定展开的层级，例如，如果DataFrame中有多个级别的列索引，则可以通过指定level参数来控制展开的层级数。另外，unstack()函数还可以在展开后对缺失值进行填充，例如指定fill_value参数。

在实际应用中，unstack()函数经常配合其他函数一起使用，例如groupby()函数对数据进行分组后，再使用unstack()函数展开分组后的结果，从而实现更加复杂的数据操作和分析。

以上就是通过unstack()函数快速对二维数据进行展开的使用例子。通过unstack()函数，我们可以将DataFrame中的列索引转换为行索引，实现数据的展开，便于数据的分析和可视化。