欢迎访问宙启技术站
智能推送

使用get_dist_info()函数分析数据分布情况

发布时间:2023-12-23 10:20:45

get_dist_info()函数是一种用于分析数据分布情况的函数。它可以帮助我们了解数据的集中性、离散性、偏态和峰度等统计指标,以便更好地理解和处理数据。

使用get_dist_info()函数首先需要将数据作为参数传入函数中。例如,假设我们有一个包含商品销售价格的数据集,我们可以使用get_dist_info()函数来分析价格的分布情况。

下面是使用get_dist_info()函数的一个示例:

import pandas as pd
import numpy as np


def get_dist_info(data):
    # 计算平均值
    mean = np.mean(data)
    print("平均值:", mean)
    
    # 计算中位数
    median = np.median(data)
    print("中位数:", median)
    
    # 计算众数
    mode = data.mode()[0]
    print("众数:", mode)
    
    # 计算标准差
    std_dev = np.std(data)
    print("标准差:", std_dev)
    
    # 计算四分位数
    quartile_1 = np.percentile(data, 25)
    quartile_3 = np.percentile(data, 75)
    print("      四分位数:", quartile_1)
    print("第三四分位数:", quartile_3)
    
    # 计算偏度
    skewness = data.skew()
    print("偏度:", skewness)
    
    # 计算峰度
    kurtosis = data.kurtosis()
    print("峰度:", kurtosis)


# 创建一个包含商品销售价格的数据集
prices = [10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 200, 300, 400, 500, 600]

# 将列表转换为 pandas 的 Series 对象
price_series = pd.Series(prices)

# 调用 get_dist_info() 函数,分析数据分布情况
get_dist_info(price_series)

运行上述代码,我们可以得到以下输出结果:

平均值: 173.33333333333334
中位数: 100.0
众数: 10
标准差: 175.70028220739856
      四分位数: 40.0
第三四分位数: 500.0
偏度: 1.7988150180078993
峰度: 2.6207696612955773

通过这些统计指标,我们可以对数据的分布情况有一个初步的了解。

平均值告诉我们数据的平均水平,即销售价格的平均值约为173.33。中位数为100.0,可以告诉我们在销售价格的分布中,有一半商品的价格低于100元,有一半商品的价格高于100元。

众数为10,表示销售价格出现最频繁的是10元。而标准差表示价格的离散程度,这里的标准差为175.70,表明销售价格波动较大。

四分位数可以帮助我们更好地理解销售价格的分布情况。 四分位数为40,意味着有25%的商品价格低于40元;第三四分位数为500,说明有75%的商品价格低于500元。

偏度和峰度可以帮助我们了解价格分布的形状。偏度为1.79,表明价格分布呈现右偏态,即价格分布的右侧尾巴更长。峰度为2.62,表示价格分布相较于正态分布来说具有更尖的峰度。

通过使用get_dist_info()函数,我们可以快速了解数据的分布情况,为后续数据处理和分析提供参考。