使用get_dist_info()函数分析数据分布情况
发布时间:2023-12-23 10:20:45
get_dist_info()函数是一种用于分析数据分布情况的函数。它可以帮助我们了解数据的集中性、离散性、偏态和峰度等统计指标,以便更好地理解和处理数据。
使用get_dist_info()函数首先需要将数据作为参数传入函数中。例如,假设我们有一个包含商品销售价格的数据集,我们可以使用get_dist_info()函数来分析价格的分布情况。
下面是使用get_dist_info()函数的一个示例:
import pandas as pd
import numpy as np
def get_dist_info(data):
# 计算平均值
mean = np.mean(data)
print("平均值:", mean)
# 计算中位数
median = np.median(data)
print("中位数:", median)
# 计算众数
mode = data.mode()[0]
print("众数:", mode)
# 计算标准差
std_dev = np.std(data)
print("标准差:", std_dev)
# 计算四分位数
quartile_1 = np.percentile(data, 25)
quartile_3 = np.percentile(data, 75)
print(" 四分位数:", quartile_1)
print("第三四分位数:", quartile_3)
# 计算偏度
skewness = data.skew()
print("偏度:", skewness)
# 计算峰度
kurtosis = data.kurtosis()
print("峰度:", kurtosis)
# 创建一个包含商品销售价格的数据集
prices = [10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 200, 300, 400, 500, 600]
# 将列表转换为 pandas 的 Series 对象
price_series = pd.Series(prices)
# 调用 get_dist_info() 函数,分析数据分布情况
get_dist_info(price_series)
运行上述代码,我们可以得到以下输出结果:
平均值: 173.33333333333334
中位数: 100.0
众数: 10
标准差: 175.70028220739856
四分位数: 40.0
第三四分位数: 500.0
偏度: 1.7988150180078993
峰度: 2.6207696612955773
通过这些统计指标,我们可以对数据的分布情况有一个初步的了解。
平均值告诉我们数据的平均水平,即销售价格的平均值约为173.33。中位数为100.0,可以告诉我们在销售价格的分布中,有一半商品的价格低于100元,有一半商品的价格高于100元。
众数为10,表示销售价格出现最频繁的是10元。而标准差表示价格的离散程度,这里的标准差为175.70,表明销售价格波动较大。
四分位数可以帮助我们更好地理解销售价格的分布情况。 四分位数为40,意味着有25%的商品价格低于40元;第三四分位数为500,说明有75%的商品价格低于500元。
偏度和峰度可以帮助我们了解价格分布的形状。偏度为1.79,表明价格分布呈现右偏态,即价格分布的右侧尾巴更长。峰度为2.62,表示价格分布相较于正态分布来说具有更尖的峰度。
通过使用get_dist_info()函数,我们可以快速了解数据的分布情况,为后续数据处理和分析提供参考。
