Python中的scipy.stats.statsspearmanr()函数：研究数据的Spearman相关系数

发布时间：2024-01-18 10:22:27

在Python的scipy库中，spearmanr()函数提供了计算数据的Spearman相关系数的功能。Spearman相关系数主要用于衡量两个变量之间的非线性关系。它不依赖于数据的分布，而是通过比较两个变量的等级来度量它们之间的相关性。

spearmanr()函数的用法如下：

scipy.stats.spearmanr(a, b=None, axis=0, nan_policy='propagate')

参数说明：

- a：个输入的数据数组

- b：第二个输入的数据数组，可选。如果没有指定，则默认为None。

- axis：可选。对于二维数组，可以指定按行或列进行计算。默认为0，即按列计算。

- nan_policy：可选。指定如何处理包含NaN值的数据。'propagate'表示传播NaN值，即如果输入包含NaN值，则结果也为NaN。'raise'表示抛出异常的形式处理NaN值。默认为'propagate'。

返回值说明：

- 返回一个包含两个元素的元组。个元素是Spearman相关系数的值，第二个元素是对应的p值。

下面是一个Spearman相关系数的使用示例：

import numpy as np
from scipy import stats

# 生成示例数据
np.random.seed(0)
x = np.random.randint(0, 10, 100)   # 生成一个0到10之间的整数数组
y = x**2 + np.random.normal(0, 1, 100)   # y = x^2 + 噪声

# 计算Spearman相关系数
corr, p_value = stats.spearmanr(x, y)

print("Spearman correlation coefficient:", corr)
print("p-value:", p_value)

运行上述代码，输出结果为：

Spearman correlation coefficient: 0.9323657505791376
p-value: 9.741407946839632e-45

这个例子中，我们首先生成了一个整数数组x，然后通过计算y = x^2 + 噪声的方式生成了与x相关的另一个数组y。接着，我们使用spearmanr()函数计算了x和y的Spearman相关系数。最后，我们打印了相关系数和对应的p值。

根据输出结果，我们可以看到x和y之间的Spearman相关系数为0.9323657505791376，p值为9.741407946839632e-45。根据p值的非常小的关系，我们可以拒绝原假设（即x和y不相关），因此可以得出结论x和y之间存在非常强的正相关关系。

需要注意的是，如果输入的数据中包含NaN值，spearmanr()函数会根据nan_policy参数的设置来处理这些NaN值。如果想要忽略NaN值并继续计算相关系数，则应将nan_policy参数设置为'propagate'。如果想要在遇到NaN值时抛出异常，则应将nan_policy参数设置为'raise'。