相关分析

如题所述

第1个回答  2022-06-08

相关关系指变量之间存在着非确定性依存关系。即当一个或一组变量每取一个值时,相应的另一个变量可能有多个不同值与之对应。
——相关关系可以理解为多个变量均值之间的一种数量关系!

按变量的个数分类:

对变量之间关系密切程度的度量

若相关系数是根据总体全部数据计算的,称为 总体相关系数 ,记为 。若是根据样本数据计算的,则称为 样本相关系数 , 记为 r。

根据数值大小来判定相关密切程度方面,尚无一致意见。一般常划分为四级: 数值在0.3以下者视为不相关,0.3~0.5属低度相关,0.5-0.8属显著相关,0.8以上属高度相关(仅供参考,需根据实际情况判断)。

为了定量的描述线性相关性,统计学奠基人K. Pearson提出了Pearson积差相关系数、心理学家CE. Spearman提出了Spearman等级相关系数、统计学家M. Kendall提出了Kendall秩相关系数。这三种相关系数最具有代表性、应用也最广泛,它们既有联系又有不同,分别有不同的适用场景。

Pearson相关系数 (Pearson correlation coefficient)用于度量两个变量X、Y的相关性,定义如下:
上述公式又被称为相关系数的积差法计算公式,其中分子位置的 表示变量X与Y的协方差(消除了变量个数的影响),分母位置的两变量的标准差 的作用是使不同变量的协方差 标准化 ,用于消除变量本身数值大小的影响。

!注意:

下图给出了当Pearson相关系数为不同值时X和Y的散点图(以下三张图片均来自于Wikipedia):

Spearman相关系数实际上就是将变量X和Y替换成其对应等级x, y的Pearson相关系数:
相较于Pearson相关系数,Spearman相关系数更能描述两个变量之间的单调性的相关性,对于样本中的显著离群点更为不敏感。比如,下图中变量X和Y的Pearson相关系数、Spear-man相关系数分别为0.88与1,显然Spearman相关系数更好地刻画了两个变量增长趋势的相关性。

下图更好地表现出了Spearman相关系数的抗噪音性:

Kendall相关系数是另一种等级相关统计量,其主要思想是根据两个变量序对的一致性 (concordance)来判断相关性的。一致性序对 (concordant pair)定义如下:如果变量对 、 且 满足当 时 ,或者当 时 。反之,则为非一致性序对。

Kendall相关系数的定义如下:
其中,P为一致性序对的个数,Q为非一致性序对个数,则P+Q=n(n−1/2),因此上式可改写为: , 显然τ的取值范围为[-1, 1] 。

基本步骤:

检验方法:

相似回答