自变量个数较少时,可采取强制纳入的方式,自变量个数较多时,可考虑采取逐步回归。有的研究会根据样本量大小,选择先做一元线性回归,逐个考察单个自变量的影响,然后再选择有显著影响的自变量做多重线性回归。结合相关性结果与样本量,本例拟直接采用逐步回归,接下来做多重线性逐步回归。
在“进阶方法”栏目下,选择【逐步回归】,将犯罪率拖拽至【定量Y】框内,人口、面积等6个自变量拖拽至【定量/定类X】框内。默认勾选【保存残差和预测值】,默认选择【逐步法】进行回归。最后点击“开始分析”即可。
SPSSAU输出的回归结果表格,是一张整合后的三线表表格,内含回归系数、自变量显著性t检验、模型评价决定系数R评分,以及总体回归模型显著性检验结果。具体见下图。
(1)最终模型中只保留了人口、文盲率,人口、文盲率对犯罪率的影响有统计学意义(t=2.808,p=0.007;t=6.978,p<0.01);面积、收入、高中毕业率、霜冻天数不在模型内,说明这4个自变量对犯罪率的影响无统计学意义。由标准化回归系数可知,对犯罪率的影响,相对而言是文盲率比人口相对要重要。
(2)回归模型:Hat Y = 1.652+0.00022*人口+4.081*文盲率;回归模型总体有统计学意义(F=30.75,P<0.01)。
(3)模型调整后的R平方=0.548,即该回归模型可解释因变量犯罪率变化的54.8%,模型解释能力略先不足。
除了X与Y线性相关条件外,线性回归还对残差有条件要求。主要表现为要求回归残差独立,回归残差服从正态分布,残差无异方差性。
此前我们要求SPSSAU计算并另存回归模型的残差和预测值数据,这两个新的数据,在 “我的数据”中查看数据即可看到。
绝大多数点落在对角线上,即可认为数据近似服从正态分布。本例认为满足该条件。同样地,也可以命令SPSSAU绘制残差数据带正态曲线的直方图,或正态QQ图做判断,其结论均一致。