误差与残差的区别

如题所述

第1个回答  2022-07-07
在统计与优化问题中,误差与残差是两个密切相关且极易混淆的概念,都是用于衡量统计样本元素的观察值与“理论值”之间的偏差。

观测值的 误差 也被称为 扰动 , 是观测值与总体量(不可观测)真实值的偏差 。

观测值的 残差,是观测值与样本量估计值的偏差 。

用 单变量分布 的例子更好说明两者之间的区别:
估计某单分布的均值(即位置模型),误差是观测值与总体均值的偏差,而残差是观测值与样本均值的偏差。同时需要注意,样本平均值的定义,随机样本内的残差之和必定为零,因此残差不是相互独立的。另一方面,统计误差是独立的,并且它们在随机样本中的总和几乎肯定不为零。

假设一个正态分布的总体具有均值 和标准差 ,则有:

样本均值为

误差为

残差为

误差平方和除以 得到具有n个自由度的卡方分布

然而,这个值是不可观察的,因为总体均数是未知的。另一方面,残差平方和是可以观察到的。与残差平方和除以 为只有n−1个自由度的卡方分布:

n和n−1自由度之间的差异导致Bessel对具有未知平均值和未知方差的总体中样本方差估计值的修正。如果已知总体平均值,则无需校正。

值得注意的是,残差平方和与样本均值可以证明是相互独立的,结合上面给出的正态分布和卡方分布,构成了涉及t统计量的计算基础:

其中 代表误差, 代表样本大小为n标准差 未知时的样本标准偏差,分母项 表示由以下公式计算的误差标准差:

分子和分母的概率分布分别取决于不可观测总体标准差 的值,但 同时出现在分子和分母中并抵消意味着即使我们不知道 ,也可以知道这个结果的概率分布:它是一个具有n−1个自由度的student-t分布。因此可以用这个比值来找到 的置信区间。这个t-统计量可以解释为“远离回归线的标准误差的数量。“

回归分析中,误差和残差之间的区别是微妙而重要的,给定一个不可观测函数,它将自变量与因变量联系起来,比如说,一条直线,因变量观测值与该函数的偏差即为不可观测误差。如果对某些数据进行回归,则因变量观测值与拟合函数的偏差即为残差。如果线性模型适用,针对自变量绘制的残差散点图应为零左右的随机分布图,且残差没有趋势。如果数据呈现趋势,则回归模型可能不正确;例如,真实函数可能是二次多项式或高阶多项式。如果它们是随机的,或者没有趋势,但是“扇出”——它们表现出一种称为异方差的现象。如果所有的残差都相等,或者没有扇出,它们表现出同构性。

然而术语上的差异出现在表达式均方误差(MSE)中。回归的均方误差是由计算的残差的平方和计算出来的数字,而不是不可观测误差的平方和。如果平方和除以n,即观察数,结果就是平方残差的平均值。由于这是对未观测误差方差的有偏估计,因此用残差平方和除以df=n−p−1而不是n来消除偏差,其中df是自由度数(n减去估计的参数(不包括截距)p的数量-1)。这形成了对未观测误差方差的无偏估计,称为均方误差。

另一种计算误差均方的方法是,在分析线性回归方差时使用方差分析(它们是相同的,因为方差分析是一种回归类型),残差的平方和(又名误差平方和)除以自由度(其中自由度等于n−p−1,其中p是模型中估计的参数数量(回归方程中每个变量一个,不包括截距)。然后还可以计算模型的平方和减去自由度,自由度就是参数的个数。然后,通过将模型的均方除以误差的均方,可以计算出F值,就可以确定显著性(这就是为什么要用均方来开始计算)。

由于回归过程的行为,即使误差本身分布相同,残差在不同数据点(输入变量)的分布也可能不同。具体地说,在误差分布相同的线性回归中,输入残差在域中间的变异性将高于域末端的残差的可变性:线性回归拟合端点的效果优于中间值。这也反映在各数据点对回归系数的影响函数上:端点的影响更大。

因此,为了比较不同输入下的残差,需要根据残差的预期变化来调整残差,这就是所谓的学习化。在检测异常值的情况下,这一点尤其重要,因为所讨论的情况与数据集中的其他情况有所不同。例如,一个大的残差可能在域的中间,但在域的末尾被认为是离群值。

From Wikipedia, the free encyclopedia
相似回答