是在总体中的样本数据的均值,均值均值是表示一组数据 集中趋势 的量数,是指在一组数据中所有数据之和再除以这组数据的个数。它是反映数据集中趋势的一项指标,样本均值是总体均值的 点估计 (point estimator)
stats.ttest_rel(sample1, sample2)
在许多实际情况下,数据的真实差异事先是不知道的,必须以某种方式计算。 当处理非常大的数据时时,不可能对真实数据集中的数据进行处理,需要抽取一些样本计算其方差,也就是每一个数据与其总体均值的距离的平均数。而且样本方差是总体方差的点估计(无偏估计):
当需要比较两组数据 离散 程度大小的时候,如果两组数据的测量尺度 相差太大 ,或者数据 量纲的不同 ,直接使用标准差来进行比较不合适,此时就应当 消除 测量尺度和量纲的影响,而变异系数可以做到这一点,它是原始数据 标准差 与原始数据 平均数 的比。这样就可以进行客观比较了。事实上,可以认为变异系数和 极差 、 标准差 和 方差 一样,都是反映数据离散程度的绝对值。其数据大小不仅受 变量值离散程度 的影响,而且还受变量值 平均水平大小 的影响。简单的说: 概率分布离散程度的归一化
是样本的数字特征,他们是模拟总体数字特征构造的,称为样本矩。样本矩主要包括样本均值、未修正样本方差(总体方差)、样本(修正)方差(样本方差)、样本k阶原点矩和样本k阶中心距
样本k阶原点矩 是随机变量x'偏离'原点(0,0)的'距离'的k次方的期望值,1阶原点矩是数学期望
样本k阶中心矩 是随机变量x'偏离'中心(均值)的'距离'的k次方的期望值,2阶中心矩是方差;3阶(中心)矩表示 偏斜度; 4阶(中心)矩表示 峰度;
样本峰度 是 4阶(中心)矩/方差平方
样本偏斜 是 3阶(中心)矩
设 是取自总体X的子样本, 称为该样本的观测值,从小到大排列用 ,即 ,如果有两个值是相等的,他们先后次序是可以任意安排。第i个次序统计量 是子样本 不管是哪一组 ,其取得的观测值总是其中 为观测值。
对于容量为n的子样本可得到n个次序统计量 ,其中:
- 最小次序统计量
- 最大次序统计量
- 极差:
- 四分卫极差:
- 中位数:
奇数: X_(m+1)
偶数: (X_(m+1) + X_(m))/2
给定任意随机变量
如果样本 是独立同分布的,而次序统计量 是独立但不一定同分布。次序统计量的CDF(遵循二项分布):
对于最大值和最小值的CDF:
数据的 集中趋势 、 离散程度 和 分布形态 是 了解数据 和进行数据分析的 基础 。实际上数据总体不是够轻易得到的,即使能够得到,数据分析的成本巨大且效率低。因此,通过 样本 推导 总体 成为首选。在推断统计学中 定距数据 、 定比数据 的特性决定了它们是最适合进行推断分析的数据,描述数据的三个 维度 主要也是针对 定距数据 和 定比数据 进行的
从样本推断总体,最重要的就是通过样本的 描述性统计指标 推断总体的 描述性统计指标 ,也就是表现总体的 集中趋势 、 离散程度 和 分布形态 ,从而还原出总体数据的形象。 描述性统计指标 也被称为参数,而连接 样本参数 和 总体参数 的桥梁就是: 抽样分布
抽样方式
从
均值抽样的性质
均值抽样的均值或数学期望等于总体均值,那么其均值是总体均值的 无偏估计
均值分布的标准差在实际中计算很麻烦,如果已知总体标准差可以来推断均值样本分布的标准差
有限总体:
无限总体
在有限总体中当(N/n>20)那么修正因子的值将近似等于1,上述两个计算式相等,即有限总体无放回抽样的情况可以 省略 修正因子
给定一个任意分布的总体。每次从这些总体中随机抽取 n(n>=30) 个抽样,一共抽 m 次。 然后把这 m 组抽样分别求出平均值。 这些平均值的分布接近正态分布
转换成标准正态分布的均值抽样分布称为Z分布,而均值抽样分布服从正态分布有两种情况:
1. 抽样的总体是正态分布, 样本容量没有要求
2. 是任意分布的总体,根据中心极限定理,当样本容量n大于或等于30时,均值的抽样分布也会服从正态分布
Z统计量就是普通正态分布转换成标准正态分布的公式。
可以通过Z分布通过样本信息推断总体均值,运用到总体参数估计和假设检验中
不同于Z分布,用于根据小样本来估计呈 正态分布 且 方差未知 的总体的均值。如果 总体方差已知 (例如在样本数量足够多时),则应该用正态分布来估计总体均值(Z分布)。其统计量为:
如果已知等待分析的总体服从正态分布,从总体中抽取容量为n的所有可能样本,对每个样本都计算出它们相应的T统计量,则所有T统计量的值将组成一个连续型概率分布,这个分布就是T分布,T分布的
概率密度函数为
如果总体服从正态分布,总体标
准差未知,样本容量小于30,那么样本均值的抽样分布服从T~t(n-
1)的T分布;如果总体服从正态分布,总体标准差未知,样本容量大于或等于30时,那么样本均值的抽样分布不仅服从T~t(n-1)的T分布,而且还可以用Z分布来近似表达
是一个统计规律,可以继续补充均值抽样分布。假设数据集合,其均值 ,标准差 ,对任意常数k>=1,位于区间 内的数据比例会大于等于1- ,即 。并且无论是对称分布、有偏斜的分布还是多峰分布,切比雪夫不等式都成立。如果数据集合只是来自总体的一个随机样本,那么样本均值等于总体均值 ,样
本标准差s是总体标准差的合理估计,切比雪夫不等式还可以表示为:
卡方统计量 :是一个随机变量,它能够表明 样本方差 和 总体方差 之间的比值关系。卡方统计量决定的抽样分布就是卡方分
卡方分布
n个相互独立的随机变量 ,并服从标准(独立同分布于)正态分布。对每一个样本都计算它的卡方值那么这些卡方值将构成关于样本方差和总体方差的卡方分布。卡方分布是一个连续型概率分布,它的概率密度函数为:
代表卡方统计量;exp是自然底数,等于2.72;
·v代表自由度,等于样本容量n-1;
·c代表调节常数,使得卡方分布曲线下方的总面积等于1
F分布处理的则是两个总体之间的关系,即通过两个样本之间的关系推导出两个总体之间的关系。
假设两个正态分布总体的方差分别为 和 ,分别从两个正态分布总体中抽取样本容量为 和 的样本,样本方差分别为 和 ,其F统计量为:
可以认为是两个卡方统计相除,也叫方差比分布,是方差分析的基础。其有俩个自由度,一般来说卡发值 大 的作为 分母 , 小 的作为 分子 ,由分子和分母的两个自由度决定一个F分布曲线,F分布的概率密度函数为:
因为F统计量是由两个独立的卡方统计量被各自的自由度相除后的
比,所以F分布的分布曲线与卡方分布曲线相似。随着自由度的增加,F分布的分布曲线也越来越对称,且对称的中点为1。