第二章 常用统计技术

【考试趋势】

单选4-5题,多选6-8题,综合分析7-8题。

总分值30-40分。总分170分。占比20%左右。

【大纲考点】

一、方差分析

()方差分析基本概念   

1.掌握因子、水平和方差分析的三项基本假定   

2.熟悉方差分析是在同方差假定下检验多个正态均值是否相等的统计方法(难点)

()方差分析方法 

1.掌握单因子的方差分析方法(平方和分解、总平方和、因子平方和、误差平方和,自由由度、f比、显著性) (重点)

2.了解重复数不等情况下的方差分析方法。(难点)

二、回归分析   

主要研究定量因子,也就是变量分析

()散布图与相关系数   

1.掌握散布期望值与与做法   

2.掌握样本相关系数的定义、计算及其检验方法   (重点,难点)

()一元线性回归 

1.掌握用最小二乘估计建立一元线性回归方程的方法 (重点,难点)

2.掌握一元线性回归方程的检验方法(重点,难点)

3.熟悉一元线性回归方法在预测中的应用   

()了解可化为一元线性回归的曲线回归问题  

【考点解读】

第一节 方差分析

一、方差分析

1、三项基本假定-(掌握p75)

为什么要方差分析?目的和用途。方差分析不是分析方差,通过方差分析因子的显著与否。方差只是手段。对结果的影响是否显著。要用到假设检验。零假设,备择假设。

但是假设检验的前提条件是:正态分布,等方差,观测相互独立。也就是大纲里讲的三项基本假定。

 

2、方差分析的统计检验-(掌握p76)

那么如何在同方差假定下检验多个正态均值是否相等呢?其实统计检验的问题。大家想一下,零假设,备择假设是什么?

同一个因子,有不同水平,每个水平重复多次试验就得到一个分布。有几个水平就有几个分布,方差分析是看分布的均值是否相等。相等,说明因子变动对结果没影响,相差越大就越显著!

3、单因子的方差分析-(掌握p77-80)

因子a,有r个水平,也就是取值的情况,在试验中每个水平被重复m 次。那么总共可以得到多少个结果观测值呢?n=r*m个。

每个水平的和,以及均值,分别共有r个。总和为t,总均值为y

离差平方和,通俗来讲,就是每个值离开平均值的平方和。先平方,再求和。能反映离散程度,波动情况。

那么,什么因素造成观测值的波动呢?如果解释因子的离差平方和能够和结果的离差平方和很一致,那么这个因子就是显著的。

这里,因子平方和的计算很有讲究。首先,组间方差,也就是平方和,是用每个水平的均值与总均值相比较来求。因每个水平被重复试验m 次,还要乘以m

总平方和的求解概念上很简单,但计算量比较大。

因此,有个简便计算公式,每个观测的平方,求和;总和t平方,除以n=r*m;然后两者相减。大家看一下,教材78页的公式是不是这样?

同样,因子平方和的计算也有简便公式。可以这样来理解,每组的(每个水平)的均值平方,因每个水平被重复试验m 次,故 m 次求和;总和t平方,除以n=r*m;然后两者相减。

 

一般地,总平方和、因子平方和不会相等。之间的差额就是误差平方和。当然,为了验证平方和分解,还要计算一下误差平方和。

为了能使用f分布进行统计检验,还需要用到自由度的概念来构造符合f分布的统计值。

自由度(degree of freedom, df),在数学中能够自由取值的变量个数,如有3个变量xyz,但x+y+z=18,其自由度等于2。在统计学中,自由度指的是计算某一统计量时,取值不受限制的变量个数。通常df=n-k。其中n为样本含量,k为被限制的条件数或变量个数,或计算某一统计量时用到其它独立统计量的个数。电子游戏中也有自由度这个概念。这个,我就不清楚了。统计学上的自由度是指当以样本的统计量来估计总体的参数时, 样本中独立或能自由变化的资料的个数,称为该统计量的自由度。 统计学上的自由度包括两方面的内容:

首先,在估计总体的平均数时,由于样本中的 n 个数都是相互独立的,从其中抽出任何一个数都不影响其他数据,所以其自由度为n。 在估计总体的方差时,使用的是离差平方和。只要n-1个数的离差平方和确定了,方差也就确定了;因为在均值确定后,如果知道了其中n-1个数的值,第n个数的值也就确定了。这里,均值就相当于一个限制条件,由于加了这个限制条件,估计总体方差的自由度为n-1。例如,有一个有4个数据(n=4)的样本, 其平均值m等于5,即受到m=5的条件限制, 在自由确定425三个数据后, 第四个数据只能是9, 否则m≠5。因而这里的自由度v=n-1=4-1=3。推而广之,任何统计量的自由度v=n-限制条件的个数。

其次,统计模型的自由度等于可自由取值的自变量的个数。如在回归方程中,如果共有p个参数需要估计,则其中包括了p-1个自变量(与截距对应的自变量是常量1)。因此该回归方程的自由度为p-1。这个解释,如果把样本二字换成总体二字也说得过去。这个根本解释不了在统计学中,自由度的概念。在一个包含n个个体的总体中,平均数为m。知道了n-1个个体时,剩下的一个个体不可以随意变化。为什么总体方差计算,是除以n而不是n-1呢?方差是实际值与期望值之差平方的期望值,所以知道总体个数n时方差应除以n,除以n-1时是方差的一个无偏估计。

这里,自由度也有分解式。其中,总自由度和因子自由度容易求,二者之差可以求其三。

平方和与自由度之比,得均方差,ms

msa/mse=f,构造出f统计量。并计算统计值。然后与临界值,门槛值或者阈值,比较。如果大于阈值,拒绝原假设,因子显著!这个,阈值,教材上叫分位数。1- 分位数。f分位数又有2个参数,即分子和分母的自由度。

最后,列出方差分析表。

(平方和分解、总平方和、因子平方和、误差平方和,自由度、f比、显著性

如果显著,要找出最好的水平,根据均值最好的水平确定。

还可以用均值水平图直观显示。

最后,还要估计我们统计检验的误差大小。即误差方差,估计值用均方差mse

4、重复数不等情况下的方差分析-(掌握p81

 

 

 

注:许多考生常常疑惑的地方,这里给出解答,教材是没有的。

第二节 回归分析

 

1、相关系数

定义,其实可以联想一下协方差的概念。一个变量x的方差是v(x)=,那么两个变量之间的协方差呢?可以比照方差的公式。这是理解的心法!

cov(x)=协方差除以两个变量的标准差乘积就是相关系数。

相关系数的计算方法公式很有规律。

2、样本相关系数的检验-(掌握p84-85

有专门的检验表,教材上有。统计值与临界值比较。

3、最小二乘估计gls-(掌握p86

这个可能大家都很熟悉了。这里简略讲一下。

基本思想是方程的估计值与实际观测值的之间的残差平方和最小,所以英文名叫gls.一般最小二乘法。

残差平方和,离差平方和,回归平方和

下标r表示回归,英文名regression

同学看一下,上面3个公式哪个是固定的?哪个是可调的?哪个是要求最小的?

三者之间存在方差分解关系。

4、显著性检验-(掌握p87

方差分析方法来检验。关键是构造f统计量。

残差平方和,离差平方和,回归平方和

下标r表示回归,英文名regression

同学看一下,上面3个公式哪个是固定的?哪个是可调的?哪个是要求最小的?

三者之间存在方差分解关系和自由度分解关系。

 

5、模型预测-(掌握p87-88

 

两个步骤。1代入方程得到的估计值。2,给出预测精度,即置信区间。由于假定了作为随机变量,服从正态分布。所以预测精度可用预测误差来表示。

预测误差,

6、曲线回归问题-(掌握p88-92

主要是变量转换,化为一元线性回归问题。求得系数后,再还原到非线性方程。对于不同形式的方程,选优的标准有两个:判定系数和标准残差