首页天道酬勤简单线性回归的基本步骤,eviews线性概率模型回归

简单线性回归的基本步骤,eviews线性概率模型回归

张世龙 05-12 06:46 26次浏览

[b]Glossary:[/b]

ls (最后序列)最小二乘法

R-sequared采样判决系数(R2 )值为0-1,接近1表示拟合越好,认为0.8是可接受的,但R2随着变量的增加而变大,为了解决这个问题进行调整

调整r-seqaured (

S.E of regression回归标准误差

Log likelihood对数似然比:残差越小表示l值越大,越大表示模型正确

杜比- Watson stat:dw统计量,0-4之间

均值从属var变量

S.D. dependent var变量的标准差

Akaike info criterion红池信息量(AIC ) (越小表示模型越准确) )。

Schwarz ctiterion:史瓦西信息量(SC ) (越小表示模型越准确) ) )。

前静态(prob )伴随的概率

拟合值)

[b]线性回归的基本假设: [/b]

1 .自变量之间不相关

2 .随机误差相互独立,服从期望值为0、标准差为的正态分布

3 .样本数量大于参数数量

[b]建模方法:[/b]

ls y c x1 x2 x3 .

x1 x2 x3的选择首先进行各序列间的简单相关系数的计算,由于变量的相关系数大,所以选择自变量的相关系数小的变量。 模型的实务意义也有指导意义。 例如,m1和gdp一定是相关的。

模型的建立简单,复杂的是模型的检验、评价和后续的调整、偏好。

[b]模型检查: [/b]

1 )方程显着性检验(f检验)模型拟合样本的效果,即所有选定自变量对因子的解释力

如果f大于阈值,将拒绝0的假设。

Eviews给出0假设(所有系统都为0的假设)犯错误(第一类错误或错误)的概率(尾概率或伴随概率) p的值,并且如果p小于置信度(0.05 )则可以拒绝0假设。 也就是说,认为方程式的显着化很明显。

2 )回归系数显性化检验(t检验) :检验各自变量的合理性

大于|t|阈值意味着可拒绝系数为0的假设,即系数是合理的。 t分布自由度为n-p-1,n为采样数,p为系数位置

3 ) DW检验)检验残差序列的自相关性,检验基本假设2 )随机误差相互独立) )。

残差:模型计算值和数据实测值的差为残差

0=dw=dl残差序列为正相关,dudw4-du无自相关,4-dldw=4为负相关,如果不在以上3区间,则验证失败,无法判断

由于demo中dw=0.141430、dl=1.73369、du=1.7786,因此存在正相关

[b]模型评估[/b]

目的:在不同模型中择优

1 )样本决策系数R-squared及修正的R-squared

R-squared=SSR/SST表示总方差平方和中能用回归式说明的部分的比例,比例越大表示能用回归式说明的部分越多。

adjustr-seqaured=1-(n-1 )/(n-k ) (1-R2 ) ) ) ) )。

2 )对数似然值(Log Likelihood,缩写为l ) ) ) ) ) ) )

残差越小,l越大

3 ) AIC指南

AIC=-2L/n 2k/n。 其中,l为log likelihood,n为样品总量,k为参数个数。

AIC被认为是逆向修正的l,AIC越小表示模型越准确。

4 ) SC指南

sc=-2L/nk*ln(n )/n

使用方法与AIC非常接近

[b]预测forecast[/b]

均方根误差

meanabsoluteerror(Mae )平均绝对误差

这两个变量取决于因子的绝对值

mape(meanABS.percenterror )是平均绝对百分比误差,一般认为MAPE10的预测精度较高

“Theil Inequality Coefficient”(水蛭不等因子)的值为0-1,越小表示拟合值与真值之间的差越小。

偏差率、bp反映预测值与真值的平均值之间的差

反映方差、视口、预测值和真实值之间的标准差差异

协变率(covariance Proportion ),cp反映了剩下的误差

以上三项加起来就是一。

理想情况下,bp、vp比较小,预计值集中在cp上。

eviews不能直接计算预测值的置信区间,需要用置信区间的上下限式计算。 怎么操作?

[b]其他[/b]

1 ) Chow检查

chow's breakpoint检查

零假设是两个子样本拟合的方程没有显著性差异。 如果有差异,就说明关系的结构发生了变化

正在进行演示

Chow Breakpoint Test: 1977Q1

f-statistic 2.95511837136742 prob.f (3,174 ) 0.0339915698953355

loglikelihoodratio 8.94507926849178 prob.chi-square (3) 0.0300300700

620291

p值<0.05,可拒绝0假设,即认为各个因素的影响强弱发生了改变。
问题是如何才能准确的找到这个或这几个断点?目前的方法是找残差扩大超出边线的那个点,但这是不准确的,在demo中1975Q2的残差超出,但是chow's breakpoint检验的两个p值都接近0.2,1976Q3开始两个p值才小于0.05,并且有逐渐减小之势。
chow's forecast检验
用断点隔断样本,用之前的样本建立回归模型,然后用这个模型对后一段进行预测,检验这个模型对后续样本的拟合程度。
0假设是:模型与后段样本无显著差异
demo中的1976Q4作为break point,得到两个p值为0,即认为两段样本的系数应该是不同的。
2)自变量的选择
testadd检验:
操作方法是: eqation name.testadd ser1 ser2 ...
0假设:应该将该变量引入方程
检验统计量:wald,LR
结果:通过两个p值(Prob. F,Prob Chi-sequare)看是否拒绝原假设
testdrop检验:
操作方法是: eqation name.testdrop ser1 ser2 ...
0假设:应该将该变量剔除
检验统计量:wald,LR
结果:通过两个p值(Prob. F,Prob Chi-sequare)看是否拒绝原假设

含定性变量的回归模型
分为:自变量含定性变量,因变量含定性变量。后一种情况较为复杂
建立dummy 变量(名义变量):用D表示
当变量有m种情况时,需要引入m-1个dummy变量
处理办法:把定性变量定义成0.1.2等数值后和一般变量同样处理

[b]常见问题及对策[/b]
1)[b]多重共线性(multicollinearity):[/b]
p个回归变量之间存在严格或近似的线性关系
诊断方法:
1.如果模型的R-sequared很大,F检验通过,但是某些系统的t检验没通过
2.某些自变量系数之间的简单相关系数很大
3.回归系数符号与简单相关系统符号相反
以上3条发生都有理由怀疑存在多重共线性
方差扩大因子(variance inflation factor VIFj)是诊断多重共线性的常用手段。
VIFj为矩阵(X’ X)-1第j个对角元素cjj=1/(1-R2j)(j=1,2…,p)
其中R2j为以作为cj因变量,其余p-1个自变量作为自变量建立多元回归模型所得的样本决定系数,所以R2j越大则说明自变量之间自相关性越大,此时也越大,可以认为VIFj>10(R2j>0.9)则存在多重共线性。
还可以使用VIFj的平均数作为判断标准,如果avg(VIFj)远大于10则认为存在多重共线性。
eviews里如何使用VIF法?--建立方程,然后手工建立scalar vif。demo中GDP和PR的vif为66,存在多重共线性? 只有一个自变量的方程是否会失效?此时dw值只有0.01远小于dl,说明GDP远远不是PR能决定的。结合testdrop将PR去除,两个p值为0,说明不能把PR去除。
在eviews中当自变量存在严重的多重共线性时将不能给出参数估计值,而会报错:nearly singular matrix

多重共线性的处理:
1.剔除自变量,选择通过testdrop实验,并且vif值最大的那个
2.差分法,在建立方程时填入 ls m1-m1(-1) c gdp-gdp(-1) pr-pr(-1)。m1(-1)表示上一个m1
差分法常常会丢失一些信息,使用时应谨慎。 demo中得到的模型,c 的p值0.11, pr-pr(-1)的p值为0.60,说明参数无效。

2)[b]异方差性(Herteroskedasticity)[/b]
即随机误差项不满足基本假设的同方差性,异方差性说明随机误差中有些项对因变量的影响是不同于其他项的。
一般地,截面数据做样本时出现异方差性的可能较大,或者说都存在异方差性
若存在异方差性,用OLS估计出来的参数,可能导致估计值虽然是无偏的,但不是有效的。
(截面数据就是同一时间点上各个主体的数据,比如2007年各省的GDP数据放在一起就是一组截面数据
与之相对的是时间序列数据 如河北省从00年到07年的数据就是一组时间序列数据
两者综合叫面板数据 )
00年到07年各省的数据综合在一起就叫面板数据
诊断方法:
1.图示法,以因变量作为横坐标,以残差项为纵坐标,根据散点图判断是否存在相关性。
(选择两个序列作为group打开,先选中的序列将作为group的纵坐标)
2.cmdyg(Glejser)检验:
??
3.怀特(White)检验:
用e2作为因变量,原先的自变量及自变量的平方(还可以加上各自变量之间的相互乘积)作为自变量 建立模型。
怀特检验的统计量为:m=n*R2(n是样本容量,R2是新模型的拟合优度), m~ χ2(k) k为新模型除常数项之外的自变量个数
零假设:模型不存在异方差性
操作:在估计出来的方程中,view-residual tests-White Herteroskedasticity(no cross/cross) 分别为是否含自变量交叉项
demo中的两个p值为0,所以拒绝零假设,认为存在严重的异方差性。

异方差性的处理:
1.加权最小二乘法(WLS weighted least sequare)。
最常用的方法,一般用于异方差形式可知的情况。基本思路是赋予残差的每个观测值不同的权数,从而使模型的随机误差项具有相同的方差。
2.自相关相容协方差(Heteroskedasticity and antocorrelation consistent convariances HAC)
用于异方差性形式未知时。在建模时在options中选择Heteroskedasticity consistent convariances 再从white,newey-west中选择一种。
HAC不改变参数的点估计,改变的知识估计标准差。如何改变标准差?

3)[b]自相关性[/b]
残差项不满足相互独立的假设。一般的,经济时间序列中自相关现象较为常见,这主要是经济变量的滞后性带来的。
自相关性将导致参数估计值虽然是无偏的,但不是有效的。
诊断方法:
1.绘制残差序列图。如果序列图成锯齿形或循环状的变化,可以判定存在自相关
2.回归检验法:
以残差e(t)为被解释变量,以各种可能的相关变量,如 e(t-1) e(t-2)作为自变量,选择显著的最优拟合模型作为自相关的形式。
demo中以 ls residm1 c residm1(-1) residm1(-2)后 发现c的p值为0.54,做testdrop实验,两个p值都>0.5 可以将c剔除。剔除c后:
Dependent Variable: RESIDM1
Method: Least Squares
Date: 12/29/07 Time: 11:26
Sample (adjusted): 1952Q3 1996Q4
Included observations: 178 after adjustments

Variable Coefficient Std. Error t-Statistic Prob.

RESIDM1(-1) 1.215361 0.077011 15.78173 0.0000
RESIDM1(-2) -0.271664 0.078272 -3.470763 0.0007

R-squared 0.868569 Mean dependent var 0.011855
Adjusted R-squared 0.867823 S.D. dependent var 26.91138
S.E. of regression 9.783961 Akaike info criterion 7.410538
Sum squared resid 16847.76 Schwarz criterion 7.446289
Log likelihood -657.5379 Durbin-Watson stat 2.057531

模型的r-sequared稍小,参数很显著,dw显示为无自相关。
但是常数c能剔除吗?剔除后模型没有f-statistic和对应p值,原理何在?
3.DW检验法
用于小样本的一阶自相关情况,缺点:当回归方程右边存在因变量的滞后项如m1(t-i) (i=1,2,...)时,检验失败。

解决办法:
1.差分法
用增量数据代替原来的样本数据,较好的克服了自相关,但是改变了原方程的形式,意义不大。
2.Cochrane-Orcutt迭代法
不能有常数项!验证了回归检验的中的做法。
建立新方程时,e同e(-1) e(-2) 相关,有两个系数如何处理?

--《数据分析与EVIEWS应用》读书笔记
eviews面板数据教程,eviews可以做面板数据吗