首页天道酬勤excel多元回归分析步骤,python做logistic回归分析

excel多元回归分析步骤,python做logistic回归分析

张世龙 05-13 05:13 98次浏览

一.什么是回归分析法

“回归分析”是分析“关注变量”和“原因变量”,明确两者关系的统计方法。 此时,将因子变量称为"说明变量",将关注变量称为"目标变量地址(被说明变量) "。 明确回归分析的目的后,用回归分析预测法的步骤说明什么是回归分析法。

回归分析是指对具有因果关系的影响因素(自变量)和预测对象(因子)进行的数理统计分析处理。 只有在变量和原因变量之间存在某种关系时,创建的回归方程才有意义。 因此,判断成为自变量的因素与成为因素变量的预测对象是否相关、关系程度、以及掌握该关系程度的程度,成为进行回归分析必须解决的问题。 为了进行相关分析,一般求出相关关系,根据相关系数的大小判断自变量和因子的相关程度。

二、回归分析的目的

回归分析的目的大致分为两类:

第一个是“预测”。 预测目标变量,求解目标变量y和说明变量(x1、x2、)的方程式。

y=a0 b1x1 b2x2 … bkxk误差(方程a () ) ) ) ) ) )

方程a称为“多元”回归方程或“多元”回归模型。 a0为y切片,b1、b2、…、bk为回归系数。 当k=l时,只有一个说明变量被称为一元回归方程。 通过最小二乘和法求出最小二乘误差,不求出y截距和回归系数。 求解回归方程后,分别代入x1、x2、…xk的值,预测y的值。

二是“因子分析”。 因子分析是根据回归分析的结果,求出各自变量对目标变量的影响,因此需要求出各自变量的影响度。

初学者在阅读下一篇文章之前,希望先学习多元回归分析、关联分析、多元回归分析、量化理论等知识。

根据最小二乘法,用Excel求解y=a bx中的a和b。 那么,最小二乘法是什么?

从散点图中的每个数据标记点,创建与y轴平行的平行线,并与图中的直线相交(请参见

平行线的长度在统计学中称为“误差”或“残差”。 误差(残差)是指分析结果的运算值与实际值之差。 据此,求出平行线长度的曲子的平方值。 平方值可被视为边长与平行线长度相等的正方形面积(例如

最后,求所有正方形面积之和。 决定使面积之和最小的a (截距)和b (回归系数)的值)下图。

使用Excel求解回归方程的“工具”“数据分析”“回归”,具体操作步骤将在后面的文章中具体说明。

线性回归的顺序无论是单项还是多元都一样,顺序如下。

1、散点图判断变量关系(简单线性);

2、求相关系数及线性验证;

3、求回归系数,建立回归方程;

4、回归方程检验;

5、参数区间估计;

6、预测;

一元线性回归操作与解释

摘要

一元线性回归可以说是数据分析中非常简单的知识点。 有一点统计、分析、建模经验的人知道这个分析的意思,并使用各种工具做这个分析。 在这里,我想说明这个分析背后的详细情况,也就是后面的数学原理。

什么是一元线性回归

回归分析(Regression Analysis )是确定两个或多个变量之间相互依赖的定量关系的统计分析方法。 在回归分析中,只包含一个自变量和一个因子,且两者的关系可以用直线近似表示,这种回归分析称为一元线性回归分析。 举个例子:

例如,在一家公司中,每月的广告费用和销售额如下表所示

案例数据

将广告费和销售额标在二维坐标内,就可以得到散点图。 如果想探索广告费与销售额的关系,可以利用一元线性回归来建立拟合直线。

拟合直线

这条线是怎么画的

在一元线性回归中,可以认为y的值随x的值而变化。 每个实际x都有实际的y值。 称为y的实际。 那么,求出直线。 每个实际x都有直线预测的y值。 称为y预测。 回归直线使每个y的实际值与预测值之差的平方和最小。 即,(Y1实际-Y1预测((() ) ) 65

现在,让我们来实际求出这条线:

我们知道直线在坐标系中可以表示为Y=aX b,因此((y实-Y预测)为) y实- ) (ax实b ) )。 然后,平方和可以写为a和b的函数。 只要求出使q最小的a和b的值,就能求出回归直线的值。

请轻松插入函数的最小值。

首先,一元函数最小值点的导数为零。 例如,Y=X^2,X^2的导数为2X,取2X=0,求X=0时,y取最小值。

那么,实质上二元函数也同样可以类推。 请将二元函数图像视为曲面,将最小值视为凹陷。 于是在这个凹陷的底部,从任意方向看,偏导数都是0。

因此,如果对函数q分别求出a和b的偏导数,然后将偏导数设为0,就可以得到关于a和b的二元方程式,可以

求出a和b了。这个方法被称为最小二乘法。下面是具体的数学演算过程,不愿意看可以直接看后面的结论。

先把公式展开一下:

Q函数表达式展开

然后利用平均数,把上面式子中每个括号里的内容进一步化简。例如

Y^2的平均

则:

上式子两边×n

于是

Q最终化简结果

然后分别对Q求a的偏导数和b的偏导数,令偏导数等于0。

Q分别对a和b求偏导数,令偏导数为0

进一步化简,可以消掉2n,最后得到关于a,b的二元方程组为

关于a,b的 二元方程组

最后得出a和b的求解公式:

最小二乘法求出直线的斜率a和斜率b

有了这个公式,对于广告费和销售额的那个例子,我们就可以算出那条拟合直线具体是什么,分别求出公式中的各种平均数,然后带入即可,最后算出a=1.98,b=2.25

最终的回归拟合直线为Y=1.98X+2.25,利用回归直线可以做一些预测,比如如果投入广告费2万,那么预计销售额为6.2万

评价回归线拟合程度的好坏

我们画出的拟合直线只是一个近似,因为肯定很多的点都没有落在直线上,那么我们的直线拟合程度到底怎么样呢?在统计学中有一个术语叫做R^2(coefficient ofdetermination,中文叫判定系数、拟合优度,决定系数,系统不能上标,这里是R^2是“R的平方”),用来判断回归方程的拟合程度。

首先要明确一下如下几个概念:

总偏差平方和(又称总平方和,SST,Sum of Squaresfor Total):是每个因变量的实际值(给定点的所有Y)与因变量平均值(给定点的所有Y的平均)的差的平方和,即,反映了因变量取值的总体波动情况。如下:

SST公式

回归平方和(SSR,Sum of Squares forRegression):因变量的回归值(直线上的Y值)与其均值(给定点的Y值平均)的差的平方和,即,它是由于自变量x的变化引起的y的变化,反映了y的总偏差中由于x与y之间的线性关系引起的y的变化部分,是可以由回归直线来解释的。

SSR公式

残差平方和(又称误差平方和,SSE,Sum of Squaresfor Error):因变量的各实际观测值(给定点的Y值)与回归值(回归直线上的Y值)的差的平方和,它是除了x对y的线性影响之外的其他因素对y变化的作用,是不能由回归直线来解释的。

这些概念还是有些晦涩,我个人是这么理解的:

就拿广告费和销售额的例子来说,其实广告费只是影响销售额的其中一个比较重要的因素,可能还有经济水平、产品质量、客户服务水平等众多难以说清的因素在影响最终的销售额,那么实际的销售额就是众多因素相互作用最终的结果,由于销售额是波动的,所以用上文提到的每个月的销售额与平均销售额的差的平方和(即总平方和)来表示整体的波动情况。

回归线只表示广告费一个变量的变化对于总销售额的影响,所以必然会造成偏差,所以才会有实际值和回归值是有差异的,因此回归线只能解释一部分影响

那么实际值与回归值的差异,就是除了广告费之外其他无数因素共同作用的结果,是不能用回归线来解释的。

因此SST(总偏差)=SSR(回归线可以解释的偏差)+SSE(回归线不能解释的偏差)

那么所画回归直线的拟合程度的好坏,其实就是看看这条直线(及X和Y的这个线性关系)能够多大程度上反映(或者说解释)Y值的变化,定义

R^2=SSR/SST 或 R^2=1-SSE/SST, R^2的取值在0,1之间,越接近1说明拟合程度越好

假如所有的点都在回归线上,说明SSE为0,则R^2=1,意味着Y的变化100%由X的变化引起,没有其他因素会影响Y,回归线能够完全解释Y的变化。如果R^2很低,说明X和Y之间可能不存在线性关系

还是回到最开始的广告费和销售额的例子,这个回归线的R^2为0.73,说明拟合程度还凑合。

四、相关系数R和判定系数R^2的区别

判定系数R^2来判断回归方程的拟合程度,表示拟合直线能多大程度上反映Y的波动。

在统计中还有一个类似的概念,叫做相关系数R(这个没有平方,学名是皮尔逊相关系数,因为这不是唯一的一个相关系数,而是最常见最常用的一个),用来表示X和Y作为两个随机变量的线性相关程度,取值范围为【-1,1】。

当R=1,说明X和Y完全正相关,即可以用一条直线,把所有样本点(x,y)都串起来,且斜率为正,

当R=-1,说明完全负相关,及可以用一条斜率为负的直线把所有点串起来。

如果在R=0,则说明X和Y没有线性关系,注意,是没有线性关系,说不定有其他关系。

就如同这两个概念的符号表示一样,在数学上可以证明,相关系数R的平方就是判定系数。

变量的显著性检验

变量的显著性检验的目的:剔除回归系数中不显著的解释变量(也就是X),使得模型更简洁。在一元线性模型中,我们只有有一个自变量X,就是要判断X对Y是否有显著性的影响;多元线性回归中,验证每个Xi自身是否真的对Y有显著的影响,不显著的就应该从模型去掉。

变量的显著性检验的思想:用的是纯数理统计中的假设检验的思想。对Xi参数的实际值做一个假设,然后在这个假设成立的情况下,利用已知的样本信息构造一个符合一定分布的(如正态分布、T分布和F分布)的统计量,然后从理论上计算得到这个统计量的概率,如果概率很低(5%以下),根据“小概率事件在一次实验中不可能发生”的统计学基本原理,现在居然发生了!(因为我们的统计量就是根据已知的样本算出来的,这些已知样本就是一次实验)肯定是最开始的假设有问题,所以就可以拒绝最开始的假设,如果概率不低,那就说明假设没问题。

其实涉及到数理统计的内容,真的比较难一句话说清楚,我举个不恰当的例子吧:比如有一个口袋里面装了黑白两种颜色的球一共20个,然后你想知道黑白球数量是否一致,那么如果用假设检验的思路就是这样做:首先假设黑白数量一样,然后随机抽取10个球,但是发现10个都是白的,如果最开始假设黑白数量一样是正确的,那么一下抽到10个白的的概率是很小的,但是这么小概率的事情居然发生了,所以我们有理由相信假设错误,黑白的数量应该是不一样的……

总之,对于所有的回归模型的软件,最终给出的结果都会有参数的显著性检验,忽略掉难懂的数学,我们只需要理解如下几个结论:

T检验用于对某一个自变量Xi对于Y的线性显著性,如果某一个Xi不显著,意味着可以从模型中剔除这个变量,使得模型更简洁。

F检验用于对所有的自变量X在整体上看对于Y的线性显著性

T检验的结果看P-value,F检验看Significant F值,一般要小于0.05,越小越显著(这个0.05其实是显著性水平,是人为设定的,如果比较严格,可以定成0.01,但是也会带来其他一些问题,不细说了)

下图是用EXCEL对广告费和销售额的例子做的回归分析的结果(EXCEL真心是个很强大的工具,用的出神入化一样可以变成超神),可以看出F检验是显著的(Significance F为0.0017),变量X的T检验是显著的(P-value为0.0017),这俩完全一样也好理解,因为我们是一元回归,只有一个自变量X。

用Excel做线性回归分析

还有一点是intercept(截距,也就是Y=aX+b中的那个b)的T检验没有通过,是不显著的,一般来说,只要F检验和关键变量的T检验通过了,模型的预测能力就是OK的。

最后推荐一个很好的统计学课程

这门课是统计学入门课程,将涵盖统计学所有的主要知识,包括:随机变量、均值方差标准差、统计图表、概率密度、二项分布、泊松分布、正态分布、大数定律、中心极限定理、样本和抽样分布、参数估计、置信区间、伯努利分布、假设检验和p值、方差分析、回归分析等内容。

一共80多条视频,全长800多分钟,只能说这是我看过的最好的统计学教程,没有之一,如果本科能看到这个水平的教程,我也不会靠考场上的纸条过这门课了。

其实如果懂一点真正的统计学,生活中会多一些看问题的角度,还是挺有意思的。

一元线性回归就说到这里,谢谢大家!

使用Excel数据分析工具进行多元回归分析

在“数据”工具栏中就出现“数据分析”工具库,如下图所示:

给出原始数据,自变量的值在A2:I21单元格区间中,因变量的值在J2:J21中,如下图所示:

假设回归估算表达式为:

试使用Excel数据分析工具库中的回归分析工具对其回归系数进行估算并进行回归分析:

点击“数据”工具栏中中的“数据分析”工具库,如下图所示:

在弹出的“数据分析”-“分析工具”多行文本框中选择“回归”,然后点击 “确定”,如下图所示:

弹出“回归”对话框并作如下图的选择:

上述选择的具体方法是:

在“Y值输入区域”,点击右侧折叠按钮,选取函数Y数据所在单元格区域J2:J21,选完后再单击折叠按钮返回;这过程也可以直接在“Y值输入区域”文本框中输入J2:J21;

在“X值输入区域”,点击右侧折叠按钮,选取自变量数据所在单元格区域A2:I21,选完后再单击折叠按钮返回;这过程也可以直接在“X值输入区域”文本框中输入A2:I21;

置信度可选默认的95%。

在“输出区域”如选“新工作表”,就将统计分析结果输出到在新表内。为了比较对照,我选本表内的空白区域,左上角起始单元格为K10.点击确定后,输出结果如下:

第一张表是“回归统计表”(K12:L17):

其中:

Multiple R:(复相关系数R)R2的平方根,又称相关系数,用来衡量自变量x与y之间的相关程度的大小。本例R=0.9134表明它们之间的关系为高度正相关。(Multiple:复合、多种)

R Square:复测定系数,上述复相关系数R的平方。用来说明自变量解释因变量y变差的程度,以测定因变量y的拟合效果。此案例中的复测定系数为0.8343,表明用用自变量可解释因变量变差的83.43%

Adjusted R Square:调整后的复测定系数R2,该值为0.6852,说明自变量能说明因变量y的68.52%,因变量y的31.48%要由其他因素来解释。( Adjusted:调整后的)

标准误差:用来衡量拟合程度的大小,也用于计算与回归相关的其它统计量,此值越小,说明拟合程度越好

观察值:用于估计回归方程的数据的观察值个数。

第二张表是“方差分析表”:主要作用是通过F检验来判定回归模型的回归效果。

该案例中的Significance F(F显著性统计量)的P值为0.00636,小于显著性水平0.05,所以说该回归方程回归效果显著,方程中至少有一个回归系数显著不为0.(Significance:显著)

第三张表是“回归参数表”:

K26:K35为常数项和b1~b9的排序默认标示.

L26:L35为常数项和b1~b9的值,据此可得出估算的回归方程为:

该表中重要的是O列,该列的O26:O35中的 P-value为回归系数t统计量的P值。

值得注意的是:其中b1、b7的t统计量的P值为0.0156和0.0175,远小于显著性水平0.05,因此该两项的自变量与y相关。而其他各项的t统计量的P值远大于b1、b7的t统计量的P值,但如此大的P值说明这些项的自变量与因变量不存在相关性,因此这些项的回归系数不显著

转载于:http://blog.sina.com.cn/s/blog_a20c88b601014j9x.html

logit回归模型,Logistic回归分析 数学建模多元线性回归模型,数学建模多元回归模型