首页天道酬勤,

,

张世龙 05-13 05:08 49次浏览

文章目录一、回归模型1.1回归模型定义1.2回归模型分析方法二、 回归分析2.1线性回归和多项式回归2.1.1线性回归定义2.2.2代码实现分析: 2.2逻辑回归2.2.2代码说明2.3多项式回归2.3.1多项式回归定义2.4岭回归2.4.1岭回归定义2.4.2岭回归回归模型评估3.1均方误差(均方误差(mean squared error,mse ) 3.2标准误差(rmse ) 3.3平均绝对误差(MAE ) 3.4 R-squared3.5解释方差(explained variance score ) ) )。

一、回归模型1.1回归模型定义

回归模型是一种预测性建模技术,研究因变量(目标)与自变量)的关系。 该技术通常用于发现预测分析、时间序列模型和变量之间的因果关系。 也就是我们高中说的一次函数问题

1.2回归模型分析方法回归分析是研究一个变量(被解释变量)另一个变量(解释变量)具体依赖关系的计算方法和理论是建模和分析数据的重要工具。

在这里,我们使用曲线或线条拟合这些数据点。 这种方法使曲线或线条到数据点的距离差最小。 以下是回归分析的几种常用方法

线性回归(Linear Regression )逻辑回归(Logistic Regression )多项式回归(Polynomial Regression脊回归)四种是机器学习中常见的回归分析方法。 以下,逐一分解一下。

二、回归分析2.1线性回归和多项式回归2.1.1线性回归定义线性回归是利用数理统计中的回归分析,确定两类以上变量之间相互依存定量关系的统计分析方法,应用非常广泛。 其表现形式为y=w’xe,e为误差服从平均值0的正态分布。

回归分析只包含一个自变量和一个因变量,两者的关系可以用直线近似。 将该回归分析称为一元线性回归分析。 如果回归分析包含两个或多个参数,且变量和参数之间存在线性关系,则返回多元线性回归分析

2.2.2代码实现分析: importnumpyasnpimportpandasaspdimportmatplotlibasmplimportmatplotlib.pyplotaspltimportrandomplt.rcparams PLT.rcparams [ ' axes.unicode _ MINUS ' ]=false % matplotlibinlineex0=PD.read _ table (ex0.table

defget _ mat (数据) :xmat=NP.mat ) dataset.iloc [ :-1 ].values ) ymat=NP.mat ) dataset.iloc

xMat,ymat=get_mat(ex0 ) defplotshow ) dataset ) : xMat,ymat=get_mat ) dataset ) PLT.Scatter ) yMat.A

获取线性回归图

defsatandregres (数据集) : xMat, ymat=get_mat ) dataset ) xtx=xmat.t*xmatifNP.linaLG.det ) xtx )=033330无法求逆' (returnws=xtx.I* ) 打印回归函数defplotreg ) dataset ) : xMat,ymat=get_mat ) dataset s=5) ws=satandregres(dataset ) yhat=xmat * wsplt .

xMat,ymat=get_mat(ex0 ) ws=satandregres ) ex0 ) yhat=xmat * wsnp.corr coef (yMat.T,ymat.t ) )

得到相关系数

2.2逻辑回归2.2.1逻辑回归定义逻辑回归(简称LR )在处理分类问题(用户点击率、用户违规信息预测、垃圾邮件检测、疾病预测、用户级别问题)多分类问题)方面很擅长

结果,除线性回归外,sigmold函数(即分类函数) :

sigmoid函数表达式如下:

f ( x ) = 1 / ( 1 + e y ) f(x)=1/(1+e^y) f(x)=1/(1+ey)

2.2.2 代码说明 import numpy as npimport mathimport matplotlib.pyplot as plt%matplotlib inlineX=np.linspace(-5,5,200)y=[1/(1+math.e**(-x)) for x in X]plt.plot(X,y)plt.show()

其结果是先模型出数据的线性回归,在根据sigmold函数将原来的y值和标准的y^大于0的可以分为正类,小于0的分为负类

2.3 多项式回归 2.3.1 多项式回归定义

多项式回归,回归函数是回归变量多项式的回归。多项式回归模型是线性回归模型的一种,此时回归函数关于回归系数是线性的。

直线回归研究的是一个依变量与一个自变量之间的回归问题,但是,在畜禽、水产科学领域的许多实际问题中,影响依变量的自变量往往不止一个,而是多个,比如绵羊的产毛量这一变量同时受到绵羊体重、胸围、体长等多个变量的影响,因此需要进行一个依变量与多个自变量间的回归分析,即多元回归分析。

2.4 岭回归 2.4.1 岭回归定义

岭回归(英文名:ridge regression, Tikhonov regularization)是一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的最tldll乘估计法,通过放弃最tldll乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法,对病态数据的拟合要强于最tldll乘法。

通常岭回归方程的R平方值会稍低于普通回归分析,但回归系数的显著性往往明显高于普通回归,在存在共线性问题和病态数据偏多的研究中有较大的实用价值。

2.4.2 岭回归函数 def get_Mat(dataSet): xMat=np.mat(dataSet.iloc[:,:-1].values) yMat=np.mat(dataSet.iloc[:,-1].values).T return xMat,yMat '''函数功能: 使用岭回归来计算归系数 参数说明:lam:认为设定惩罚系数'''def rigdeRegres(dataSet,lam=0.2): xMat,yMat=get_Mat(dataSet) xTx=xMat.T*xMat denom=xTx+np.eye(xMat.shape[1])*lam ws=denom.I*(xMat.T*yMat) return ws 三、回归模型的评价

对于回归模型效果的判断指标经过了几个过程,从SSE到R-square再到Ajusted R-square, 是一个完善的过程:

3.1 均方误差(mean squared error,mse)

定义:观察值与真实值偏差的平方和与观察次数的比值,

公式:

描述:这就是线性回归中最常用的损失函数,线性回归过程中尽量让该损失函数最小。那么模型之间的对比也可以用它来比较。MSE可以评价数据的变化程度,MSE的值越小,说明预测模型描述实验数据具有更好的精确度。

3.2 标准误差(rmse)

定义:标准差是方差的算术平方根,标准误差是均方误差的算术平方根。
描述标准差是用来衡量一组数自身的离散程度,而均方根误差是用来衡量观测值同真值之间的偏差,它们的研究对象和研究目的不同,但是计算过程类似。

公式:

它的意义在于开个根号后,误差的结果就与数据是一个级别的,可以更好地来描述数据。标准误差对一组测量中的特大或特小误差反映非常敏感,所以,标准误差能够很好地反映出测量的精密度。这正是标准误差在工程测量中广泛被采用的原因

3.3 平均绝对误差(MAE)

平均绝对误差能更好地反映预测值误差的实际情况

3.4 R-squared

上面分子就是我们训练出的模型预测的误差和。
下面分母就是瞎猜的误差和。(通常取观测值的平均值)

变形:

3.5 解释方差(explained variance score)

公式:

解释:
可解释方差指标衡量的是所有预测值和样本之间的差的分散程度与样本本身的分散程度的相近程度。本身是分散程度的对比。最后用1-这个值,最终值越大表示预测和样本值的分散分布程度越相近。
最后本文如有错误,请您指正,感谢您的阅读,谢谢。

路漫漫其修远兮,吾将上下而求索。

最小二乘法估计回归方程参数,面板数据回归模型与多元线性回归 多元线性回归分析结果解读,多元回归分析数据