当前位置:首页 > 天道酬勤 > 正文内容

建立回归模型的步骤(不属于模式识别的是)

张世龙2021年12月20日 06:11天道酬勤540

在模式识别的学习中,数据集的处理是不可缺少的,所以我们来看看今天最常用的回归模型。

掌握基本的回归模型是研究学习的基础!

7个一般回归模型

1 .线性回归线性回归

是最广为人知的建模技术之一。 线性回归通常是学习预测模型时首选的技术之一。 在该技术中,变量是连续的,因此自变量可以是连续的也可以是离散的,回归直线的性质是线性的。

线性回归使用最佳拟合直线或回归直线在因数变量(y )和一个或多个参数) x )之间建立关系。

用Y=a b*X e这个方程式来表示。 其中,a为截距,b为直线的斜率,e为误差项。 这个方程式可以根据给定的预测变量(s )预测目标变量的值。

线性回归和多元线性回归的区别在于,多元线性回归有(1)个自变量,而线性回归通常只有一个自变量。 现在的问题是“如何得到最佳拟合线呢? ”。

如何得到最佳拟合线(a和b的值)?

这个问题可以用最小二乘法简单地做。 最小二乘法也是拟合回归直线最常用的方法。 对于观测数据,通过将各数据点到线的垂直偏差平方和最小化来计算最佳拟合线。 加法时,由于偏差先被平方,所以正值和负值不会被抵消。

使用R-square指标评价模型的性能。 有关这些指标的详细信息,请参见模型的性能指标第1部分和第2部分。

要点:

(1) .自变量和要因变量之间一定存在线性关系

(2)多元回归有多重共线性、自相关性和分散性。

(3) .线性回归对异常值非常敏感。 极大地影响回归直线,最终影响预测值。

4 ) .多重共线性会增加系数估计值的方差,通过模型的微小变化可以非常敏感地估计。 结果,系数估计值变得不稳定

5 ) .当自变量有多个时,可以使用前方选择法、后方去除法、依次筛选法来选择最重要的自变量。

2 .逻辑注册逻辑回归

逻辑回归用于计算“事件=成功”和“事件=失败”的概率。 变量类型为二元(1/0、真/假、是/否)变量时,应该使用逻辑回归。

要点:

(1) .广泛应用于分类问题。

2 ) .逻辑回归不要求自变量和因子是线性关系。 由于预测的相对风险指数OR使用非线性的log变换,因此可以处理各种类型的关系。

(3) .为了避免过拟合和不足,应该包含所有重要的变量。 有确保这种情况的好方法。 那就是使用阶段性筛选方法估算物流回归。

4 ) .样本数少时,最大似然估计的效果比通常的最小二乘法差,所以需要大的样本量。

5 ) .自变量不应该相互关联的东西,即不具有多重共线性的东西。 但是,在分析和建模中,可以选择包含分类变量交互的影响。

(6) .如果原因变量的值是顺序变量,那么将其称为顺序逻辑回归。

7 ) .如果要因变量为多类,将其称为多元逻辑回归。

3 .多元注册多项式回归

在回归方程中,如果自变量的指数大于1,则为多项式回归方程。 如下式所示,y=a b*x^2

gn: start">在这种回归技术中,最佳拟合线不是直线。而是一个用于拟合数据点的曲线。

重点:

虽然会有一个诱导可以拟合一个高次多项式并得到较低的错误,但这可能会导致过拟合。你需要经常画出关系图来查看拟合情况,并且专注于保证拟合合理,既没有过拟合又没有欠拟合。

4.Stepwise Regression逐步回归

在处理多个自变量时,我们可以使用这种形式的回归。在这种技术中,自变量的选择是在一个自动的过程中完成的,其中包括非人为操作。

这一壮举是通过观察统计的值,如R-square,t-stats和AIC指标,来识别重要的变量。逐步回归通过同时添加/删除基于指定标准的协变量来拟合模型。

下面列出了一些最常用的逐步回归方法:

标准逐步回归法做两件事情。即增加和删除每个步骤所需的预测。

向前选择法从模型中最显著的预测开始,然后为每一步添加变量。

向后剔除法与模型的所有预测同时开始,然后在每一步消除最小显着性的变量。

这种建模技术的目的是使用最少的预测变量数来最大化预测能力。这也是处理专注的果汁数据集的方法之一。

5.Ridge Regression岭回归

岭回归分析是一种用于存在多重共线性(自变量高度相关)数据的技术。在多重共线性情况下,尽管最小二乘法(OLS)对每个变量很公平,但它们的差异很大,使得观测值偏移并远离真实值。岭回归通过给回归估计上增加一个偏差度,来降低标准误差。

在一个线性方程中,预测误差可以分解为2个子分量。一个是偏差,一个是方差。预测错误可能会由这两个分量或者这两个中的任何一个造成。在这里,我们将讨论由方差所造成的有关误差。

岭回归通过收缩参数λ解决多重共线性问题。

6.Lasso Regression套索回归

它类似于岭回归,Lasso 也会惩罚回归系数的绝对值大小。此外,它能够减少变化程度并提高线性回归模型的精度。看看下面的公式:

Lasso 回归与Ridge回归有一点不同,它使用的惩罚函数是绝对值,而不是平方。这导致惩罚(或等于约束估计的绝对值之和)值使一些参数估计结果等于零。使用惩罚值越大,进一步估计会使得缩小值趋近于零。这将导致我们要从给定的n个变量中选择变量。

要点:

(1).除常数项以外,这种回归的假设与最小二乘回归类似;

(2).它收缩系数接近零(等于零),这确实有助于特征选择;

(3).这是一个正则化方法,使用的是L1正则化;

如果预测的一组变量是高度相关的,Lasso 会选出其中一个变量并且将其它的收缩为零。

7.ElasticNet回归

ElasticNet是Lasso和Ridge回归技术的混合体。它使用L1来训练并且L2优先作为正则化矩阵。当有多个相关的特征时,ElasticNet是很有用的。Lasso 会随机挑选他们其中的一个,而ElasticNet则会选择两个。

Lasso和Ridge之间的实际的优点是,它允许ElasticNet继承循环状态下Ridge的一些稳定性。

要点:

(1).在高度相关变量的情况下,它会产生群体效应;

(2).选择变量的数目没有限制;

(3).它可以承受双重收缩。

想要关注更多算法内容,关注知乎秋刀鱼--算法及其应用专栏!

扫描二维码推送至手机访问。

版权声明:本文由花开半夏のブログ发布,如需转载请注明出处。

本文链接:https://www.zhangshilong.cn/work/25430.html

分享给朋友:

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。