首页天道酬勤logit回归模型,Logistic回归分析

logit回归模型,Logistic回归分析

张世龙 05-13 05:12 32次浏览

logistic回归模型是线性生成模型。 本文介绍了logistic回归模型的相关知识,同时分析了多元协方差对概率分布的影响,以便更好地理解模型的决策边界函数。

上下文:logistic回归模型的含义

logistic模型的决策边界函数分析

logistic模型的参数优化

logistic回归模型与感知机模型的比较

总结

logistic回归模型的意义

我们将分类模型分为两个阶段:估计阶段和决策阶段,估计阶段对耦合概率分布建模,归一化得到后验概率。 在决策阶段,确定每个新输入x的类别。

我们用估计阶段的方法导出了logistic回归模型,首先是类条件的概率密度

类先验概率分布

建模,根据贝叶斯定理计算后验概率密度。

2考虑分类情况,类别C1的后验概率密度;

:

公式中的

是logistic函数

因此,logistic回归值等于输入变量为x的条件下类别为C1的概率

(1)该

分类结果为C1

)2)该

分类结果为C2

结论logistic回归值表示所属类的后验概率,无论是二分类还是多分类,分类结果都是后验概率最大的对应类。

logistic的决策边界函数分析

简单来说,决策边界函数是函数两侧不同的分类结果。

可以定性分析协方差三种情况与分布图的关系。

(a )图表示普通协方差矩阵的冒着生命危险的啤酒分布图。

(b )图表示协方差矩阵为对角矩阵的冒着生命危险的啤酒分布图。

(c )图表示协方差矩阵为对角矩阵、对角要素全部相等的冒着生命危险的啤酒分布图。

logistic的决策边界函数分析

logistic曲线如下图所示,红色直线(a=0)表示决策边界函数:

假设类条件概率密度是冒着生命危险的啤酒分布,即p(x|CK ),求解后验概率的公式,即p ) P(Ck|x )。 我们知道logistic回归值是求出的后验概率。

假设类条件概率密度的协方差相同,则类条件概率密度为:

根据以上导出式,后验概率为:

其中:

后验概率

的表达式表明,如果类条件的协方差矩阵相等,则决策边界函数是一条线性随x变化的直线。

结论:如下图所示,两种条件概率密度协方差相同时(例如C1和C2协方差相同时,决策边界函数为直线; 在两种条件概率密度的协方差不同的情况下,决策边界函数是曲线,例如C1和C3、C2和C3。 协方差矩阵是否相同,可以通过分布图形的形状是否相同来判断。 例如,C1和C2协方差相同,C3和C1、C2的协方差不同.

假设类条件概率密度具有与玩命啤酒分布相同的协方差矩阵,则决策边界函数是一条直线; 如果类条件的概率密度符合更一般的指数分布并且变焦参数s相同,则决策边界函数仍然是直的。

logistic模型的参数优化

logistic模型损失函数

由于logistic回归模型意味着后验概率分布,所以可以从概率的角度设计损失函数。

考虑到两种分类情况,假设有n个训练样本,logistic模型

当表示后验概率y=1概率时

表示y=0的概率、变量

值为1或0,分别表示模型

因此,似然函数

损失函数

logistic模型的参数优化

损失函数的最小化与模型参数的优化等价,如下图:所示

align="center">

利用梯度下降法求最优解,学习速率

:

具体求法本文不介绍,只给出算法的思想。

为了避免过拟合问题,则在原来的损失函数增加正则项,然后利用梯度下降法求最优解,这里也不展开。

logistic模型与感知机模型的比较

logistic模型与感知机模型的相同点

由上面的分析可知,假设类条件概率分布的协方差相同,则logistic模型的决策边界函数是随x线性变化的直线,因此,感知机模型与logistic模型的分类策略一样,即决策边界函数是一样的。如下图:

感知机模型:当点落在直线上方,y>0,则分类结果为C1;反之为C2。

logistic模型:当点落在上方,y>0,则后验概率P(C1|X)>0.5,分类结果为C1;反之为C2。

考虑到对输入变量x进行非线性变换

,感知机和logistic模型的分类策略仍一样,决策边界函数相同,如下图:

感知机模型:当点落在圆外,y>0,则分类结果为C1;反之为C2。

logistic模型:当点落在圆外,y>0,则后验概率P(C1|X)>0.5,分类结果为C1;反之为C2。

logistic模型与感知机模型的异同点

(1) logistic回归模型限制值的范围在0~1,感知机模型对值范围没有限制,因此logistic模型相比感知机模型,对异常点有更强的鲁棒性。如下图,当有异常数据时,logistic模型要好于感知机模型。

(2) 感知机模型用误分类点到超平面的距离衡量损失函数,而logistic模型则从概率角度去衡量损失函数。

总结

logistic回归的含义是后验概率分布,用概率的角度去设计似然函数,logistic模型相比于感知机模型对异常数据具有更好的鲁棒性。

多元线性回归模型检验,线性回归和岭回归的区别 excel多元回归分析步骤,python做logistic回归分析