首页天道酬勤最小化所有窗口(dfa的最小化)

最小化所有窗口(dfa的最小化)

admin 12-04 02:31 281次浏览

Logistic回归是一种分类算法,主要用于分类类标签/依赖/目标/响应变量(固定可能值)。在本文中,我们将只讨论二元分类(即响应变量只属于两类)(分类是正的还是负的,邮件是垃圾邮件还是火腿,今天会下雨还是不下雨等等。),还可以看到多元逻辑回归响应变量属于两类以上。逻辑回归可以通过几何解释、概率解释和损失函数解释来理解。三种解释都可以得到相同的解,但理解方法不同。我们将研究所有这些解释,并对其进行深入探讨。在本文中,如果我们想理解其核心的每一个解释,我们需要一些基本的数学运算。

要理解逻辑回归背后的几何直觉,首先需要具备一些线性方程组、几何等基础知识。

00-1010通过三维空间的平面方程通过点A=(x1,y1,z1),其法向量n=(a,B,C)定义为

a(x-x1) b(y -y1) c(z-z1) b=0

Axczb=0,其中b=-(ax1bycz1)

为简单起见,我们还可以写成

w1x1 w2x2 w3x3 b=0

这与w t * xib=0相同,其中xi用于ith观测。

如果平面通过原点,那么方程变成w t * xi=0。其中w t(发音为w转置)是行向量,xi是列向量,b(截距/偏差)是标量。如果我们有一个二维空间,那么方程变成w1x 1 w2x 2 b=0;如果我们有一个n维空间,那么方程就变成了w0w 1x 1 w2x 2”w3x 3....Wxn=0因为它是一个线性方程,我们可以把它推广到任意维。

00-1010让x(预测因子/特征/自变量)和y(响应/目标/因变量)为数据集(D),即n个数据点的D{ Xi,yi}。Xi^ d,即每个Xi都是实值d维向量,yi(-1(-ve),1(ve)),每个yi都是0或1。逻辑回归的基本假设是数据几乎(即有些ve点在-ve类中,反之亦然)或完全(没有点与其他类混合)线性可分。也就是说,如果我们能找到w(Normal)和b(bias/y-intercept),那么我们就能很容易地找到一条线或一个平面,也称为决策边界。我们只关注两个特征(x1和x2),这样直觉就变得更容易了。虽然,在机器学习中,几乎不可能有2D或3D数据。

如果我们取任意一个ve点,计算该点到平面的距离=w * t * Xi/| | | | | | | |。假设范数(|| w ||)为1。由于w和xi位于决策边界的同一侧,因此距离为ve。现在计算DJ=w t * xj,因为xj在w的对面,那么距离就是-ve。即W同方向的每一点都是ve点,与W相反的点都是-ve点。

现在,如果w t * xi 0是y=1,我们可以很容易地对-ve和ve点进行分类。如果w t * xi 0是y=-1,那么我们可以犯一些错误,但这并不重要,因为我们在现实世界中永远不会得到完全可分离的数据。

情况1-如果yi=1,意味着它是一个ve数据点,你的W t * Xi 0,也就是分类器说它是一个ve点。那么如果yi * w * t * Xi 0会发生什么呢?它正确地分类了这些点。情况2-如果yi=-1表示是-ve数据点,w tx0,也就是分类器说是-ve点。如果yi * w t * xi0,那么这个数乘以2-ve将大于零。对于ve和-ve点yi * w t * xi0,这意味着模型正确地对xi点进行了分类。情况3-如果yi=1,w t * xi0,也就是说,yi是ve点,但是分类器说xi是-ve,那么我们将得到-ve值。当这种情况发生时,你真正的类标签是1,但是分类器说它是-1。这意味着这是错误的分类点。情况4-If yi=-1和w t * xi0。这意味着分类器说它是一个ve数据点。那就是分类点错了。易* w ^ t * xi 0 .我们希望我们的分类器能够最小化错误分类错误。也就是说,我们希望yi * w * t * Xi大于0。这里,Xi和易建联是固定的,因为它来自数据集。当我们改变W时,B也会改变。我们希望找到最大化下面给出的总和的W和B。

-image/3e6558b8485d42af86aed2c6f6a4d538?from=pc">

需要Logistic函数或“S”形曲线或Sigmoid函数

我们将看一个非常简单的例子,我们将看到符号距离(signed distances )的总和如何受到错误/异常点的影响,我们需要提出另一个受异常值影响较小的公式。假设在左图中,从点到决策边界的距离(d)是1,如下图所示。对于所有-ve和+ ve点,我们假设距决策边界的距离为1,除了在决策边界的+ ve侧并且距离为100的异常值点。如果我们计算有符号距离,那么它将是 - 90。在右图中,如果决策边界与图中指向完全相同,则我们有5个错误分类点(点是-ve但是在平面的+ ve侧),则符号距离将为1,我们还希望最大化符号距离,但是如果你看下面两个图,左边的决策边界做得相当不错(因为它只产生一个错误),右图决策边界造成5个错误。所以,在异常值存在的情况下,我们的预测可能不正确。

因此,为了避免这个问题,我们需要另一个函数,它可以比最大化符号距离更健壮。我们在这里使用的这种函数称为sigmoid函数,并定义为

因此,我们需要最大化sigmoid函数,定义为

最大化某些函数f(x)与使用-ve符号最小化此函数相同。即argmax f(x)= argmin -f(x)并且如果我们采用log,那么最终的公式变为 -

逻辑回归的概率解释

概率和几率是相关的,并且通过概率解释理解逻辑回归的输出,你必须具有概率和几率的一些基本知识。Odds被定义为事件发生概率与事件不发生的比率。我们可以把它写成

odds = p(event)/1-p(event) 其中,p是概率。

Sigmoid函数

我们的模型预测依赖于逻辑函数或sigmoid函数。它给出0到1之间的值,可以解释为属于+ ve类的点的概率。如果概率小于0.5,我们将其分类为-ve class,如果大于0.5,则将其归类为+ ve class。这意味着我们可以记下观察+ ve和-ve类给定特征(x)的概率

sigmoid函数的公式是σ(z)= 1/1 + exp(-z)= exp(z)/ 1 + exp(z)其中z被称为对数几率。

Logit函数

因此,Logit函数(log(z / 1-z))将概率值(在范围[0,1]之间)映射到实数[-∞,+∞]。记住我们假设y = 1的概率,给定x是z,即p(y = 1 | x)是z。当z接近1 logit函数时朝向+∞,当接近0时,它变为-∞。

logit函数的逆是sigmoid函数,如果你有概率z则sigmoid(logit(z))= z。在逻辑回归中,logit是odds 对数被建模为预测变量(x)的线性函数。即

最大似然估计

现在,我们必须找到最佳系数/参数。我们该怎么做呢?我们将使用称为似然函数的东西来计算logit函数的参数。因此,在给定观测数据的情况下,似然是参数的函数。最大似然法是找到最大似然函数的参数值。直觉上,这会选择使数据最有可能的最佳参数值。

在我们的例子中,我们想要找到/估计最佳系数/参数(w,b),使得这些输出的(z,1-z)的乘积在数据集的所有元素上最大。我们需要优化的这个函数称为似然函数。

对于 class 1的所有特征,我们要估计w(系数)和b(偏差/截距),使 class 1样本的所有条件概率的每一个乘积都尽可能接近1,从而得到乘积的最大值。类似地,对于 class 0,我们想要估计w和b使得它们的条件概率的补的乘积尽可能接近1也就是说它给出了乘积的最大值。通过组合这个乘积,我们要找到参数w和b,使得两个乘积在所有数据点上都是最大值,定义为

我们采用log来最大化似然函数(log(L(w,b)))因为和项的导数通常比输出的导数更容易计算。取对数的另一个好处是避免数字下溢。

为了最大化对数似然函数或最小化损失用于查找系数,我们需要计算偏导数,即如果我们有任何问题,我们必须最大化或最小化某些优化问题。

进行预测

为了理解概率解释中的所有概念,我将向您介绍一个例子。因此,使用最大似然估计(如前所述,需要计算导数),我们估计了3个特征的偏差和权重,如下所示。

特征→x1 = 4,x2 = 2,x3 = 6

权重→w1 = -1,w2 = 3,w3 = 0,偏差= 2

然后我们计算logit→w1x1 + w2x2 + w3x3 + b =( - 1)* 4 + 3 * 2 + 0 * 6 + 2 = -4,因为它可以给出任何实际值。因此,我们将代入sigmoid函数,它给出0到1之间的值,即概率值。

在logit(log-odds)值中放入sigmoid函数后概率为0.98。

Logistic回归的损失最小化解释

二元分类涉及0/1损失,当数据不能完全分离时,我们希望最小化误差数(错误分类点),即yi(w ^ t * xi + b)<0的索引i的数量,问题变为找到最小化损失的最佳w和b。

其中L是0/1损失函数,并且如果yi(w ^ t * xi + b)<0则它给出1(未正确分类点),否则0(正确分类的点),下面是图像

因此,在许多实际方法中,我们将非凸(如0/1损失)函数替换为凸函数,因为优化非凸函数非常困难,算法可能会陷入局部最小值,这与实际的最小值不相符。目标函数L(yi,f(xi))。其中,f(xi)= w ^ t * xi + b。

基本思想是使用平滑(可微分)函数,该函数近似于0-1损失。当我们使用逻辑损失(log-loss)作为0-1损失的近似来解决分类问题时,它被称为逻辑回归。可能存在许多近似的0-1损失,其被不同的算法用于解决分类问题。

Approximation of 0–1 Loss

对于类标签y,y∈{1,-1},其中1表示+ ve类,0表示-ve类,逻辑损失函数,定义如下

当y∈{0,1}这就是我们开始的时候,那么逻辑损失函数定义如下:

其中,对于数据集中的每一行i。y是可以是0或1的结果.P是通过应用逻辑回归方程预测的概率结果,即p = e ^ x / 1 + e ^ x,其中x = w ^ t * xi + b。

从等式中,当y = 1时,我们的损失函数变为log(pi),如果Pi接近1,则损失趋于接近0。类似地当y = 0时,我们的损失函数变为log(1- pi)并且如果p接近0然后,损失往往接近0。这样的话,我们就只需要乘以实际类标签的实际预测概率的对数。

当响应变量(y)为1时,概率值应尽可能高。当它为0时,概率值应尽可能低,这将使总对数损失最小化,如下所示。

这只是使用log直接修改似然函数。这与似然函数的公式完全相同,但添加了对数。最后,如果我们进行比较,对于逻辑回归的所有三种解释都有相同的表述。

结论

本文的目的是让您从不同的角度深入了解逻辑回归。这样你就可以解释它并更好地理解它。

#黑五#spinservers:特价双E5cpu/512G内存月付$29910Gbps带宽圣何塞使用ReactHooks进行ReactNativeonLayoutVue中使用this.$set()怎么新增数据并更新视图VMware虚拟机安装苹果Mac OS的超详细教程雷士灯具管理系统
python安装numpy 教程(numpy数组倒序) 敲黑板划重点是什么意思(numpy dtype)
相关内容