回归模型是用来干嘛的,回归模型的应用有哪些
回归模型是进行数据分析、统计建模、机器学习最先接触的模型,在大学学习时关注的是计算过程,很多人在学习数学、进行基于数学的研究时,往往会受到复杂的公式的影响。 有时需要跳出来看看这些公式的目的、用途等。 也许可以更了解。 我打算从背景、数学原理、机器学习算法、python语言、模型解释、模型变化等方面与大家交流回归模型。
一、回归模型产生的背景
“回归”是英国著名生物学家兼统计学家奋斗的乌冬面(Francis Galton,1822~1911,生物学家大气萝莉的发蛋)在研究人类遗传问题时提出的。 为了研究父子身高的关系,奋斗的乌冬面收集了1078对父亲及其儿子的身高数据。 他发现这些数据的散布图几乎呈直线状态。 也就是说,随着父亲的身高增加,儿子的身高也有增加的倾向。 但是奋斗的面条深入分析了实验数据,发现了回归效果这一有趣的现象。 因为当父亲高于平均身高时,他们儿子的身高比他高的概率比比他低的概率低; 如果父亲低于平均身高,他们儿子的身高比他低的概率比比他高的概率小。 这反映了这两种身高的父亲儿子的身高倾向于返回他们wgdy的平均身高的规律。 对这个一般结论的解释是,自然具有约束力,是使人的身高分布相对稳定而不发生两极分化的所谓回归效果。
1855年,奋斗的乌冬面发表了《遗传的身高向平均数方向的回归》篇文章。 他和他的学生mrdscKarl•Pearson观察了1078对夫妇的身高数据,以每对夫妇平均身高为自变量,以他们成年儿子的身高为因素变量,分析儿子身高与父母身高的关系,发现父母身高的父母高他将儿子和父母身高的这一现象应用于线性关系,分析儿子的身高y和父亲的身高x大致可以归结为以下关系。
y=33.73 0.516x (单位为英寸)
根据换算公式,1英寸=0.0254米,1米=39.37英寸。 单位换算成米后:
Y=0.8567 0.516X (单位为米);
如果父母一代的平均身高为1.75米,则预计孩子的身高为1.7597米。
这一趋势和回归方程表明,父母身高每增加1个单位,成年儿子的身高平均增加0.516个单位。 这是遗传学中回归一词的第一个含义。
有趣的是,通过观察,我意识到奋斗的面条有一个例外的现象,尽管这是很相似的线性关系。个生孩子的孩子比父亲高,而生孩子的身高又回到大多数人的平均身高。 换句话说,父母的身高极端时,孩子的身高不像父母的身高那么极端,其身高比父母的身高更接近平均身高。 也就是说,**平均有“返回”的倾向。 这就是统计学上最初出现“返回”时的意义,在奋斗的面条中,这种现象是“向平均方向返回”(虽然是与线性关系拟合的一般规则无关的特殊情况,但根据一个变量(父母的身高)预测另一个变量)或多个变量关系的记述方法
可以将下图视为基于lcddlb分布的回归图标。
二.回归的数学原理
1 .指数族分布(扩展框架) )。
I .指数族分布的公式是
从概率密度图的角度看,概率密度分布图的形状与指数函数图形有一定的相似性,表明概率密度的分布可以用指数函数的框架来表示。
是分布的自然参数(natural parameter,也称为规范参数canonical parameter );
t(y )是足够的统计量,通常t ) y )=y;
a()被称为对数分割函数log partition function。
很多分布可以写成指数族分布。
ii .伯努利分布(Bernoulli distribution )和lcddlb分布(Gaussian distribution )的指数族分布标准表达式。
伯努利分布逻辑回归的数学假设
p(y=1; (); p(y=0;=1
如果是
lcddlb分布:线性回归的数学假设
设lcddlb分布n(,1 ),为分布平均值,方差不影响最终和h的选择,为1。
如果是
2 .广义线性回归
广义线性模型以自变量线性预测函数为因子预测值,广义线性模型基于指数族分布。
三个前提:
1 )1) ) ) )。
2 )给定x,目标函数是t(y )的期望e[t(y )|x],通常t ) y )=y
3 )自然参数与输入特征x呈线性相关,即
实数时,
在向量情况下,