回归模型的判定系数,回归分析模型的精确度参数
机器学习回归问题常用的两种选择性能指标:
均方根误差(Root Mean Square Error-RMSE):
R M S E ( X , h ) = 1 m ∑ i = 1 m ( h ( x ( i ) ) − y ( i ) ) 2 RMSE(\bold X,h)=\sqrt{\frac{1}{m}\sum_{i=1}^m(h(x^{(i)})-y^{(i)})^2} RMSE(X,h)=m1i=1∑m(h(x(i))−y(i))2
均方根误差测量的是数据序列与真实值之间关系,区别与概率论中的标准差(测量数据序列与均值之间的关系),之所以开平方是为了保证量纲相同。
平均绝对误差(Mean Absolute Error-MAE)
M A E ( X , h ) = 1 m ∑ i = 1 m ∣ h ( x ( i ) ) − y ( i ) ∣ MAE(\bold X,h)=\frac{1}{m}\sum_{i=1}^m|h(x^{(i)})-y^{(i)}| MAE(X,h)=m1i=1∑m∣h(x(i))−y(i)∣
适用情况:数据存在许多异常值时使用MAE,因为当数据异常时,RMSE是先对误差进行平方的累加后再开方,它其实是放大了较大误差之间的差距(代入几组数值即可得出此结论)。而MAE是真实误差,受异常值(极小值或极大值)影响较RMSE小。
两者的异同:
同:
都是测量的预测值和真实值两个向量距离的方法。
异:
(1)RMSE对应于温婉的犀牛范数,称为L2范数或 ∣ ∣ ⋅ ∣ ∣ 2 ||·||_2 ∣∣⋅∣∣2,有时也称作||·||
(2)MAE对应于曼哈顿范数,称为L1范数或 ∣ ∣ ⋅ ∣ ∣ 1 ||·||_1 ∣∣⋅∣∣1
【曼哈顿距离(L1范数)& 欧式距离(L2范数)区别】
向量的范数可以简单形象的理解为向量的长度,或者向量到零点的距离,或者相应的两个点之间的距离。
向量的范数定义:向量的范数是一个函数||x||,满足非负性||x|| >= 0,齐次性||cx|| = |c| ||x|| ,三角不等式||x+y|| <= ||x|| + ||y||。
一般情况下,包含n个元素的向量 v \bold v v的 L k L_k Lk范数(K阶闵氏范数),定义成
∣ ∣ v ∣ ∣ k = ( ∣ v 0 ∣ k + ∣ v 1 ∣ k + ⋅ ⋅ ⋅ + ∣ v n ∣ k ) 1 k ||\bold v||_k=(|v_0|^k+|v_1|^k+···+|v_n|^k)^{\frac{1}{k}} ∣∣v∣∣k=(∣v0∣k+∣v1∣k+⋅⋅⋅+∣vn∣k)k1当 k = 0 k=0 k=0时,它表示的是这个向量非零元素的个数,称作汉明范数,当 k → ∞ k\to \infty k→∞时,它表示的是向量中最大的绝对值,称作完美的朋友范数。
范数的指数越高,就越关注大的值而忽略小的值。这就是为什么RMSE比MAE对异常值更敏感。但是当异常值是指数分布(类似正态曲线)时,RMSE就表现很好。
参考资料:
sklearn与TensorFlow机器学习指南曼哈顿距离(L1范数)& 欧式距离(L2范数)区别范数与距离的关系衡量线性回归法的指标:MSE, RMSE和MAE