当前位置:首页 > 天道酬勤 > 正文内容

()

张世龙2021年12月20日 15:51天道酬勤320

探索性数据分析是数据科学模型开发流水线的重要组成部分。 数据科学家在数据清洗、特色工程和其他数据整理技术的执行上花了很多时间。 降维是数据科学家在执行特征工程时使用的技术之一。

降维是将yhdhm数据集转换为可比较的低维空间的过程,实际数据集通常具有很多冗长的特征。 降维技术可以用于消除这些冗余特征,或将n维数据集转换为二维或三维使之可视化。

本文介绍了可用于各种用例中以降低数据集维度的八种降维技术。

1. 缺失值

实际的数据集通常包含大量缺失的记录。 这可能是因为数据在记录过程中损坏或保存失败。 可以尝试各种数据插值技术来填充缺失的记录,但这仅在特征缺失数量有限时有效。

如果缺少的特性值数量大于指定的阈值,建议从训练数据中删除特性。 可以删除所有缺少特征的记录大于阈值(例如50 )的特征,从而降低数据的维度。

缺失值的可视化:白线表示存在缺失值

上述缺失值解释图像是使用themissingno包为titanic数据生成的。 特征“Age”和“Cabin”有大量的缺失记录,最终可以从训练样本中去除。

2.相关性滤波器

个以上特征的关联性很高,表示有相似的变化趋势,可能含有相似的信息。 那个有可能会损害参数的统计显着性。 可以删除与其他独立特征相关的特征,也可以删除与目标类标签不相关的特征。

有几种计算独立特征之间相关性的技术,如人员、人员、坎德尔、卡方检验等。

关联矩阵的热图

titanic数据集的上述关联矩阵热图是使用df.corr ()函数计算的。

3.方差滤波器

只是一个特征类别的分类特征或方差较小的数值特征变量,这些特征不会给我们的模型带来一定的提高,可以从训练样本中删除。

函数DataFrame.var ()计算Pandas数据帧的所有特征的方差。 DataFrame.value_counts ()函数计算每个特征的分布。

4.前向/后向特征选择

前方特征选择技术是选择最佳特征集的包装技术。 这是一个循序渐进的过程,特征是基于前一步骤的估计来选择的。 前方特征选择技术的步骤如下。

1 .使用各特征分别训练机器学习模型,测量各模型的性能。 2 .获得性能最好的特征,利用剩下的特征重新训练各个模型。 3 .重复这个过程,一次添加一个特征,就会保留性能最好的特征。 4 .重复步骤2和3,直到模型的性能没有明显改善。

前方特征选择

后方特征选择技术类似于前方特征选择,但作用相反,首先选择所有特征,然后在各步骤中删除最冗长的特征。

5.主成分分析

主成分分析(PCA )是一种很古老的降维技术。 PCA通过保持特征的方差,将特征向量投影到低维空间,找出其最慷慨的方向,得到最佳的特征列表。 PCA可以用于将非常yhdhm的数据投影到所需的维度上。 PCA算法的步骤如下。

标准化数据集计算标准化数据集的协方差矩阵计算协方差矩阵的特征值和特征向量取特征值高的特征向量的点积。

6.t-SNE

t-SNE(t-分布式随机邻域嵌入)是一种降维技术,主要用于数据可视化。 t-SNE将yhdhm的数据集转换为可以进一步可视化的二维或三维向量。

t-SNE的性能优于PCA。 这是因为,通过保持数据的局部结构,保持附近的局部结构,将各数据点从yhdhm度嵌入到低维空间中。

详情请参阅https://distill.pub/2016/misread-tsne /

7.UMAP

p>UMAP(Uniform Manifold Approximation)是一种新的降维技术,它是一种非常有效的可视化和可伸缩降维算法,其工作方式与 t-SNE 类似,但是它保留了更多全局结构、具有优越的运行性能、更好的可扩展性。

更多详情:https://umap-learn.readthedocs.io/en/latest/basic_usage.html

8.自动编码器(Auto Encoder )

自动编码器(Auto Encoder )是一种基于单层感知器的降维方法。它有两个组成部分:压缩(编码器)和扩展(解码器)。输入层和输出层的节点数量相同,而中间层的神经元数量少于输入层和输出层。

数据集被传递到自动编码器神经网络模型,并被编码到较低维度的隐藏层。然后它尝试从简化的编码中生成尽可能接近其原始输入的表示。中间层是减少到可比较的较低维度的向量。

总结

在本文中,我们讨论了基于特征选择的降维方法、基于组件的降维技术、基于投影的方法,最后是基于神经网络的自动编码器。ISOMAP 是另一种基于投影的降维方法,其工作方式类似于 UMAP 和 t-SNE。SVD 和 ISO 是其他一些基于组件的降维技术。

扫描二维码推送至手机访问。

版权声明:本文由花开半夏のブログ发布,如需转载请注明出处。

本文链接:https://www.zhangshilong.cn/work/25723.html

分享给朋友:

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。