当前位置:首页 > 天道酬勤 > 正文内容

中科院过程所生物质研究中心(中科院过程工程所朱庆山)

张世龙2021年12月20日 14:52天道酬勤880

从20世纪80年代开始,随着数据库技术的发展和新应用的提出,数据挖掘技术应运而生。 数据挖掘是从海量、随机、不完整、复杂的数据中提取对人们潜在且有用的信息和知识的过程,其中涉及许多技术的处理。 通过数据挖掘技术处理大量的数据内容,可以大大提高人们处理的信息的效率,从而从中获得很多有价值的信息和知识,帮助人们做出决策。 本文介绍了数据挖掘的七个过程和五种数据挖掘方法

数据挖掘过程

数据挖掘的过程分为七个部分。

1 )定义挖掘目标

明确的挖掘目标是进行数据挖掘的前提,同时也是最大限度发挥数据挖掘作用的关键。

2 )数据采样

数据挖掘目标样本的选择方法。 在选择样本时,有时效性、可靠性、关联性三个原则。 必须保证所选样品数据最新、真实、可靠,并且与挖掘目标高度相关。 同时选择数据简洁性,精选数据。

3 )数据搜索

为了进一步分析数据,保证预测质量,需要对所选样品数据进行搜索、审查和必要的加工处理。

数据搜索主要包括相关分析、异常分析、周期性分析、缺失值分析和样本交叉验证。

4 )数据预处理

样本数据量一般庞大,数据结构复杂,样本数据维度过高,有缺失值,有重复记录、不一致等。 对样品进行预处理也是必要的。

5 )模式发现

在数据预处理之后,开始构建挖掘模型,在建模之前考虑这次的目标是数据挖掘的什么样的应用,并针对具体的应用类别选择合适的算法。

6 )模型构建

模型构建包括选择什么挖掘算法、模型构建的思路和具体的操作步骤

7 )模型评价

对数据挖掘的结果进行评价,总结其中的不足和可取之处,并不断改进。

挖掘方法

数据挖掘方法:

1 )分类和回归技术

这两种方法是数据挖掘中最常用的两种方法。 要想很好地使用分类技术,必须事先明确数据的类别。 回归分析是利用属性的历史数据预测未来的趋势找出各数据之间的相关关系

2 )聚类分析

聚类分析基本上是根据数据之间的相似之处对数据进行分类。 在不明确数据种类的情况下进行。

3 )关联规则

应用最广泛的数据挖掘技术是从错综复杂的数据中发现事物之间可能存在的关联和联系,这些关系很模糊。

4 )时间序列模式

虽然时间序列模式和回归模式有很多相似之处,但是不同时间序列模式的属性值会随着时间发生变化。 因此,要考虑复杂多样的数据在时间维度上的关系。

5 )异常检测

也称为偏差检测,主要用于发现与其他大多数对象不同的异常和变化。 异常检测在金融诈骗中起着很大的作用。

扫描二维码推送至手机访问。

版权声明:本文由花开半夏のブログ发布,如需转载请注明出处。

本文链接:https://www.zhangshilong.cn/work/25698.html

分享给朋友:

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。