如何比对数据(数据分析案例网)
一、背景
商业银行传统IOE架构存在弹性扩展能力有限、硬件平台兼容性差、开发运维主要依赖服务商、服务成本高、无法完全自主控制等瓶颈。因此,从国外主机平台向国内分布式平台迁移是大势所趋。由于迁移的必要性和难度,验证迁移前后数据库中数据的一致性非常重要。00-1010某股份制银行需要在48小时内将原DB2数据库超过18T的所有数据以100%的准确率移植到新核心分布式数据库中。在数据迁移过程中,完成所有迁移数据的字段级比较和验证。
00-1010 1)如何实现整个数据库中所有表、数据和覆盖率的快速比较?
2)复杂表结构:固定结构(包括中文、P型、S型等。)和大型对象字段的可变结构(结构类型根据事务代码选择)。
3)如何避免对生产环境的影响?
4)如何在全场水平比较数据?
5)失败的记录如何对比补充?
00-1010 1.总数据的快速比较
通过产品本身的大数据引擎,通过块对比、行对比、场级对比的方式,可以快速验证两个系统的相同数据。
2.当表结构包含大字段时,完成数据比较。
1)用统一规则转换大字段数据,然后比较转换后的数据。
2)字段的动态变化问题可以通过字段关联来解决。
3.检查时不影响生产环境。
1)仅提取备用数据库的日志,并与目标数据库的数据进行比较。
2)通过从备份数据库中提取数据,与目标数据库的数据进行比较。
4.字段级数据比较
根据行为的最小粒度计算特征值,并根据指定的块(通常分为数百万行)比较块特征值。
5.数据补充和更正
通过比对引擎,将所有比对失败的记录进行汇总,根据业务规则,生成修订语句,在目标数据库中执行,完成补充记录。