当前位置:首页 > 天道酬勤 > 正文内容

用什么替代hadoop(hadoop 生态)

张世龙2021年12月20日 14:17天道酬勤580

Hadoop生态圈允许您选择多个数据库软件。 他们是h贝斯、Hive、Impala、Kudu等。 与传统的关系数据库不同,在Hadoop生态圈中,这些数据库是互补的,而不是竞争关系。

数据库的选择首先要看用途。 数据库有OLTP和OLAP两种。 OLTP是在线事务,主要执行CRUD操作,不适用于大量数据的统计查询。 OLAP是在线分析处理,主要进行统计分析,一般不需要修改数据。

对于OLTP APP应用程序,可以选择HBase。 HBase是Hadoop生态圈最先推出的数据库系统。

数据量大、CRUD操作多时,一般选择HBase。 但是,不能理解为Hadoop中的关系数据库。 最大的区别是,只有一个字段可以创建被称为行密钥Row Key的索引。 如果需要搜索多个字段,可以在创建行键时花点心思将这些字段组合在一起。

如果在生成报告时以加速统计信息的汇总为目的,则不太适合选择Hbase。 需要选择稍后说明的OLAP处理数据库。 也称为数据仓库。

在OLAP APP应用程序中,如果不需要更改数据,则可以选择Hive。 Hive可以可靠地统计总结大量数据,处理时间不会随着数据量的增大而增加太多。 但是,即使参与少量数据的计算,Hive的速度也不是很快,因此更适合批处理,而不是即时查询。 由于Hive的数据修改也不方便,所以一般删除后重新上传修改后的数据文件。

在OLAP APP应用程序中,如果需要稍微更改数据,可以选择Kudu。 Kudu侧重于分析查询,但支持数据CRUD功能。 但是,与HBase的数据读写功能基本均衡不同,Kudu的阅读能力强,修改数据的能力弱。

Impala是一个比较特殊的数据库,可以作为Hive和Kudu的伙伴,而不是作为独立的数据库软件。

Impala可以与Hive一起使用,解决了Hive对少量数据立即查询较慢的弱点,并具备迅速返回查询结果的能力。 但是,如果数据量太大,Impala可能会出错。 像Hive一样,无论多大数据都很稳定。

Impala可以和Kudu一起使用。 实际上,Kudu没有SQL查询接口,必须在Impala上进行查询。

在Hadoop环境中构建数据仓库时,Kudu是最佳选择。 但是,Kudu是最慢的,成熟度也很低。

综上所述,在Hadoop生态家族中,选择数据库的规则是读写兼顾HBase,只读不写Hive,主要是少量读Kudu再写。 量多时间要求不高的Hive,咨询次数多时间要求高的Impala。

扫描二维码推送至手机访问。

版权声明:本文由花开半夏のブログ发布,如需转载请注明出处。

本文链接:https://www.zhangshilong.cn/work/25677.html

分享给朋友:

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。