当前位置:首页 > 天道酬勤 > 正文内容

hadoop怎么用(hadoop应用)

张世龙2021年12月20日 14:15天道酬勤230

去年有需要知道的Hadoop知识列表。 2015年也过去了两个月。 我想现在应该检查大家对Hadoop的了解,同时向列表的内容中添加技术。

首先,希望不要忘记迄今为止掌握的基本内容。 和去年一样,Yarn和HDFS今年也很重要。 我希望你记住这个生态圈里的东西。 很多人可能觉得和Hadoop没有关系,但实际上HBase变得非常重要,Cassandra也被市场接受。 (如果觉得自己的大脑空空如也,至少在Pivotal出现后,可以忘记HAWQ和Greenplum的存在。 )

现在,您可能需要了解与Splice Machine相似的Phoenix,我在去年的列表中提到了这些。 Phoenix基本上是构建在HBase之上的RDBMS,支持健全的SQL子集JDBC及其行为。 虽然Phoenix比Hive快,但是我不认为它会取代Hive。 因为Hive仍然非常适合不想迁移到HBase但想用其他方法分析的平面文件。 Pheonix是由James Taylor开发的。 我不反感这个人用他的名字开玩笑。

如果以前大家没有按照我的建议学习Spark和Storm的知识,现在也来得及。 (注:忘记Shark,学习Spark SQL也可以。 现在Spark正在逐渐被接受。 当人们在同一句话中提到“实时”和“Hadoop”时,这句话中可能也会提到“Storm”。 两者有许多重叠之处,但两者在某些地方各有长处。

也许你也应该知道关于Kafka的事。 如果您使用的是JMS、AMQ或其他通知工具,则必须了解Kafka。 如果使用Storm,则除了dev/null之外,还可能使用Kafka来判断小比特流是从哪里消失的。

如果认为将数据从Hadoop A转移到Hadoop B是浪费时间,而认为用Oozie清理数据是非常费时间的话,那么你可能会想学习Falcon并制作流媒体处理程序。

虽然Ambari支持Hadoop群集的安装,但这可能不是大型群集的安装、配置和重置方法。 另外,如果您有一个大型数据中心,但不想指定只能用于批处理而不是流处理的服务,该怎么办? 如果想轻松筹集资源,该怎么办? 这个时候,Mesos可能会成为你的救星。

如果有人要求你提高安全性,也许可以用Knox。 这些对Ranger来说可能非常重要。 从某种意义上说,Ranger可能会对构建的Hadoop生态圈产生脱节的副作用。 虽然也有用户是用户,安全是安全的理念,但是我认为我们应该有机地结合Hive、HBase、Storm、Knox,而不是相互分离。 现在,我们还没有实现这个功能,所以不能太高兴。 虽然文件还没有完成,但是你可以在Hortonworks的网站上找到很多相关的东西。

除了这些之外,还应该知道Hadoop以外的事情。 如果您需要熟悉LDAP。 虽然没有人喜欢activedirectory,但是每个人都在使用它,LDAP是整合它的重要方法之一。 不幸的是,Hadoop中最完整的安全模型是Kerberos。 因为很旧,所以部署起来很花时间。 但是,需要知道从a点导入到b点再导入到c点的方法。

另外,建议学习Docker,弄清楚Docker是什么。 幸运的是,如果你知道Solaris Zones是什么,并且能够想象软件包的状况,你也许很快就会明白Docker是什么,能做什么。

最重要的是,大家需要学习关于机器学习的东西。 通过预测分析,他们可以帮助大家预测。 另外,掌握从Mahout到MLib的列表内容,至少是理解这些技术和算法的基本原理。

最后,我希望大家去年在努力学习这些列表的内容,准备学习新的知识。 我也希望Kerberos和Phoenix没有困扰大家。 Hadoop是一个不断成长的生态系统,跟上它的成长是一个挑战,但我相信大家都能成功。

扫描二维码推送至手机访问。

版权声明:本文由花开半夏のブログ发布,如需转载请注明出处。

本文链接:https://www.zhangshilong.cn/work/25675.html

分享给朋友:

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。