大数据hadoop原理(hadoopyarn官网)
Hadoop学习路上的那些事儿,继续分享
。(照片来自网络)
什么是yarn
简单地说,是Hadoop的资源管理器之一,由资源管理器和节点管理器组成。一言不合官网,https://Hadoop.Apache.org/docs/stable/Hadoop -项目-距离/Hadoop-common /单集群. html
实验过程
实验的准备:1 .开设云主机,该实验采用移动云主机
2 .验证是否正确安装了JDK,是否正确设置了环境变量
验证Hadoop是否正确安装,环境变量是否正确放置
确保HDFS的各种结构正确,同时正常启动
步骤1 :配置两个核心概要文件
配置etc/hadoop/mapred-site.xml文件。 请注意,mapred-site.xml.template文件位于此目录下。 这是一个模板文件,必须将其重命名为mapred-site.xml,并添加以下配置代码:
配置
属性
名称映射.框架.名称/名称
值年/值
/属性
属性
名称映射.应用程序.类路径/名称
value $ Hadoop _ mapred _ home/share/Hadoop/MapReduce/* : $ Hadoop _ mapred _ home/share/Hadoop/MapReduce
/属性
/配置
配置etc/hadoop/yarn-site.xml
配置
属性
名称yarn .节点管理器. aux -服务/名称
值映射_轮廓/值
/属性
属性
名称yarn .节点管理器. env -白名单/名称
valueJAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,类路径预留_盘柜
/属性
/配置
开始步骤yarn处理
实际上启动了资源管理器和节点管理器两个守护进程。
sctdbz/start-yarn.sh如果在此步骤中启动失败,将显示未在JAVA_HOME中设置或缺少的错误消息。 可以手动配置mapred-env.sh文件中的JAVA_HOME和yarn-env.sh文件中的JAVA_HOME
步骤3 :验证结果,操作yarn的dashboard页面
通过云主机的公共网络IP加8088端口,在浏览器中打开yarn的dashboard页。 如果页面能够正常打开,例如36.255.67.89:8088,则表示yarn已成功启动。
由于当前刚刚启动,作业没有运行,因此页面上显示为没有数据。 让我们继续使用hadoop附带的example功能,测试一下效果。
确认HDFS启动,并且有输入文件。 该文件下面也有实验数据,如果存在output文件,则需要删除。 否则会报告错误。
CT DBZ/HDFS DFS-RM-r输出
hadoopjarshare/Hadoop/MapReduce/Hadoop-MapReduce-examples-2.10.1.Jargrepinput /输出/' DFS [ a-z.]
如果更新CTDBZ/HDFSDFS-catoutput/*Yarn的dashboard页面,就会发现有经过处理的数据。
实验结束后,可以停止yarn和dfs进程。
SCT dbz /停止- yarn.sh
SCT dbz /停止- DFS.sh
实验总结
1) HDFS解决了input和output数据等数据的分布式存储,默认为3个拷贝。2 ) YARN解决了MapReduce数据处理过程的资源管理,分散了MapReduce的job工作。
还剩下一个问题。 上面两个配置文件包含许多变量,如HADOOP_MAPRED_HOME、HADOOP_COMMON_HOME和HADOOP_HDFS_HOME等。 个人还不知道。 这些变量放在哪里,只能手动放置