[安装] 搭建hadoop集群
admin
2024-03-23 16:48:39
0

参考资料:Hadoop集群搭建,14张过程截图超详细教程

目录

目录

hadoop集群构建 for ljgk

一、基础环境准备

修改主机名称

配置yum源

1. 局域网中配置代理环境

2.或者使用私有的yum源的方式

关闭防火墙

配置ip映射

集群免密登录

修改操作系统最大打开文件数(句柄数量)

设置服务器时间同步

二、构建hadoop集群

安装jdk

添加hadoop用户,并赋予权限(强烈推荐做)

修改hadoop配置文件(不完全配置)

格式化hdfs的节点

验证部署结果

[参考文档]

HDFS新增节点与删除节点

待完成(非紧急)

hadoop集群构建 for xxcom

搭建集群之前的准备工作:

下载hadoop安装包:[大数据]hadoop_2.7.4.tar.gz GZ文件[254.33MB]-码姐姐

新购买的服务器搭建大数据集群之前的准备工作_fct2001140269的博客-CSDN博客

一、基础环境准备

jdk1.8

hadoop2.7.2    x 

Centos7.6

修改主机名称

#查看主机名
hostname#临时修改主机名称
hostname hadoop01#永久修改主机名
hostnamectl set-hostname hadoop01

配置yum源

1. 局域网中配置代理环境

执行vim /root/.bashrc中添加代理服务地址:

#有一台专门的代理服务器
export http_proxy=http://172.18.8.162:7010
export https_proxy=http://172.18.8.162:7010

然后使用. /root/.bashrc命令,使得配置的环境生效.

设置yum源

进入209物理机:/etc/yum.repos.d,将配置好的yum源拷贝到对应的208机器上;

yum clean all
yum makecache

2.或者使用私有的yum源的方式

CentOS7配置离线YUM源

关闭防火墙

#查看防火墙状态
systemctl status firewalld.service#关闭当前防火墙
systemctl stop firewalld.service#永久关闭防火墙
systemctl disable firewalld.service#查看是否生效防火墙状态
systemctl status firewalld.service

配置ip映射

修改主机名称,分别在四台机器中执行修改主机名,永久有效

hostnamectl set-hostname hadoop01hostnamectl set-hostname hadoop02hostnamectl set-hostname hadoop03hostnamectl set-hostname hadoop04

配置映射关系vim /etc/hosts 如下所示

172.18.8.205  hadoop01
172.18.8.207  hadoop02
172.18.8.208  hadoop03
172.18.8.209  hadoop04

集群免密登录

注意:设置免密登录之前,请先设置号“主机名称”,以及“主机到ip的映射”

CentOS7 配置ssh免密登录_青春的样子1的博客-CSDN博客_centos7ssh免密登录

使用ssh-keygen命令和ssh-copy-id命令(当前是在root用户下执行的免密登录,hadoop集群需要在hadoop用户下免密登录配置,可以看下文配置)

例如在任何一台机器上执行如下命令

#在任意一台机器上执行,一直按enter,生成秘钥
ssh-keygen #将秘钥拷贝到其他的节点
ssh-copy-id hadoop01
ssh-copy-id hadoop02
ssh-copy-id hadoop03
ssh-copy-id hadoop04

最后,验证ssh免密是否可以行

修改操作系统最大打开文件数(句柄数量)

参考网上配置即可

`

############ limits 相关 ############
# 扩大句柄数
sed -i 's/4096/1000000/g' /etc/security/limits.d/20-nproc.conf
cat <<'EOF'> /etc/security/limits.d/20-all-users.conf
*               soft    nproc          1000000
*               hard    nproc          1000000
*               soft    nofile         1000000
*               hard    nofile         1000000
EOF

设置服务器时间同步

设置时区,统一设置为东8区,手动同步时间(hbase对集群服务器之间时间要求比较严格)

  date -R   ##查看时区时候是东八区时间date -s 'hh:mm:ss'   #设置相应的时间clock -w     #保存时钟,将时间写入系统硬盘,永久有效hwclock -w:#当我们进行完 Linux 时间的校时后,还需要以 hwclock 来更新 BIOS 的时间,因为每次重新启动的时候,系统会重新由 BIOS 将时间读出来

二、构建hadoop集群

安装jdk

过程略.....

#安装 jdk1.8.0_261 #并设置环境变量

添加hadoop用户,并赋予权限(强烈推荐做)

  1. 添加hadoop用户(默认自动添加hadoop用户组),在切换到hadoop用户的情况下,进行ssh免密登录配置

2、新建用户hadoop
#useradd  hadoop(自动建组hadoop)3、设置用户密码(配置ssh免密需要)
#passwd  hadoop4、修改hadoop安装目录的权限
#chown  -R  hadoop:hadoop  /opt/software/hadoop-2.8.15、hadoop用户配置ssh免密
#su  - hadoop$ssh_keygen+ssh_copy_id命令配合使用即可

修改hadoop配置文件(不完全配置)

core-site.xml


hadoop.proxyuser.hue.hosts*fs.defaultFShdfs://hadoop02:8020hadoop.tmp.dirfile:/data/hadoop/hadoop-2.7.4/tmpio.file.buffer.size131072hadoop.proxyuser.hue.groups*hadoop.http.staticuser.userhadoophadoop.proxyuser.root.hosts*hadoop.proxyuser.root.groups*

修改hadoop安装目录下的/etc/hadoop/中文件,如下修改$HAOOP_HOME/etc/hadoop/配置hdfs-site.xml等

yarn.application.classpathyarn.nodemanager.env-whitelistyarn.resourcemanager.hostnamehadoop02yarn.nodemanager.aux-servicesmapreduce_shuffleyarn.nodemanager.vmem-check-enabledfalseyarn.nodemanager.pmem-check-enabledfalseyarn.resourcemanager.scheduler.classyarn.resourcemanager.scheduler.client.thread-count40yarn.nodemanager.resource.detect-hardware-capabilitiesfalseyarn.nodemanager.resource.count-logical-processors-as-coresfalseyarn.nodemanager.resource.pcores-vcores-multiplier2.0yarn.nodemanager.resource.memory-mb100000yarn.nodemanager.resource.cpu-vcores20iyarn.scheduler.minimum-allocation-mb1024yarn.scheduler.maximum-allocation-mb20480yarn.scheduler.minimum-allocation-vcores1yarn.schedluler.maximum-allocation-vcores40yarn.nodemanager.vmem-pmem-ratio2.1

修改mapred-site.xml文件

   mapreduce.framework.nameyarnmapreduce.map.java.opts-Xmx3072mmapred.child.java.opts-Xmx4096mmapreduce.reduce.java.opts-Xmx6144mmapreduce.reduce.memory.mb8192mapreduce.map.memory.mb4096yarn.nodemanager.bind-host0.0.0.0mapreduce.jobhistory.webapp.addresshadoop02:8188mapreduce.jobhistory.addresshadoop02:10020yarn.app.mapreduce.am.envHADOOP_MAPRED_HOME=/opt/hadoop/hadoop-2.7.4mapreduce.map.envHADOOP_MAPRED_HOME=/opt/hadoop/hadoop-2.7.4mapreduce.reduce.envHADOOP_MAPRED_HOME=/opt/hadoop/hadoop-2.7.4mapreduce.jobhistory.addresshadoop02:10020mapreduce.jobhistory.webapp.addresshadoop02:19888

其他配置参考对应的参考文档,详情参考172.18.8.207:/opt/hadoop/hadoop-2.7.4/etc/hadoop/下的配置,主要是各种   ***-site.xml格式的文件,slave文件等;

格式化hdfs的节点

$HADOOP_HOME/bin/hdfs namenode -format ljgk_hadoop_cluster

启动hadoop集群

#启动hadoop集群之前,切换hadoop用户,密码是hadoop
su hadoop#启动hadoop集群
${HADOOP_HOME}/sbin/start-all.sh

特别强调:今后操作hadoop集群,都是要以hadoop的用户身份操作;

验证部署结果

  1. 使用jps查看各个节点上进程的运行情况

例如:hadoop03

[hadoop@hadoop02 docker-dss]# jps
23521 ResourceManager
56951 PrestoServer
139752 Jps
23866 NodeManager
21613 NameNode
21837 DataNode

  1. 验证hdfs和yarn的可用性

·提交一个简单mr示例

#提交安装包中自带的mr程序,查看yarn运行情况,查看hdfs上是否有结果输出
hadoop jar /opt/bigdata/hadoop-2.9.2/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.9.2-tests.jar TestDFSIO -Dmapreduce.job.queuename=dmgeo -write -nrFiles 10 -fileSize 128MB 

hdfs访问地址:http://172.18.8.207:50070

yarn访问地址:http://172.18.8.207:8088

[参考文档]

HDFS新增节点与删除节点

HDFS新增节点与删除节点

HDFS系列讲解之HDFS新增节点与删除节点

hadoop伪分布式搭建(root用户迁移到非root)

待完成(非紧急)

  1. yarn中的timelineServer服务:YARN之配置Timeline服务_TomAndersen的博客-CSDN博客_yarn时间线服务

  2. 增加hadoop中的hadoop用户;

  3. 总结hadoop的更多使用场景;

  4. shell脚本化部署hadoop

相关内容

热门资讯

linux入门---制作进度条 了解缓冲区 我们首先来看看下面的操作: 我们首先创建了一个文件并在这个文件里面添加了...
C++ 机房预约系统(六):学... 8、 学生模块 8.1 学生子菜单、登录和注销 实现步骤: 在Student.cpp的...
A.机器学习入门算法(三):基... 机器学习算法(三):K近邻(k-nearest neigh...
数字温湿度传感器DHT11模块... 模块实例https://blog.csdn.net/qq_38393591/article/deta...
有限元三角形单元的等效节点力 文章目录前言一、重新复习一下有限元三角形单元的理论1、三角形单元的形函数(Nÿ...
Redis 所有支持的数据结构... Redis 是一种开源的基于键值对存储的 NoSQL 数据库,支持多种数据结构。以下是...
win下pytorch安装—c... 安装目录一、cuda安装1.1、cuda版本选择1.2、下载安装二、cudnn安装三、pytorch...
MySQL基础-多表查询 文章目录MySQL基础-多表查询一、案例及引入1、基础概念2、笛卡尔积的理解二、多表查询的分类1、等...
keil调试专题篇 调试的前提是需要连接调试器比如STLINK。 然后点击菜单或者快捷图标均可进入调试模式。 如果前面...
MATLAB | 全网最详细网... 一篇超超超长,超超超全面网络图绘制教程,本篇基本能讲清楚所有绘制要点&#...
IHome主页 - 让你的浏览... 随着互联网的发展,人们越来越离不开浏览器了。每天上班、学习、娱乐,浏览器...
TCP 协议 一、TCP 协议概念 TCP即传输控制协议(Transmission Control ...
营业执照的经营范围有哪些 营业执照的经营范围有哪些 经营范围是指企业可以从事的生产经营与服务项目,是进行公司注册...
C++ 可变体(variant... 一、可变体(variant) 基础用法 Union的问题: 无法知道当前使用的类型是什...
血压计语音芯片,电子医疗设备声... 语音电子血压计是带有语音提示功能的电子血压计,测量前至测量结果全程语音播报࿰...
MySQL OCP888题解0... 文章目录1、原题1.1、英文原题1.2、答案2、题目解析2.1、题干解析2.2、选项解析3、知识点3...
【2023-Pytorch-检... (肆十二想说的一些话)Yolo这个系列我们已经更新了大概一年的时间,现在基本的流程也走走通了,包含数...
实战项目:保险行业用户分类 这里写目录标题1、项目介绍1.1 行业背景1.2 数据介绍2、代码实现导入数据探索数据处理列标签名异...
记录--我在前端干工地(thr... 这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 前段时间接触了Th...
43 openEuler搭建A... 文章目录43 openEuler搭建Apache服务器-配置文件说明和管理模块43.1 配置文件说明...