[安装] 搭建hadoop集群

admin

2024-03-23 16:48:39

0次

参考资料：Hadoop集群搭建，14张过程截图超详细教程

hadoop集群构建 for ljgk

一、基础环境准备

修改主机名称

配置yum源

1. 局域网中配置代理环境

2.或者使用私有的yum源的方式

关闭防火墙

配置ip映射

集群免密登录

修改操作系统最大打开文件数(句柄数量)

设置服务器时间同步

二、构建hadoop集群

安装jdk

添加hadoop用户，并赋予权限(强烈推荐做)

修改hadoop配置文件(不完全配置)

格式化hdfs的节点

验证部署结果

[参考文档]

HDFS新增节点与删除节点

待完成(非紧急)

hadoop集群构建 for xxcom

搭建集群之前的准备工作：

下载hadoop安装包：[大数据]hadoop_2.7.4.tar.gz GZ文件[254.33MB]-码姐姐

新购买的服务器搭建大数据集群之前的准备工作_fct2001140269的博客-CSDN博客

一、基础环境准备

jdk1.8

hadoop2.7.2 x

Centos7.6

修改主机名称

#查看主机名
hostname#临时修改主机名称
hostname hadoop01#永久修改主机名
hostnamectl set-hostname hadoop01

配置yum源

1. 局域网中配置代理环境

执行vim /root/.bashrc中添加代理服务地址：

#有一台专门的代理服务器
export http_proxy=http://172.18.8.162:7010
export https_proxy=http://172.18.8.162:7010

然后使用. /root/.bashrc命令，使得配置的环境生效.

设置yum源

进入209物理机：/etc/yum.repos.d，将配置好的yum源拷贝到对应的208机器上；

yum clean all
yum makecache

2.或者使用私有的yum源的方式

CentOS7配置离线YUM源

关闭防火墙

#查看防火墙状态
systemctl status firewalld.service#关闭当前防火墙
systemctl stop firewalld.service#永久关闭防火墙
systemctl disable firewalld.service#查看是否生效防火墙状态
systemctl status firewalld.service

配置ip映射

修改主机名称,分别在四台机器中执行修改主机名，永久有效

hostnamectl set-hostname hadoop01hostnamectl set-hostname hadoop02hostnamectl set-hostname hadoop03hostnamectl set-hostname hadoop04

配置映射关系vim /etc/hosts 如下所示

172.18.8.205  hadoop01
172.18.8.207  hadoop02
172.18.8.208  hadoop03
172.18.8.209  hadoop04

集群免密登录

注意：设置免密登录之前，请先设置号“主机名称”,以及“主机到ip的映射”

CentOS7 配置ssh免密登录_青春的样子1的博客-CSDN博客_centos7ssh免密登录

使用ssh-keygen命令和ssh-copy-id命令（当前是在root用户下执行的免密登录，hadoop集群需要在hadoop用户下免密登录配置，可以看下文配置）

例如在任何一台机器上执行如下命令

#在任意一台机器上执行,一直按enter，生成秘钥
ssh-keygen #将秘钥拷贝到其他的节点
ssh-copy-id hadoop01
ssh-copy-id hadoop02
ssh-copy-id hadoop03
ssh-copy-id hadoop04

最后，验证ssh免密是否可以行

修改操作系统最大打开文件数(句柄数量)

参考网上配置即可

############ limits 相关 ############
# 扩大句柄数
sed -i 's/4096/1000000/g' /etc/security/limits.d/20-nproc.conf
cat <<'EOF'> /etc/security/limits.d/20-all-users.conf
*               soft    nproc          1000000
*               hard    nproc          1000000
*               soft    nofile         1000000
*               hard    nofile         1000000
EOF

设置服务器时间同步

设置时区，统一设置为东8区，手动同步时间(hbase对集群服务器之间时间要求比较严格)

  date -R   ##查看时区时候是东八区时间date -s 'hh:mm:ss'   #设置相应的时间clock -w     #保存时钟，将时间写入系统硬盘，永久有效hwclock -w：#当我们进行完 Linux 时间的校时后，还需要以 hwclock 来更新 BIOS 的时间，因为每次重新启动的时候，系统会重新由 BIOS 将时间读出来

二、构建hadoop集群

安装jdk

过程略.....

#安装 jdk1.8.0_261 #并设置环境变量

添加hadoop用户，并赋予权限(强烈推荐做)

添加hadoop用户(默认自动添加hadoop用户组)，在切换到hadoop用户的情况下，进行ssh免密登录配置

2、新建用户hadoop
#useradd  hadoop（自动建组hadoop）3、设置用户密码（配置ssh免密需要）
#passwd  hadoop4、修改hadoop安装目录的权限
#chown  -R  hadoop:hadoop  /opt/software/hadoop-2.8.15、hadoop用户配置ssh免密
#su  - hadoop$ssh_keygen+ssh_copy_id命令配合使用即可

修改hadoop配置文件(不完全配置)

core-site.xml


hadoop.proxyuser.hue.hosts*fs.defaultFShdfs://hadoop02:8020hadoop.tmp.dirfile:/data/hadoop/hadoop-2.7.4/tmpio.file.buffer.size131072hadoop.proxyuser.hue.groups*hadoop.http.staticuser.userhadoophadoop.proxyuser.root.hosts*hadoop.proxyuser.root.groups*

修改hadoop安装目录下的/etc/hadoop/中文件，如下修改$HAOOP_HOME/etc/hadoop/配置hdfs-site.xml等

yarn.application.classpathyarn.nodemanager.env-whitelist，yarn.resourcemanager.hostnamehadoop02yarn.nodemanager.aux-servicesmapreduce_shuffleyarn.nodemanager.vmem-check-enabledfalseyarn.nodemanager.pmem-check-enabledfalseyarn.resourcemanager.scheduler.classyarn.resourcemanager.scheduler.client.thread-count40yarn.nodemanager.resource.detect-hardware-capabilitiesfalseyarn.nodemanager.resource.count-logical-processors-as-coresfalseyarn.nodemanager.resource.pcores-vcores-multiplier2.0yarn.nodemanager.resource.memory-mb100000yarn.nodemanager.resource.cpu-vcores20iyarn.scheduler.minimum-allocation-mb1024yarn.scheduler.maximum-allocation-mb20480yarn.scheduler.minimum-allocation-vcores1yarn.schedluler.maximum-allocation-vcores40yarn.nodemanager.vmem-pmem-ratio2.1

修改mapred-site.xml文件

   mapreduce.framework.nameyarnmapreduce.map.java.opts-Xmx3072mmapred.child.java.opts-Xmx4096mmapreduce.reduce.java.opts-Xmx6144mmapreduce.reduce.memory.mb8192mapreduce.map.memory.mb4096yarn.nodemanager.bind-host0.0.0.0mapreduce.jobhistory.webapp.addresshadoop02:8188mapreduce.jobhistory.addresshadoop02:10020yarn.app.mapreduce.am.envHADOOP_MAPRED_HOME=/opt/hadoop/hadoop-2.7.4mapreduce.map.envHADOOP_MAPRED_HOME=/opt/hadoop/hadoop-2.7.4mapreduce.reduce.envHADOOP_MAPRED_HOME=/opt/hadoop/hadoop-2.7.4mapreduce.jobhistory.addresshadoop02:10020mapreduce.jobhistory.webapp.addresshadoop02:19888

其他配置参考对应的参考文档，详情参考172.18.8.207:/opt/hadoop/hadoop-2.7.4/etc/hadoop/下的配置，主要是各种 ***-site.xml格式的文件，slave文件等；

格式化hdfs的节点

$HADOOP_HOME/bin/hdfs namenode -format ljgk_hadoop_cluster

启动hadoop集群

#启动hadoop集群之前，切换hadoop用户,密码是hadoop
su hadoop#启动hadoop集群
${HADOOP_HOME}/sbin/start-all.sh

特别强调：今后操作hadoop集群，都是要以hadoop的用户身份操作；

验证部署结果

使用jps查看各个节点上进程的运行情况

例如：hadoop03

[hadoop@hadoop02 docker-dss]# jps
23521 ResourceManager
56951 PrestoServer
139752 Jps
23866 NodeManager
21613 NameNode
21837 DataNode

验证hdfs和yarn的可用性

·提交一个简单mr示例

#提交安装包中自带的mr程序，查看yarn运行情况，查看hdfs上是否有结果输出
hadoop jar /opt/bigdata/hadoop-2.9.2/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.9.2-tests.jar TestDFSIO -Dmapreduce.job.queuename=dmgeo -write -nrFiles 10 -fileSize 128MB

hdfs访问地址：http://172.18.8.207:50070

yarn访问地址：http://172.18.8.207:8088

[参考文档]

HDFS新增节点与删除节点

HDFS系列讲解之HDFS新增节点与删除节点

hadoop伪分布式搭建(root用户迁移到非root)

待完成(非紧急)

yarn中的timelineServer服务：YARN之配置Timeline服务_TomAndersen的博客-CSDN博客_yarn时间线服务
增加hadoop中的hadoop用户；
总结hadoop的更多使用场景；
shell脚本化部署hadoop

词库加载错误:未能找到文件“E:\highferrum_mysql\Configuration\Dict_Stopwords.txt”。

上一篇：拆解特斯拉和兰博基尼，还招底盘工程师！雅迪也要造车？拆解特斯拉电机技术拆解兰博基尼大牛

下一篇：世预赛-日本1-0朝鲜三战全胜朝鲜进球被吹1胜2负暂列小组第2 世预赛朝鲜6-1横扫缅甸回放世预赛日本赢了几场

[安装] 搭建hadoop集群

hadoop集群构建 for xxcom

一、基础环境准备

修改主机名称

配置yum源

1. 局域网中配置代理环境

2.或者使用私有的yum源的方式

关闭防火墙

配置ip映射

集群免密登录

修改操作系统最大打开文件数(句柄数量)

设置服务器时间同步

二、构建hadoop集群

安装jdk

添加hadoop用户，并赋予权限(强烈推荐做)

修改hadoop配置文件(不完全配置)

格式化hdfs的节点

验证部署结果

[参考文档]

HDFS新增节点与删除节点

待完成(非紧急)

相关内容

热门资讯