配置Hadoop的核心配置文件
core-site.xml:设置Hadoop的核心配置参数,例如NameNode的地址、数据块大小、副本数量等。示例配置如下:
fs.defaultFS hdfs://localhost:9000
hdfs-site.xml:设置HDFS(Hadoop分布式文件系统)的参数,例如数据块复制因子、NameNode的存储路径等。示例配置如下:
dfs.replication 1 dfs.namenode.name.dir /opt/hadoop-3.3.0/data/namenode dfs.datanode.data.dir /opt/hadoop-3.3.0/data/datanode
mapred-site.xml:如果使用MapReduce框架,则需要配置该文件,设置JobTracker的地址等信息。示例配置如下:
mapreduce.framework.name yarn
格式化NameNode。在终端中输入以下命令:
hdfs namenode -format
需要注意的是,格式化会删除所有已有的HDFS数据,所以需要谨慎执行。
配置Hadoop集群的JAVA_HOME
vim ./etc/hadoop/hadoop-env.sh
#添加JAVA_HOME路径
export JAVA_HOME = /opt/jdk-8
启动Hadoop集群。在终端中输入以下命令:
start-all.sh
如果一切正常,Hadoop集群将启动成功
创建hdfs存储目录
hdfs dfs -mkdir -p /user/test/flumebackup
查看是否有该目录
hdfs dfs -ls -R /user/
因为我已经做了一遍该配置,请移步至→
https://blog.csdn.net/HaveAGoodDay428/article/details/129567879
创建flume配置文件flume-kafka.conf
启动Flume
./bin/flue-ng agent -n a1 -c conf -f ./conf/flume-kafka.conf -Dflume.root.logger=INFO,console
nc localhost 10050
可以通过查看hdfs存储目录中每次发送socket数据时是否新增文件