本文为迁移自掘金的文章,原始链接:大数据-01 基础环境搭建
背景介绍
使用三台公网云服务器搭建 Hadoop 学习环境:
- h121: 2C4G
- h122: 2C4G
- h123: 2C2G
⚠️ 需做好防火墙策略,仅供学习使用。
Hadoop 组件介绍
HDFS(Hadoop Distributed File System)
分布式文件系统,将数据分成块分散存储在集群不同节点上,提供高容错性和可靠性。
MapReduce
数据处理模型,分为 Map 阶段(将输入数据拆分为键值对)和 Reduce 阶段(根据键对数据进行聚合处理)。
YARN(Yet Another Resource Negotiator)
资源管理器,负责调度和分配集群中的计算资源。
Hadoop Common
提供通用工具和库,如文件系统抽象、序列化机制和 RPC 框架。
优点
- 可扩展性:可增加节点扩展计算和存储能力
- 容错性:HDFS 将数据复制到不同节点
- 成本效益:运行在廉价商用硬件上
- 灵活性:处理各种格式的数据
Java 环境配置
# 安装 OpenJDK 8
sudo apt install openjdk-8-jdk
# 查找 Java 目录
readlink -f $(which java)
# 配置环境变量(写入 /etc/profile)
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export PATH=$JAVA_HOME/bin:$PATH
# 刷新环境变量
source /etc/profile
# 验证
java -version
Hadoop 环境配置
# 创建目录
sudo mkdir /opt/software
sudo mkdir /opt/servers
# 下载 Hadoop
sudo wget -O hadoop-2.9.2.tar.gz https://archive.apache.org/dist/hadoop/common/hadoop-2.9.2/hadoop-2.9.2.tar.gz
# 解压
sudo tar -zxvf hadoop-2.9.2.tar.gz -C /opt/servers
# 配置环境变量(写入 /etc/profile)
export HADOOP_HOME=/opt/servers/hadoop-2.9.2
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
# 刷新环境变量
source /etc/profile
# 验证
hadoop version
本文首发于 掘金