本文为迁移自掘金的文章,原始链接:大数据-01 基础环境搭建

背景介绍

使用三台公网云服务器搭建 Hadoop 学习环境:

  • h121: 2C4G
  • h122: 2C4G
  • h123: 2C2G

⚠️ 需做好防火墙策略,仅供学习使用。

Hadoop 组件介绍

HDFS(Hadoop Distributed File System)

分布式文件系统,将数据分成块分散存储在集群不同节点上,提供高容错性和可靠性。

MapReduce

数据处理模型,分为 Map 阶段(将输入数据拆分为键值对)和 Reduce 阶段(根据键对数据进行聚合处理)。

YARN(Yet Another Resource Negotiator)

资源管理器,负责调度和分配集群中的计算资源。

Hadoop Common

提供通用工具和库,如文件系统抽象、序列化机制和 RPC 框架。

优点

  • 可扩展性:可增加节点扩展计算和存储能力
  • 容错性:HDFS 将数据复制到不同节点
  • 成本效益:运行在廉价商用硬件上
  • 灵活性:处理各种格式的数据

Java 环境配置

# 安装 OpenJDK 8
sudo apt install openjdk-8-jdk

# 查找 Java 目录
readlink -f $(which java)

# 配置环境变量(写入 /etc/profile)
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export PATH=$JAVA_HOME/bin:$PATH

# 刷新环境变量
source /etc/profile

# 验证
java -version

Hadoop 环境配置

# 创建目录
sudo mkdir /opt/software
sudo mkdir /opt/servers

# 下载 Hadoop
sudo wget -O hadoop-2.9.2.tar.gz https://archive.apache.org/dist/hadoop/common/hadoop-2.9.2/hadoop-2.9.2.tar.gz

# 解压
sudo tar -zxvf hadoop-2.9.2.tar.gz -C /opt/servers

# 配置环境变量(写入 /etc/profile)
export HADOOP_HOME=/opt/servers/hadoop-2.9.2
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin

# 刷新环境变量
source /etc/profile

# 验证
hadoop version

本文首发于 掘金