大数据-05 Hadoop集群 WordCount 分布式计算实战

本文是大数据系列第 5 篇，在搭建完毕的三节点集群上执行第一个真正的分布式 MapReduce 计算——WordCount。

完整图文版：CSDN 原文 | 掘金

HDFS 架构回顾

HDFS 采用 Master/Slave 架构：

HDFS 设计原则：高容错（默认 3 副本）、高吞吐（顺序读写）、适合大文件批处理，不适合低延迟随机读写。

# 本地创建测试文本
echo "hello hadoop hello world hadoop" > /opt/wzk/test.txt

hdfs dfs -mkdir -p /test/input
hdfs dfs -put /opt/wzk/test.txt /test/input
hdfs dfs -ls /test/input

Hadoop 自带 WordCount 示例 jar：

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.2.jar \
  wordcount /test/input /wcoutput

访问 http://h123.wzk.icu:8088/cluster/apps，可以看到 RUNNING 状态的 wordcount 任务，完成后状态变为 SUCCEEDED。

# 列出输出目录
hdfs dfs -ls /wcoutput

# 查看结果
hdfs dfs -cat /wcoutput/part-r-00000

预期输出：

hadoop  2
hello   2
world   1

hdfs dfs -get /wcoutput/part-r-00000 /opt/wzk/result.txt

WordCount 经历三个阶段：

三节点集群中，Map 任务分布在多个 DataNode 上并行执行，体现了真正的分布式计算。