标签: hadoop

共 14 篇文章

大数据-140 ClickHouse CollapsingMergeTree详解外部数据源最小闭环HDFS/MySQL/Kafka

ClickHouse 外部数据源引擎的最小可行方案：ENGINE=HDFS、ENGINE=MySQL、ENGINE=Kafka 的 DDL 模板、关键参数与读写链路。示范 Kafka→Materialized View→MergeTree 的实时落地，说明 HDFS 以读取为主，MySQL 写入的 replace_query/on_duplicate_clause 风险点。

大数据-22 Sqoop 实战：MySQL 全量数据导入 HDFS

通过完整示例演示使用 Sqoop 将 MySQL 表数据全量导入 HDFS，涵盖核心参数说明、MapReduce 并行机制及执行结果验证。

大数据-11 MapReduce JOIN 四种实现策略

深入讲解 MapReduce 中 Reduce-Side Join、Map-Side Join、Semi-Join 和 Bloom Join 四种 JOIN 策略的原理与 Java 实现，分析各自适用场景和性能特点。

大数据-12 Hive 入门：架构原理与集群安装

介绍 Hive 数据仓库的核心概念、架构组成与优缺点，并详细讲解在三节点 Hadoop 集群上安装配置 Hive 2.3.9 的完整步骤。

大数据-09 HDFS Java Client 实战：上传下载文件、目录扫描

使用 Hadoop HDFS Java Client API 进行文件操作：Maven 依赖配置、FileSystem/Path/Configuration 核心类，实现文件上传、下载、删除、列表扫描和进度条显示。

大数据-10 Java 实现 MapReduce WordCount 完整代码

从零实现 Hadoop MapReduce WordCount：Hadoop 序列化机制详解，编写 Mapper、Reducer、Driver 三大组件，Maven 项目配置，本地与集群运行完整代码。

大数据-07 HDFS 分布式文件系统读写原理详解

深入解析 HDFS 架构：NameNode、DataNode、Client 角色分工，Block 存储机制，文件读写流程（Pipeline 写入与就近读取），以及 HDFS 基础命令速查。

大数据-08 HDFS 命令行实操 hadoop fs 完整命令详解

HDFS 命令行完整实操：hadoop fs 常用命令速查，包括目录操作、文件上传下载、权限管理，结合三节点集群实际演示。

大数据-05 Hadoop集群 WordCount 分布式计算实战

在 Hadoop 集群上完整执行 WordCount：上传文件到 HDFS、提交 MapReduce 任务、通过 YARN UI 查看运行状态，验证真正的分布式计算。

大数据-06 Hadoop JobHistoryServer 配置与日志聚合

配置 Hadoop JobHistoryServer 记录 MapReduce 任务执行历史，开启 YARN 日志聚合，通过 Web UI 可视化查看任务详情和日志。

大数据-03 Hadoop集群 SSH免密登录配置与分发脚本

Hadoop 三节点集群 SSH 免密登录全流程：生成 RSA 密钥、分发公钥、编写 rsync 集群分发脚本，含踩坑笔记与 /etc/hosts 配置要点。

大数据-04 Hadoop集群群起 NameNode DataNode YARN 启动与 Web UI 验证

Hadoop 三节点集群完整启动流程：格式化 NameNode、启动 HDFS 和 YARN，通过 Web UI 验证集群状态，含 start-dfs.sh 和 start-yarn.sh 用法。

大数据-01 基础环境搭建：Hadoop 集群

在3台云服务器（2C4G配置）上搭建Hadoop集群环境的详细教程，包含HDFS、MapReduce、YARN组件介绍，Java和Hadoop环境配置步骤。

大数据-02 Hadoop集群 XML配置详解 core-site hdfs-site mapred-site yarn-site

详解 Hadoop 集群三节点 XML 配置文件：core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml，含 NameNode、DataNode、ResourceManager 配置说明。