标签: hadoop

共 14 篇文章

大数据-140 ClickHouse CollapsingMergeTree详解 外部数据源最小闭环HDFS/MySQL/Kafka

ClickHouse 外部数据源引擎的最小可行方案:ENGINE=HDFS、ENGINE=MySQL、ENGINE=Kafka 的 DDL 模板、关键参数与读写链路。示范 Kafka→Materialized View→MergeTree 的实时落地,说明 HDFS 以读取为主,MySQL 写入的 replace_query/on_duplicate_clause 风险点。

大数据-22 Sqoop 实战:MySQL 全量数据导入 HDFS

通过完整示例演示使用 Sqoop 将 MySQL 表数据全量导入 HDFS,涵盖核心参数说明、MapReduce 并行机制及执行结果验证。

大数据-11 MapReduce JOIN 四种实现策略

深入讲解 MapReduce 中 Reduce-Side Join、Map-Side Join、Semi-Join 和 Bloom Join 四种 JOIN 策略的原理与 Java 实现,分析各自适用场景和性能特点。

大数据-12 Hive 入门:架构原理与集群安装

介绍 Hive 数据仓库的核心概念、架构组成与优缺点,并详细讲解在三节点 Hadoop 集群上安装配置 Hive 2.3.9 的完整步骤。

大数据-09 HDFS Java Client 实战:上传下载文件、目录扫描

使用 Hadoop HDFS Java Client API 进行文件操作:Maven 依赖配置、FileSystem/Path/Configuration 核心类,实现文件上传、下载、删除、列表扫描和进度条显示。

大数据-10 Java 实现 MapReduce WordCount 完整代码

从零实现 Hadoop MapReduce WordCount:Hadoop 序列化机制详解,编写 Mapper、Reducer、Driver 三大组件,Maven 项目配置,本地与集群运行完整代码。

大数据-07 HDFS 分布式文件系统 读写原理详解

深入解析 HDFS 架构:NameNode、DataNode、Client 角色分工,Block 存储机制,文件读写流程(Pipeline 写入与就近读取),以及 HDFS 基础命令速查。

大数据-08 HDFS 命令行实操 hadoop fs 完整命令详解

HDFS 命令行完整实操:hadoop fs 常用命令速查,包括目录操作、文件上传下载、权限管理,结合三节点集群实际演示。

大数据-05 Hadoop集群 WordCount 分布式计算实战

在 Hadoop 集群上完整执行 WordCount:上传文件到 HDFS、提交 MapReduce 任务、通过 YARN UI 查看运行状态,验证真正的分布式计算。

大数据-06 Hadoop JobHistoryServer 配置与日志聚合

配置 Hadoop JobHistoryServer 记录 MapReduce 任务执行历史,开启 YARN 日志聚合,通过 Web UI 可视化查看任务详情和日志。

大数据-03 Hadoop集群 SSH免密登录配置与分发脚本

Hadoop 三节点集群 SSH 免密登录全流程:生成 RSA 密钥、分发公钥、编写 rsync 集群分发脚本,含踩坑笔记与 /etc/hosts 配置要点。

大数据-04 Hadoop集群群起 NameNode DataNode YARN 启动与 Web UI 验证

Hadoop 三节点集群完整启动流程:格式化 NameNode、启动 HDFS 和 YARN,通过 Web UI 验证集群状态,含 start-dfs.sh 和 start-yarn.sh 用法。

大数据-01 基础环境搭建:Hadoop 集群

在3台云服务器(2C4G配置)上搭建Hadoop集群环境的详细教程,包含HDFS、MapReduce、YARN组件介绍,Java和Hadoop环境配置步骤。

大数据-02 Hadoop集群 XML配置详解 core-site hdfs-site mapred-site yarn-site

详解 Hadoop 集群三节点 XML 配置文件:core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml,含 NameNode、DataNode、ResourceManager 配置说明。