标签: Hadoop
共 17 篇文章
AI-调查研究-51-大数据调研报告 技术更迭史:被淘汰的框架与架构,以及背后的原因
大数据技术更迭历程:MapReduce被Spark取代、Storm被Flink取代、Pig/Hive逐渐退出。文章分析了这些技术被淘汰的原因和背后的技术演进逻辑。
AI-调查研究-50-大数据调研报告 二十年演进:从Hadoop批处理到Flink实时计算的架构变革
大数据技术二十年演进:2006年MapReduce批处理到2013年Spark内存计算,再到2019年Flink实时计算。架构从单体Hadoop转向YARN多引擎,再到云原生Kubernetes。
AI-调查研究-49-大数据调研报告 发展历程:从概念诞生到多元化生态1997-2025
大数据发展始于1997年NASA提出概念,2003-2006年谷歌发表GFS、MapReduce、Bigtable三大论文引领分布式计算革命。2005年Hadoop诞生,2008年成为Apache顶级项目形成完整生态。
大数据-140 ClickHouse CollapsingMergeTree详解 外部数据源最小闭环HDFS/MySQL/Kafka
ClickHouse 外部数据源引擎的最小可行方案:ENGINE=HDFS、ENGINE=MySQL、ENGINE=Kafka 的 DDL 模板、关键参数与读写链路。示范 Kafka→Materialized View→MergeTree...
大数据-22 Sqoop 实战:MySQL 全量数据导入 HDFS
通过完整示例演示使用 Sqoop 将 MySQL 表数据全量导入 HDFS,涵盖核心参数说明、MapReduce 并行机制及执行结果验证。
大数据-11 MapReduce JOIN 四种实现策略
深入讲解 MapReduce 中 Reduce-Side Join、Map-Side Join、Semi-Join 和 Bloom Join 四种 JOIN 策略的原理与 Java 实现,分析各自适用场景和性能特点。
大数据-12 Hive 入门:架构原理与集群安装
介绍 Hive 数据仓库的核心概念、架构组成与优缺点,并详细讲解在三节点 Hadoop 集群上安装配置 Hive 2.3.9 的完整步骤。
大数据-09 HDFS Java Client 实战:上传下载文件、目录扫描
使用 Hadoop HDFS Java Client API 进行文件操作:Maven 依赖配置、FileSystem/Path/Configuration 核心类,实现文件上传、下载、删除、列表扫描和进度条显示。
大数据-10 Java 实现 MapReduce WordCount 完整代码
从零实现 Hadoop MapReduce WordCount:Hadoop 序列化机制详解,编写 Mapper、Reducer、Driver 三大组件,Maven 项目配置,本地与集群运行完整代码。
大数据-07 HDFS 分布式文件系统 读写原理详解
深入解析 HDFS 架构:NameNode、DataNode、Client 角色分工,Block 存储机制,文件读写流程(Pipeline 写入与就近读取),以及 HDFS 基础命令速查。
大数据-08 HDFS 命令行实操 hadoop fs 完整命令详解
HDFS 命令行完整实操:hadoop fs 常用命令速查,包括目录操作、文件上传下载、权限管理,结合三节点集群实际演示。
大数据-05 Hadoop集群 WordCount 分布式计算实战
在 Hadoop 集群上完整执行 WordCount:上传文件到 HDFS、提交 MapReduce 任务、通过 YARN UI 查看运行状态,验证真正的分布式计算。
大数据-06 Hadoop JobHistoryServer 配置与日志聚合
配置 Hadoop JobHistoryServer 记录 MapReduce 任务执行历史,开启 YARN 日志聚合,通过 Web UI 可视化查看任务详情和日志。
大数据-03 Hadoop集群 SSH免密登录配置与分发脚本
Hadoop 三节点集群 SSH 免密登录全流程:生成 RSA 密钥、分发公钥、编写 rsync 集群分发脚本,含踩坑笔记与 /etc/hosts 配置要点。
大数据-04 Hadoop集群群起 NameNode DataNode YARN 启动与 Web UI 验证
Hadoop 三节点集群完整启动流程:格式化 NameNode、启动 HDFS 和 YARN,通过 Web UI 验证集群状态,含 start-dfs.sh 和 start-yarn.sh 用法。
大数据-01 基础环境搭建:Hadoop 集群
在3台云服务器(2C4G配置)上搭建Hadoop集群环境的详细教程,包含HDFS、MapReduce、YARN组件介绍,Java和Hadoop环境配置步骤。
大数据-02 Hadoop集群 XML配置详解 core-site hdfs-site mapred-site yarn-site
详解 Hadoop 集群三节点 XML 配置文件:core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml,含 NameNode、DataNode...