标签: hbase

共 15 篇文章

大数据-268 实时数仓 - ODS层将 Kafka 中的维度表写入 DIM

在 Kafka 中写入维度表（DIM）通常涉及将实时或批处理数据从 Kafka 主题读取，并根据数据流中的信息更新维度表。维度表存储与业务数据相关的维度信息，如客户、产品、地理位置等，用于支持 OLAP 查询。

2025/1/3

大数据-269 实时数仓 - DIM DW ADS 层处理 Scala实现将数据写出HBase等

DW（Data WareHouse 数据仓库层），包含 DWD、DWS、DIM 层数据加工而成，主要完成数据架构与整合，建立一致性的维度，构建可复用的面向分析和统计的明细事实表，以及汇总公共粒度的指标。

2025/1/3

大数据-266 实时数仓 - Canal 对接 Kafka 客户端测试

本文介绍了阿里巴巴开源的Canal工具，它通过解析MySQL的binlog实现数据库变更的数据捕获(CDC)。文章展示了如何将Canal与Kafka集成，实现数据库变更到消息队列的实时推送，包含INSERT、UPDATE...

2025/1/2

大数据-267 实时数仓 - ODS Lambda架构 Kappa架构核心思想

在互联网企业中，常见的 ODS 数据有业务日志数据（Log）和业务 DB 数据两类，对于业务 DB 数据来说，从 MySQL 等关系型数据库的业务数据进行采集，然后导入到 Hive 中，是进行数据仓库生产的重要环节。

2025/1/2

大数据-265 实时数仓 - Canal 部署安装启动服务常见问题解决

Canal 是阿里巴巴开源的数据同步工具，用于 MySQL 数据库的增量日志解析和同步。它模拟 MySQL 从库协议，获取主库的 binlog 日志，从而实现实时数据捕获和传输，常用于数据迁移、缓存更新和搜索引擎同步等场景。

2024/12/31

大数据-263 实时数仓 - Canal 工作原理工作流程 MySQL Binlog基本介绍

Canal 是一款用于 MySQL 数据库 binlog 增量订阅和消费的开源工具。它主要用于解决数据同步和分布式事务问题，支持将数据库变更同步到其他系统中，比如消息队列、大数据平台等。

2024/12/30

大数据-264 实时数仓 - Canal MySQL的binlog研究存储目录变动信息配置MySQL

MySQL 的二进制日志（Binary Log，简称 binlog）是 MySQL 数据库中的一种日志文件类型，它记录了对数据库执行的所有更改操作（不包括 SELECT 和 SHOW 等查询操作）。它主要用于数据恢复、复制和审计等场景。

2024/12/30

大数据-262 实时数仓 - Canal 同步数据介绍背景原理与优势拉链表实时统计

阿里巴巴 B2B 公司，由于业务的特性，卖家主要集中在国内，买家主要集中在国外，所以衍生出了杭州和美国异地机房的需求，从 2010 年开始，阿里系公司开始逐步的尝试基于数据库的日志解析，获取增量变更进行同步，由此衍生出了增量订阅、消费的业务。

2024/12/29

大数据-261 实时数仓 - 业务数据库表结构交易订单、订单产品、产品分类、商家店铺、地域组织表

实时数仓是一种数据仓库系统，区别于传统批处理数仓，它强调低延迟、高吞吐和高可用性。实时数仓能够处理流式数据或近实时的数据流，使企业能够及时监控关键指标并做出决策。

2024/12/28

深入浅出 MongoDB NoSQL：MongoDB、Redis、HBase、Neo4j应用场景与对比

NoSQL是非关系型数据库的统称，包括文档型MongoDB、键值型Redis、列存储HBase、图数据库Neo4j，各有特点和适用场景。

2024/11/15

大数据-37 HBase Java API 增删改查完整代码

使用 HBase Java Client API 实现建表、插入、删除、Get 查询、全表扫描与范围扫描，附完整 Maven 依赖和可运行代码示例。

2024/8/17

大数据-35 HBase 集群模式：3 节点集群配置与启动

基于上一篇单节点配置，将 HBase 分发到 3 个节点组成生产集群，介绍配置同步、集群启动、Web UI 验证及 HBase Shell 基本操作。

2024/8/14

大数据-36 HBase 增删改查与列族设计详解

深入讲解 HBase 列族设计原则、Shell 操作实战，涵盖建表、插入、查询、更新、删除完整流程，附生产级列族配置示例。

2024/8/14

大数据-33 HBase 整体架构：HMaster、HRegionServer 与数据模型

全面解析 HBase 分布式数据库的整体架构，包括 ZooKeeper 协调、HMaster 管理节点、HRegionServer 数据节点、Region 存储单元及四维数据模型，适合大数据架构选型参考。

2024/8/10

大数据-34 HBase 单节点配置：hbase-env 与 hbase-site.xml 详解

手把手配置 HBase 单节点环境，详解 hbase-env.sh、hbase-site.xml 关键参数，完成与 Hadoop HDFS 和 ZooKeeper 集群的对接。