标签: clickhouse

共 11 篇文章

大数据-143 ClickHouse 实战MergeTree 分区/TTL、物化视图、ALTER 与 system.parts 全流程示例

ClickHouse 初学与运维实战,基于真实集群(h121/h122/h123)演示从连接到建库建表的完整流程,系统讲解 MergeTree 的 ORDER BY/PRIMARY KEY/PARTITION BY/TTL 关键点;提供 Memory/分区表/临时表与视图(普通/物化/POPULATE)示例。围绕运维高频动作,整理 ALTER(新增列、类型修改、备注、删除、重命名/迁库)与分区生命周期操作(DROP/CLEAR/REPLACE/DETACH/ATTACH),并通过 system.parts 监控

大数据-141 ClickHouse 副本实战 | ReplicatedMergeTree + ZooKeeper 从 0-1

ClickHouse 副本全链路:ZK/Keeper 准备、macros 宏配置、集群 ON CLUSTER 一致建表、写入去重与复制机制、system.* 视图健康检查、insert_quorum 一致性、Distributed 跨分片查询;提供性能与延迟观测项、replication_queue 积压定位、典型报错处理(Not connected、Replica already exists、Too many parts)与标准回滚步骤。含可直接执行的 SQL 与配置片段。

大数据-142 ClickHouse分片×副本×Distributed 实战 ReplicatedMergeTree、Keeper、insert_quorum 与负载均衡

ClickHouse 分片×副本×Distributed 架构:基于 ReplicatedMergeTree + Distributed,在 3 分片×2 副本 集群上用 ON CLUSTER 一键建表,启用 ClickHouse Keeper/ZooKeeper 协调;给出 insert_quorum、prefer_localhost_replica、load_balancing 等关键参数最佳实践与 DDL/配置脚本/校验 SQL。同时提供 性能对比(TPS/P95)、system. 诊断查询。

大数据-139 ClickHouse MergeTree 最佳实践:Replacing 去重、Summing 求和、分区设计与物化视图替代方案

ClickHouse 两大轻聚合引擎 ReplacingMergeTree 与 SummingMergeTree,结合最小可运行示例(MRE)与对照查询,解释为何去重/求和仅在合并阶段生效,以及 SELECT … FINAL 与 OPTIMIZE FINAL 的正确使用时机与代价。文中强调 ORDER BY 作为匹配键、分区边界不跨区、Replacing 版本列取最大、Summing 非数值列保留首值等关键规则,给出基线对比与性能指标、报错速查卡、回滚与数据修复脚本,并提供以物化视图替代常态 FINAL。

大数据-140 ClickHouse CollapsingMergeTree详解 外部数据源最小闭环HDFS/MySQL/Kafka

ClickHouse 外部数据源引擎的最小可行方案:ENGINE=HDFS、ENGINE=MySQL、ENGINE=Kafka 的 DDL 模板、关键参数与读写链路。示范 Kafka→Materialized View→MergeTree 的实时落地,说明 HDFS 以读取为主,MySQL 写入的 replace_query/on_duplicate_clause 风险点。

大数据-137 ClickHouse MergeTree 实战指南|分区、稀疏索引与合并机制 存储结构 一级索引 跳数索引

ClickHouse MergeTree 的关键机制:批量写入形成 part、后台合并(Compact/Wide 两种 part 形态)、ORDER BY 即稀疏主索引、index_granularity 标记密度与 primary.idx 工作原理,并对比 minmax/set/ngrambf_v1/tokenbf_v1 跳数索引的适用边界。提供一套可复制的观测与调优命令。

大数据-138 ClickHouse MergeTree 实战详解|分区裁剪 × 稀疏主键索引 × marks 标记 × 压缩

ClickHouse MergeTree 的存储与查询路径:列式文件(*.bin)、稀疏主键索引(primary.idx)、标记文件(.mrk/.mrk2)与 index_granularity 如何协同,实现分区裁剪与跳读,显著降低读放大并加速聚合查询。提供可复制 DDL、造数脚本与 clickhouse-compressor 统计方法。

大数据-135 ClickHouse 集群连通性自检 + 数据类型避坑实战|10 分钟跑通 ON CLUSTER

三节点(h121/122/123)为例,先完成集群连通性自检:system.clusters 校验 → ON CLUSTER 创建 ReplicatedMergeTree/Distributed → 分布式写读与迷你压测,确保复制与路由正常;随后用可复制示例梳理 ClickHouse 常用数据类型:Int/Float、Decimal(加减取大、乘取和、除取被除)、String/FixedString、UUID、Enum8/16、Array、Tuple、Date/Date32/DateTime64 及布尔替代

大数据-136 ClickHouse 集群 表引擎详解 选型实战:TinyLog/Log/StripeLog/Memory/Merge

梳理 ClickHouse 表引擎:TinyLog、Log、StripeLog、Memory、Merge 的原理、适用与坑点,并给出可复制的最小可运行示例与并发/文件核验脚本。通过选型决策表与 Do&Don't,帮你在小表、一次性写入、临时日志、多表聚读等场景取舍。

大数据-133 ClickHouse 概念与基础|为什么快?列式 + 向量化 + MergeTree 对比

面向高并发、低延迟 OLAP 场景,本文从工程视角讲清 ClickHouse 的底层优势(列式+压缩+向量化、MergeTree 家族)、适用与不适用边界、数据建模基本法以及近似统计的性能-精度权衡。

大数据-134 ClickHouse 单机+集群节点落地手册 | 安装配置 | systemd 管理 / config.d

官方推荐的 keyring + signed-by 在 Ubuntu 安装 ClickHouse,并用 systemd 启动与自检;提供单机最小示例(建库建表/插入/查询)。集群部分给出 ClickHouse Keeper 三节点最小配置与三步自检,建议用 config.d/users.d 管理配置、password_sha256_hex 替代明文、限制远程网段并启用 TLS。