博客

记录技术探索与思考 · 共 655 篇

全部 big-datajavaaiartificial-intelligenceprogrammer-lifemachine-learningmysqldata-engineering后端flinkdistributedarchitecturepythondata-warehouseroboticssparkhivekafkascaladistributed-systemllm数据库hdfsembodied-aideep-learningspring消息队列langchainsystem-architecturemybatisperformance-optimizationelasticsearchmongodbhealthredisspring-bootrabbitmqmqhadoopelkflumestream-processing事务hbasemessagingrpc教程sklearncachinglarge-language-model缓存dubbojava-rabbitmqclickhousekylinmllibneo4jsqlrealtime-warehousecanal索引微服务tomcatprogrammermultimodalteslazookeeperdruiddataxormshardingsphereiocnutritionrobot-armindie-devnginxfastdfsrocketmqtime-managementapplicationscareer-growthetlguavajava-rocketmq优化learningquantizationmiddlewaredockerkudulogstashdecision-treesqoopairflow分库分表分片mycat存储引擎一致性fat-lossgptproduct-managercoffeebusiness-analysisautomationalgorithmcareer-and-growthcomputer-visionautonomous-drivingfsdqwenmapreducecrudbackend分布式事务并发事务失效图数据库memcachednettyinnodbsalarycareer-developmentcold-showerrunningproductivityluckinmedicalindustriallfplfp-batterybatteryevfitnesscareer-personal-growthocrdeepseekdeepseek-ocrprogramming-languagecloud-nativeyarndatastreamjdbcolapknnlinear-regressionnumpymonitoringgriffin设计模式数据映射读写分离主从复制高可用安全源码分析cqlevcacheservletaop负载均衡手写niomindfulnessmeditationexercisemuscle-gainreinforcement-learningagentconflictevaluationmoney-managementconsumptionsocial-mediadatingmemoryprice-warcottiptqqatqloraqwen2.5-vlmulti-dimensionalhistoryindustrial-robotagriculturehardwaresimulationsectorrosdeploymentslamvisual-inspectionlinuxwindowraftkibanaregularizationlogistic-regressionprometheusexporterzipper-tableatlasstate-managementdevopsservermaven注解开发sharding-jdbccap2pc3pcxasagaacidbsonexplain慢查询副本集部署认证集群oss阿里云源码netflix异步jmspaxosrmiengineeringphysiologyhot-showerpractical-guidetransformertensorflowreporttech-sharingproductstartupmethodologyteamworkconflict-resolutioncollaborationgtdtoolsdepositsavingsscreen-timehealth-managementchina-usculturemarriagepartnercoffee-beveragehomemade-coffeetasteperformancefine-tuningblip-2minigpt-4llavaalibabavitaminsfish-oilcalcium-supplementvitamin-cironcalciumfolic-acidchronic-diseasesupplementstcmwestern-medicineintegrative-medicineevolution-techtech-evolutionlakehousedata-meshserverlesstalentindustrytech-selectionevolutionunimatetechnologyhydraulic-driveai-collaborationclassificationservice-robothumanoid-robotlogisticscareerskillstrendsservicescaracobotmotorreducersensorplcmpccontroltrajectory-planningvisioncore-technologyperceptiondecision-makingfamilydatamarketchallengescommercializationfuture-trendsmeta-learninglifestylenmc-batterydegradationbody-fat-percentagebody-shapingstrength-trainingbody-fatmetabolismsympathetic-nerveparasympathetic-nerveautonomic-nervous-systemhrvtesting-platformapi-integrationautomotive3dtechmodel-yopen-sourceimitation-learningvision-algorithmominomni-modalomniresearchjava-21kotlingolangrustjavascriptnodek8sgeminicepsourcesinkdatasetmergetreeik-analyzerdslterm-queryfilteraggregationinverted-indexnrtgrokfilebeattezdata-miningcross-validationnormalizationevaluation-metricsridge-regressionlassogradient-descentgrafanavisualizationodsscddimension-tabledwddwsadsmemory-managementparallelismcontaineresp32home-assistantjenkinsgitlabcicddevops-devessaywebsiteastrofrontendxml映射sqlsession动态sqlmha故障切换高并发分布式主键扩容绑定表sql优化hint强制路由数据脱敏tccseata柔性事务sharding-proxy分布式数据库分片策略e-r分片配置文件schema.xml事务隔离级别transactional声明式事务编程式事务传播机制插件nosqljson数据库操作分页writeconcern聚合pipelinepagehelper通用mapperb树b+树应用场景选型templaterepository数据建模内嵌引用wiredtigerinmemory复制集oplog选举容器化sharding分片集群权限图论欧拉路径动态代理备份嵌入式数据库分布式文件系统云存储权限控制concurrenthashmaplruoom代理模式分布式缓存spymemcachedblockingqueueactivemq手写框架消息存储队列索引erlangjdk反向代理进程配置类加载ssljvm心跳检测io监控spi路由降级表空间线程模型存储结构undoredobinlogb+tree聚簇索引排序mvcckubernetesoffline-installpandaspipmicroservicesvoice

大数据-148 Flink 写入 Kudu 实战:自定义 Sink 全流程(Flink 1.11/Kudu 1.1...

Kudu 的完整可运行示例,基于 Flink 1.11.1(Scala 2.12)/Java 11 与 kudu-client 1.17.0(2025 实测)。通过 RichSinkFunction 自定义下沉器,演示从 DataStream 映射到 Kudu Insert 的全过程:建表(INT32 主键 id、STRING name、INT32 age,哈希分区 3)、会话配置(AUTO...

大数据-59 Kafka Producer 拦截器与拦截器链机制详解

讲解 Kafka 0.10 引入的 Producer 拦截器机制,包括 onSend 和 onAcknowledgement 两个拦截点的作用、拦截器链的执行顺序与错误隔离,以及自定义拦截器的完整实现。

大数据-60 Kafka Consumer 消费流程、心跳机制与参数调优

详解 Kafka Consumer Group 的消费模型、分区分配策略、心跳保活机制,以及 session.timeout.ms、heartbeat.interval.ms、max.poll.interval.ms 等关键参数的调优实践。

大数据-146 Apache Kudu Docker 快速部署:3 Master/5 TServer 实战与踩坑速查

Apache Kudu 在 Ubuntu 22.04 云主机上的 Docker Compose 快速部署方案,覆盖 Kudu Master 与 Tablet Server 组件、KUDU_MASTERS/MASTER_ARGS/TSERVER_ARGS 关键参数、rpc_advertised_addresses 与 webserver_port(如 8051)配置,以及官方 quicksta...

大数据-147 Java 访问 Apache Kudu:从建表到 CRUD(含 KuduSession 刷新模式与...

Java 客户端(kudu-client 1.4.0)连接 Apache Kudu 多 Master(示例端口 7051/7151/7251),完成建表、插入、查询、更新、删除全流程,并对 KuduSession 刷新模式(AUTO_FLUSH_SYNC / AUTO_FLUSH_BACKGROUND / MANUAL_FLUSH)的行为差异进行要点提示。

大数据-144 Apache Kudu:实时写 + OLAP 的架构、性能与集成

Apache Kudu 在 2025 年的版本与生态集成:最新 Kudu 1.18.0(2025/07)上线,带来分段 LRU Block Cache 与基于 RocksDB 的元数据存储(实验特性),在保证 Raft 副本一致性的同时提升热点抗抖与可扩展性;与 Impala/HMS 的集成用于低延迟 SQL;Spark 侧使用 kudu-spark3_2.12:1.18.0 对接 Spar...

大数据-145 Apache Kudu 架构与实战:RowSet、分区与 Raft 全面解析

Apache Kudu 的 Master/TabletServer 架构、RowSet(MemRowSet/DiskRowSet) 写读路径、MVCC、以及 Raft 共识 在副本与故障切换中的作用;并给出 Range/Hash 多级分区 的建模思路与容量/并发权衡。2025 年最新稳定版 Kudu 1.18.0 已发布(含分段 LRU Block Cache、嵌入式 RocksDB 元数据...

大数据-143 ClickHouse 实战MergeTree 分区/TTL、物化视图、ALTER 与 system...

ClickHouse 初学与运维实战,基于真实集群(h121/h122/h123)演示从连接到建库建表的完整流程,系统讲解 MergeTree 的 ORDER BY/PRIMARY KEY/PARTITION BY/TTL 关键点;提供 Memory/分区表/临时表与视图(普通/物化/POPULATE)示例。围绕运维高频动作,整理 ALTER(新增列、类型修改、备注、删除、重命名/迁库)与分...

大数据-57 Kafka Producer 消息发送流程与核心参数详解

深入解析 Kafka Producer 初始化、消息拦截、序列化、分区路由、缓冲批量发送、ACK 确认等完整发送链路,并给出关键参数的调优建议。本文深入分析原理与实践应用,帮助读者全面理解核心技术要点。

大数据-58 Kafka 序列化机制与分区策略:自定义实现详解

深入讲解 Kafka 消息序列化原理与分区路由策略,包含自定义 Serializer 和 Partitioner 的完整代码实现,帮助掌握消息精准路由与高效传输。

大数据-141 ClickHouse 副本实战 | ReplicatedMergeTree + ZooKeeper...

ClickHouse 副本全链路:ZK/Keeper 准备、macros 宏配置、集群 ON CLUSTER 一致建表、写入去重与复制机制、system.* 视图健康检查、insert_quorum 一致性、Distributed 跨分片查询;提供性能与延迟观测项、replication_queue 积压定位、典型报错处理(Not connected、Replica already exis...

大数据-142 ClickHouse分片×副本×Distributed 实战 ReplicatedMergeTre...

ClickHouse 分片×副本×Distributed 架构:基于 ReplicatedMergeTree + Distributed,在 3 分片×2 副本 集群上用 ON CLUSTER 一键建表,启用 ClickHouse Keeper/ZooKeeper 协调;给出 insert_quorum、prefer_localhost_replica、load_balancing 等关键参...

大数据-139 ClickHouse MergeTree 最佳实践:Replacing 去重、Summing 求和...

ClickHouse 两大轻聚合引擎 ReplacingMergeTree 与 SummingMergeTree,结合最小可运行示例(MRE)与对照查询,解释为何去重/求和仅在合并阶段生效,以及 SELECT … FINAL 与 OPTIMIZE FINAL 的正确使用时机与代价。文中强调 ORDER BY 作为匹配键、分区边界不跨区、Replacing 版本列取最大、Summing 非数值...

大数据-140 ClickHouse CollapsingMergeTree详解 外部数据源最小闭环HDFS/My...

ClickHouse 外部数据源引擎的最小可行方案:ENGINE=HDFS、ENGINE=MySQL、ENGINE=Kafka 的 DDL 模板、关键参数与读写链路。示范 Kafka→Materialized View→MergeTree 的实时落地,说明 HDFS 以读取为主,MySQL 写入的 replace_query/on_duplicate_clause 风险点。

大数据-137 ClickHouse MergeTree 实战指南|分区、稀疏索引与合并机制 存储结构 一级索引 ...

ClickHouse MergeTree 的关键机制:批量写入形成 part、后台合并(Compact/Wide 两种 part 形态)、ORDER BY 即稀疏主索引、index_granularity 标记密度与 primary.idx 工作原理,并对比 minmax/set/ngrambf_v1/tokenbf_v1 跳数索引的适用边界。提供一套可复制的观测与调优命令。

大数据-138 ClickHouse MergeTree 实战详解|分区裁剪 × 稀疏主键索引 × marks 标...

ClickHouse MergeTree 的存储与查询路径:列式文件(*.bin)、稀疏主键索引(primary.idx)、标记文件(.mrk/.mrk2)与 index_granularity 如何协同,实现分区裁剪与跳读,显著降低读放大并加速聚合查询。提供可复制 DDL、造数脚本与 clickhouse-compressor 统计方法。

大数据-55:Kafka 实战操作——Shell 管理命令与 Java 客户端示例

覆盖 Kafka 日常运维的 Shell 命令(主题管理、消息收发)与 Java 客户端编程(Producer/Consumer 完整代码),包含关键配置参数说明和 ConsumerRebalanceListener 使用。

大数据-56 Spring Boot 整合 Kafka 实现分布式消息收发

详解如何在 Spring Boot 项目中集成 Kafka,包括依赖配置、KafkaTemplate 同步/异步发送消息、@KafkaListener 消费消息的完整实践。

大数据-135 ClickHouse 集群连通性自检 + 数据类型避坑实战|10 分钟跑通 ON CLUSTER

三节点(h121/122/123)为例,先完成集群连通性自检:system.clusters 校验 → ON CLUSTER 创建 ReplicatedMergeTree/Distributed → 分布式写读与迷你压测,确保复制与路由正常;随后用可复制示例梳理 ClickHouse 常用数据类型:Int/Float、Decimal(加减取大、乘取和、除取被除)、String/FixedSt...

大数据-136 ClickHouse 集群 表引擎详解 选型实战:TinyLog/Log/StripeLog/Me...

梳理 ClickHouse 表引擎:TinyLog、Log、StripeLog、Memory、Merge 的原理、适用与坑点,并给出可复制的最小可运行示例与并发/文件核验脚本。通过选型决策表与 Do&Don't,帮你在小表、一次性写入、临时日志、多表聚读等场景取舍。