博客
记录技术探索与思考 · 共 655 篇
大数据-234 离线数仓 Hive ADS 导出 MySQL DataX 实战配置与踩坑速查
离线数仓 ADS 层 Hive 表导出到 MySQL 的落地链路,给出 DataX 典型方案:hdfsreader → mysqlwriter。重点覆盖 DataX JSON 配置与常见报错修复。
深入浅出 MyBatis - 注解开发 注解映射 一对多 与 多对多
详细介绍MyBatis注解开发中的一对多和多对多映射,包括@Many注解的用法、用户与订单、用户与角色的关系实现,以及注解模式的优缺点分析。本文深入分析原理与实践应用,帮助读者全面理解核心技术要点。
大数据-233 离线数仓 留存率怎么做:DWS 明细建模 + ADS 聚合落表 Hive 脚本实战
离线数仓中“会员留存“的实现方法:DWS 层通过 dws_member_retention_day 表关联新增与启动明细表计算 1/2/3 日留存;ADS 层构建留存数表与留存率表。包含完整 Hive 建表、装载脚本及常见错误排查。
深入浅出 MyBatis - 注解开发 注解映射 基本介绍 与 一对一模型
详细介绍MyBatis注解开发方式,包括常用注解(@Select、@Insert、@Update、@Delete、@Results等)的用法,以及注解实现一对一模型映射。
Neo4j CQL 实战速查:字符串/聚合/关系与多跳查询
Neo4j CQL 函数速查:字符串函数、聚合函数、关系函数与最短路径查询。本文深入分析原理与实践应用,帮助读者全面理解核心技术要点。
大数据-232 离线数仓 Hive 新增会员与留存计算:DWS 明细 + ADS 汇总一套跑通
离线数仓按天计算“新增会员”,并为后续“会员留存”提供口径一致的数据底座。用“全量会员表(含首日dt)”做去重锚点,DWS 产新增明细,ADS 产新增计数。本文深入分析原理与实践应用,帮助读者全面理解核心技术要点。
大数据-90 Apache Flink 入门全解:流批一体的实时计算引擎
系统介绍 Apache Flink 的起源、核心特性与架构组件:JobManager、TaskManager、Dispatcher 的职责划分,流批一体处理模型,以及与 Spark Streaming 的对比选型。
深入浅出 MyBatis - 多对多模型 SqlMapConfig 与 Mapper 详细讲解测试
详细讲解MyBatis中的多对多模型映射,包括中间表设计、用户与角色关系实现、collection标签用法,以及多对多查询的完整代码示例。本文深入分析原理与实践应用,帮助读者全面理解核心技术要点。
大数据-231 离线数仓 Hive 实战:DWD 到 DWS 日周月活跃会员 ADS 指标落地脚本与坑点
本文介绍使用 Hive 构建离线数仓,统计活跃会员(日活/周活/月活)的完整流程,从 DWD 明细层到 DWS 汇总层再到 ADS 应用层,涵盖建表脚本、数据装载脚本及常见错误速查。
深入浅出 MyBatis - 一对多模型 SqlMapConfig 与 Mapper 详细讲解测试
详细讲解MyBatis中的一对多模型映射,包括数据库表设计、collection标签用法、Java实体类定义,以及一对多查询的实现与测试。本文深入分析原理与实践应用,帮助读者全面理解核心技术要点。
Neo4j CQL 实战:WHERE、DELETE/DETACH、SET、排序与分页
Neo4j CQL 高级查询:WHERE 条件筛选、DELETE 删除、SET 更新、ORDER BY 排序与分页。本文深入分析原理与实践应用,帮助读者全面理解核心技术要点。
大数据-230 离线数仓-ODS层的构建 Hive 2.3.7 JSON 解析实战:UDF 取数组 + explo...
文章浏览阅读5.9k次,点赞38次,收藏34次。Hive 离线数仓中的 JSON 数据处理,覆盖三类最常见需求:1)从 JSON 串中取数组字段并在 SQL 中 explode 展开;2)从 JSON 串中同时解析普通字段(json_tuple)与数组字段(自定义 UDF);3)对"每行一个 JSON object"的原始文件,使用 JsonSerDe 直接建表加载。示例基于 Hive ...
深入浅出 MyBatis - 一对一模型 SqlMapConfig 与 Mapper 详细讲解测试
详细讲解MyBatis中的一对一模型映射,包括数据库表设计、Java实体类定义、Mapper接口与XML配置,以及resultMap高级映射用法。本文深入分析原理与实践应用,帮助读者全面理解核心技术要点。
大数据-229 离线数仓ODS 层实战:Hive 外部表分区加载与 JSON 解析(get_json_object...
文章浏览阅读8.8k次,点赞31次,收藏34次。离线数仓(2026)中 ODS(Operational Data Store)层的工程落地,给出 Hive 外部表(external table)+ 按天分区(partition dt)承接原始日志的最小闭环:建表 location 指向 HDFS 目录、通过 alter table add partition 管理分区,并用 Shell 脚本...
大数据-89 Spark Streaming 整合 Kafka:Receiver 与 Direct 模式全解析
详解 Spark Streaming 接入 Kafka 的两种模式:基于 Receiver 的高级 API 与 Direct 直连模式的架构差异、偏移量管理、Exactly-Once 语义保证及完整 Scala 代码实现。
深入浅出 MyBatis - 配置深入 动态SQL 参数、循环、片段
深入讲解MyBatis动态SQL配置,包括if条件判断、where标签、foreach循环遍历、sql片段抽取等核心用法。本文深入分析原理与实践应用,帮助读者全面理解核心技术要点。
Neo4j CQL 实战:CREATE/MATCH 与关系建模速通 案例实测
Neo4j CQL 查询语言详解:CREATE 创建节点关系、MATCH 查询,附完整代码示例。本文深入分析原理与实践应用,帮助读者全面理解核心技术要点。
深入浅出 MyBatis - Mapper Proxy invoke 源码剖析
详细介绍MyBatis Mapper Proxy动态代理的实现原理,包括getMapper源码解析、MapperMethod执行流程、invoke方法分析。本文深入分析原理与实践应用,帮助读者全面理解核心技术要点。
大数据-228 离线数仓 Flume Taildir + 自定义 Interceptor:从 JSON 提取时间戳...
文章浏览阅读4.2k次,点赞15次,收藏27次。Apache Flume 的离线日志采集链路,给出一套工程化落地:使用 Taildir Source 监控多个目录与多文件正则匹配,为不同目录日志注入 logtype 等 Header;通过自定义 Interceptor(Java)解析 Event body 中的 JSON(fastjson),提取启动日志/事件日志的时间戳并转换为 yyyy-...
深入浅出 MyBatis - SqlSessionFactory 与 SqlSession DAO与Mapper ...
深入讲解MyBatis核心组件:SqlSessionFactory与SqlSession的工作原理,DAO层传统实现方式,以及MyBatis代理开发模式。本文深入分析原理与实践应用,帮助读者全面理解核心技术要点。