标签: sql
共 9 篇文章
大数据电商分析 - Hive 拉链表实战:订单历史状态增量刷新与闭链逻辑
离线数仓中需要低成本保存订单历史状态,同时支持按天回溯与变化分析。本文介绍用 ODS 日增量表 + DWD 拉链表实现订单历史追踪,包含初始化、增量刷新 SQL、闭链规则与常见错误速查。
深入浅出 MySQL ShardingSphere 分片剖析:SQL 解析、路由、改写与执行全流程详解
深入探讨ShardingSphere分片流程,包括SQL解析、查询优化、SQL路由、SQL改写、SQL执行及结果归并六大环节。
大数据-83 SparkSQL 语句实战:DataFrame 操作、SQL 查询与 Hive 集成
介绍 SparkSQL 的核心使用方式,包括 DataFrame API、SQL 查询语法、lateral view explode 等高级功能,以及如何通过 enableHiveSupport 集成 Hive 元数据与读写 Hive 表。
大数据-84 SparkSQL 内核原理:五种 Join 策略与 Catalyst 优化器解析
深入解析 SparkSQL 的五种 Join 执行策略(BHJ、SHJ、SMJ、Cartesian、BNLJ)的选择条件与适用场景,以及 Catalyst 优化器从 SQL 解析到代码生成的完整处理流程。
大数据-81 SparkSQL 核心抽象:RDD、DataFrame、Dataset 与 SparkSession 详解
深入对比 Spark 三大数据抽象 RDD、DataFrame、Dataset 的特性与适用场景,介绍 SparkSession 统一入口,并演示各抽象之间的相互转换方法。
大数据-82 SparkSQL 算子详解:Transformation 与 Action 操作实战
系统梳理 SparkSQL 的 Transformation 和 Action 算子,涵盖 select、filter、join、groupBy、union 等操作,并通过实际测试用例演示其用法与性能优化技巧。
大数据-80 SparkSQL 入门:SQL 与分布式计算的融合
系统介绍 SparkSQL 的演进历史、核心抽象 DataFrame/Dataset、Catalyst 优化器原理,以及与 Hive/HDFS 多数据源集成的实战用法。
大数据-13 Hive DDL 与 DML 操作实战
系统讲解 Hive 的 DDL(建库建表、内部表与外部表)和 DML(数据加载、插入、查询)操作,包含完整 HiveQL 示例与配置优化。
大数据-14 Hive HQL 进阶:数据导入导出与查询实战
深入讲解 Hive 的多种数据导入方式(LOAD/INSERT/外部表/Sqoop)、数据导出方法,以及聚合、过滤、排序等 HQL 查询操作的实际用法。