标签: griffin

共 3 篇文章

大数据-259 离线数仓 - Griffin架构 修改配置 pom.xml sparkProperties 编译启动

Apache Griffin 是一个开源的数据质量管理框架,旨在帮助组织在大数据环境中监控和提高数据质量。用户可以自定义规则,使用 JSON 或其他标准格式来描述数据质量的各项要求,支持批处理和流处理数据。

大数据-258 离线数仓 - Griffin架构 配置安装 Livy 架构设计 解压配置 Hadoop Hive

Livy 是一个用于 Apache Spark 的 REST 接口,旨在简化 Spark 作业的提交和管理,特别是在大数据处理场景中。它的主要功能是通过 REST API 与 Spark 集群进行交互,允许用户提交作业、执行代码片段并查询作业的状态和结果,而不需要直接与 Spark 的底层架构交互。简化 Spark 作业提交:用户可以通过 HTTP 请求向 Livy 发送 Spark 作业,而不需要直接使用 spark-submit命令。

大数据-257 离线数仓 - 数据质量监控 监控方法 Griffin架构

Apache Griffin是一个开源的大数据质量解决方案,它支持批处理和流处理两种模式的数据质量检测方式。可以从不同的维度(如离线任务执行完毕后检查源端和目标端的数据质量是否一致,源表数据值空值等)度量数据资产,从而提升数据的准确度、可信度。数据质量监控通常结合自动化工具和人工审查,利用数据质量管理平台进行实时监控,生成报告并触发警报,以便及时纠正问题。