大数据-259 离线数仓 - Griffin架构 修改配置 pom.xml sparkProperties 编译启动
Griffin主要特点
- 数据质量评估:支持基于规则和模型的质量评估,可定义完整性、准确性、一致性、有效性和及时性等规则
- 质量规则定义和管理:用户可自定义规则,使用JSON格式描述数据质量要求,周期性检查数据
- 灵活的数据源支持:支持HDFS、Hive、Kafka、HBase等,处理批处理和流处理模式
- 多维度数据质量监控:支持基于时间、地点、数据源等多维度评估
- 可视化界面:查看数据质量评估结果、报告、警告信息等
- 集成与兼容性:与Hadoop、Spark等大数据平台高度集成
- 自动化修复:支持自动修复部分数据质量问题,如填补缺失值
- 扩展性:提供扩展接口和插件机制
配置修改
pom.xml
修改 service/pom.xml,添加MySQL依赖:
<dependency>
<groupId>mysql</groupId>
<artifactId>mysql-connector-java</artifactId>
<version>${mysql.java.version}</version>
</dependency>
application.properties
配置数据库、Hive metastore、Elasticsearch、Livy等:
- 服务器端口:9876
- 数据库连接:jdbc:mysql://h123.wzk.icu:3306/quartz
- Hive metastore:thrift://h123.wzk.icu:9083
- Elasticsearch:h123.wzk.icu:9200
- Livy:http://0.0.0.0:8998/batches
quartz.properties
修改第26行:
org.quartz.jobStore.driverDelegateClass=org.quartz.impl.jdbcjobstore.StdJDBCDelegate
sparkProperties.json
配置Spark参数,添加hive-site.xml:
{
"file": "hdfs:///griffin/griffin-measure.jar",
"className": "org.apache.griffin.measure.Application",
"name": "griffin",
"queue": "default",
"numExecutors": 2,
"executorCores": 1,
"driverMemory": "1g",
"executorMemory": "1g",
"conf": {
"spark.yarn.dist.files": "hdfs:///spark/spark_conf/hive-site.xml"
}
}
env_batch.json
配置Sinks(CONSOLE、HDFS、ELASTICSEARCH)
编译
cd /opt/servers/griffin-0.5.0
mvn -Dmaven.test.skip=true clean install
Jar拷贝
cp service-0.5.0.jar /opt/servers/griffin-0.5.0/
cp measure-0.5.0.jar /opt/lagou/servers/griffin-0.5.0/griffin-measure.jar
hdfs dfs -mkdir /griffin
hdfs dfs -put griffin-measure.jar /griffin
启动服务
cd /opt/servers/griffin-0.5.0
nohup java -jar service-0.5.0.jar > service.out 2>&1 &