大数据-259 离线数仓 - Griffin架构修改配置 pom.xml sparkProperties 编译启动

Griffin主要特点

数据质量评估：支持基于规则和模型的质量评估，可定义完整性、准确性、一致性、有效性和及时性等规则
质量规则定义和管理：用户可自定义规则，使用JSON格式描述数据质量要求，周期性检查数据
灵活的数据源支持：支持HDFS、Hive、Kafka、HBase等，处理批处理和流处理模式
多维度数据质量监控：支持基于时间、地点、数据源等多维度评估
可视化界面：查看数据质量评估结果、报告、警告信息等
集成与兼容性：与Hadoop、Spark等大数据平台高度集成
自动化修复：支持自动修复部分数据质量问题，如填补缺失值
扩展性：提供扩展接口和插件机制

配置修改

pom.xml

修改 service/pom.xml，添加MySQL依赖：

<dependency>
  <groupId>mysql</groupId>
  <artifactId>mysql-connector-java</artifactId>
  <version>${mysql.java.version}</version>
</dependency>

application.properties

配置数据库、Hive metastore、Elasticsearch、Livy等：

服务器端口：9876
数据库连接：jdbc:mysql://h123.wzk.icu:3306/quartz
Hive metastore：thrift://h123.wzk.icu:9083
Elasticsearch：h123.wzk.icu:9200
Livy：http://0.0.0.0:8998/batches

quartz.properties

修改第26行：

org.quartz.jobStore.driverDelegateClass=org.quartz.impl.jdbcjobstore.StdJDBCDelegate

sparkProperties.json

配置Spark参数，添加hive-site.xml：

{
  "file": "hdfs:///griffin/griffin-measure.jar",
  "className": "org.apache.griffin.measure.Application",
  "name": "griffin",
  "queue": "default",
  "numExecutors": 2,
  "executorCores": 1,
  "driverMemory": "1g",
  "executorMemory": "1g",
  "conf": {
    "spark.yarn.dist.files": "hdfs:///spark/spark_conf/hive-site.xml"
  }
}

env_batch.json

配置Sinks（CONSOLE、HDFS、ELASTICSEARCH）

编译

cd /opt/servers/griffin-0.5.0
mvn -Dmaven.test.skip=true clean install

Jar拷贝

cp service-0.5.0.jar /opt/servers/griffin-0.5.0/
cp measure-0.5.0.jar /opt/lagou/servers/griffin-0.5.0/griffin-measure.jar

hdfs dfs -mkdir /griffin
hdfs dfs -put griffin-measure.jar /griffin

启动服务

cd /opt/servers/griffin-0.5.0
nohup java -jar service-0.5.0.jar > service.out 2>&1 &

访问地址：http://h122.wzk.icu:9876

大数据-259 离线数仓 - Griffin架构 修改配置 pom.xml sparkProperties 编译启动

Griffin主要特点

配置修改

pom.xml

application.properties

quartz.properties

sparkProperties.json

env_batch.json

编译

Jar拷贝

启动服务

大数据-259 离线数仓 - Griffin架构修改配置 pom.xml sparkProperties 编译启动