大数据-259 离线数仓 - Griffin架构 修改配置 pom.xml sparkProperties 编译启动

Griffin主要特点

  • 数据质量评估:支持基于规则和模型的质量评估,可定义完整性、准确性、一致性、有效性和及时性等规则
  • 质量规则定义和管理:用户可自定义规则,使用JSON格式描述数据质量要求,周期性检查数据
  • 灵活的数据源支持:支持HDFS、Hive、Kafka、HBase等,处理批处理和流处理模式
  • 多维度数据质量监控:支持基于时间、地点、数据源等多维度评估
  • 可视化界面:查看数据质量评估结果、报告、警告信息等
  • 集成与兼容性:与Hadoop、Spark等大数据平台高度集成
  • 自动化修复:支持自动修复部分数据质量问题,如填补缺失值
  • 扩展性:提供扩展接口和插件机制

配置修改

pom.xml

修改 service/pom.xml,添加MySQL依赖:

<dependency>
  <groupId>mysql</groupId>
  <artifactId>mysql-connector-java</artifactId>
  <version>${mysql.java.version}</version>
</dependency>

application.properties

配置数据库、Hive metastore、Elasticsearch、Livy等:

  • 服务器端口:9876
  • 数据库连接:jdbc:mysql://h123.wzk.icu:3306/quartz
  • Hive metastore:thrift://h123.wzk.icu:9083
  • Elasticsearch:h123.wzk.icu:9200
  • Livy:http://0.0.0.0:8998/batches

quartz.properties

修改第26行:

org.quartz.jobStore.driverDelegateClass=org.quartz.impl.jdbcjobstore.StdJDBCDelegate

sparkProperties.json

配置Spark参数,添加hive-site.xml:

{
  "file": "hdfs:///griffin/griffin-measure.jar",
  "className": "org.apache.griffin.measure.Application",
  "name": "griffin",
  "queue": "default",
  "numExecutors": 2,
  "executorCores": 1,
  "driverMemory": "1g",
  "executorMemory": "1g",
  "conf": {
    "spark.yarn.dist.files": "hdfs:///spark/spark_conf/hive-site.xml"
  }
}

env_batch.json

配置Sinks(CONSOLE、HDFS、ELASTICSEARCH)

编译

cd /opt/servers/griffin-0.5.0
mvn -Dmaven.test.skip=true clean install

Jar拷贝

cp service-0.5.0.jar /opt/servers/griffin-0.5.0/
cp measure-0.5.0.jar /opt/lagou/servers/griffin-0.5.0/griffin-measure.jar

hdfs dfs -mkdir /griffin
hdfs dfs -put griffin-measure.jar /griffin

启动服务

cd /opt/servers/griffin-0.5.0
nohup java -jar service-0.5.0.jar > service.out 2>&1 &

访问地址:http://h122.wzk.icu:9876