大数据质量解决方案

GriffinApache Griffin 定位为大数据的数据质量监控工具，支持多种批处理数据源，其中支持hive就已经解决了在数仓领域遇到的数据质量控制的场景问题。1 解决数据质量监控的思路：模型驱动，基于目标数据集合或者源数据集，用户可以选择不同的数据质量维度来执行目标数据质量的验证。2 支持两类数据源1 批数据2 准实时数据3 可以做到的监控1 度量精确度、完整性、及...

bigdata_xubing

2004人浏览 · 2021-11-19 17:43:32

bigdata_xubing · 2021-11-19 17:43:32 发布

Griffin

Apache Griffin 定位为大数据的数据质量监控工具，支持多种批处理数据源，其中支持hive就已经解决了在数仓领域遇到的数据质量控制的场景问题。

1 解决数据质量监控的思路：

模型驱动，基于目标数据集合或者源数据集，用户可以选择不同的数据质量维度来执行目标数据质量的验证。

2 支持两类数据源

1 批数据

2 准实时数据

3 可以做到的监控

1 度量

精确度、完整性、及时性、唯一性、有效性、一致性

2 异常检测

利用预先设置好的规则，检测出不合规的数据，提供不合规的数据下载

3 异常告警

通过邮件或门户报告数据质量问题

4 可视化检测

利用控制面板来展现数据质量的状态

5 实时性

可以实时进行数据质量检测，能够及时发现问题

6 可伸缩性

支持超大规模数据

7 自助服务

Griffin 提供了一个简洁易用的用户界面，可以管理数据资产和数据质量规则

4 Griffin架构

各部分的职责如下：

1 define 主要负责定义数据质量统计的维度，比如时间、数据量、空值量、不重复的量、最大值、最小值

2 measure 主要负责执行统计任务，生成统计任务

3 analyze 主要负责保存与展示统计结果

5 Griffin 系统主要构成

数据收集处理层（data collection&processing layer）
后端服务层（backend service layer）
用户界面（user interface）

6 引入Griffin的目的

数据质量解决方案，实现数据一致性检查、空值统计等功能。

7 安装部署

Griffin的安装和部署需要以下环境：

JDK (1.8 or later versions)
MySQL(version 5.6及以上)
Hadoop (2.6.0 or later)
Hive (version 2.x)
Spark (version 2.2.1)
Livy（livy-0.5.0-incubating）
ElasticSearch (5.0 or later versions)

具体的安装步骤可以参考官网：http://griffin.apache.org/docs/quickstart-cn.html

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

替你试过了，消费级显卡可以跑的开源文生图SOTA模型，顶级渲染、高密度文本绘图

魔乐社区

量化挑战赛冠军专访：4小时啃下W4A8量化，我靠的是这些经验

魔乐社区

小参数・大码力・易部署 | Qwen3.6-27B上线魔乐社区，基于昇腾的部署教程来了

继一周前模型开源发布后，千问再度开源Qwen3.6-27B —— 一个拥有270亿参数的稠密多模态模型，也是社区呼声最高的模型规格。Qwen3.6-27B 依然支持多模态思考与非思考模式，在智能体编程方面达到了旗舰级表现，全面超越前代开源旗舰 Qwen3.5-397B-A17B（总参数397B / 激活参数17B的MoE模型）。作为稠密架构，它无需MoE路由即可部署，是开发者在实用、可广泛部署规模