大数据质量解决方案
GriffinApache Griffin 定位为大数据的数据质量监控工具,支持多种批处理数据源,其中支持hive就已经解决了在数仓领域遇到的数据质量控制的场景问题。1 解决 数据质量监控 的思路:模型驱动,基于目标数据集合或者源数据集,用户可以选择不同的数据质量维度来执行目标数据质量的验证。2 支持两类数据源1 批数据2 准实时数据3 可以做到的监控1 度量精确度、完整性、及...
Griffin
Apache Griffin 定位为大数据的数据质量监控工具,支持多种批处理数据源,其中支持hive就已经解决了在数仓领域遇到的数据质量控制的场景问题。
1 解决 数据质量监控 的思路:
模型驱动,基于目标数据集合或者源数据集,用户可以选择不同的数据质量维度来执行目标数据质量的验证。
2 支持两类数据源
1 批数据
2 准实时数据
3 可以做到的监控
1 度量
精确度、完整性、及时性、唯一性、有效性、一致性
2 异常检测
利用预先设置好的规则,检测出不合规的数据,提供不合规的数据下载
3 异常告警
通过邮件或门户报告数据质量问题
4 可视化检测
利用控制面板来展现数据质量的状态
5 实时性
可以实时进行数据质量检测,能够及时发现问题
6 可伸缩性
支持超大规模数据
7 自助服务
Griffin 提供了一个简洁易用的用户界面,可以管理数据资产和数据质量规则
4 Griffin架构

各部分的职责如下:
1 define 主要负责定义数据质量统计的维度,比如 时间、数据量、空值量、不重复的量、最大值、最小值
2 measure 主要负责执行统计任务,生成统计任务
3 analyze 主要负责保存与展示统计结果
5 Griffin 系统主要构成
- 数据收集处理层(data collection&processing layer)
- 后端服务层(backend service layer)
- 用户界面(user interface)

6 引入Griffin的目的
数据质量解决方案,实现数据一致性检查、空值统计等功能。
7 安装部署
Griffin的安装和部署需要以下环境:
- JDK (1.8 or later versions)
- MySQL(version 5.6及以上)
- Hadoop (2.6.0 or later)
- Hive (version 2.x)
- Spark (version 2.2.1)
- Livy(livy-0.5.0-incubating)
- ElasticSearch (5.0 or later versions)
具体的安装步骤可以参考官网:http://griffin.apache.org/docs/quickstart-cn.html
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐


所有评论(0)