大数据开发如何规避细节问题,换一个角度来解决常见的细节问题
·
5.开发细节
5.1工程结构讲解
本书共一个系统架构,二个产品模块(离线和实现),四个项目包:Stormanalyse,Loggenerator, ClickStreamETL,SparkClickStream接下来分别来介绍对应的项目模块:
5.1.1离线项目代码目录结构
离线大数据日志处理由两部分组成,第一部分是Hadoop MR组成的ClickStreamETL项目,第二个是有Spark内存计算组成的SparkClickStream项目。

ClickStreamETL
Hadoop版本的日志处理分析Eclipse项目图示

开发代码UML项目结构图

代码文件组成结构(由于类图过大,故请到本书提供源下载)

SparkClickStream
Spark版本的日志处理分析

开发代码UML项目结构图

代码文件组成结构

5.1.2实时计算代码目录结构
实时计算代码由两部分组成,第一部分是loggenerator,负责仿造实时数据,进行数据解析,stormanalyse,是storm框架中代码开发实例,负责对数据进行处理的代码。
Stormanalyse
Storm版本的实时数据处理

Stormanalyse项目结果图

StormanalyseUML类图

Loggenerator
实时计算项目数据源模拟

Loggenerator项目结构图

LoggeneratorUML类图(由于类图过大,故请到本书提供源下载)

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐


所有评论(0)