功能介绍

(python模拟产生日志,flume采集日志文件更新【一分钟一更新】,作为kafka的生产者连接存入topic,idea编写kafka消费者消费数据,消费的同时存储至hbase)

步骤

1.编写python日志产生程序
generatorLog.py
2.定时调用py执行日志产生
定时运行程序
crontab -e
*/1 * * * * /home/hadoop/project/shell/log_generator.sh
关闭
crontab -r
3.启动kafka服务
kafka-server-start.sh -daemon $KAFKA_HOME/config/server.properties &
4.编写flume配置 exec-memory-avro,并启动服务
flume-ng agent
–name exec-memory-kafka
–conf $FLUME_HOME/conf
–conf-file /home/hadoop/project/flume/exec-memory-kafka.conf
-Dflume.root.logger=INFO,console

可同时启动kafka消费者直观查看数据
kafka-console-consumer.sh --bootstrap-server 192.168.70.129:9092 --topic flume-kafka
5.启动hadoop与hbase
6.hbase数据库建表
create ‘course_clikcount’,‘info’
7.编写kafka消费者程序,整合kafka与sparkstreaming(包含基本的数据清洗)
8.启动程序查看hbase数据库表中是否有数据存在。

在这里插入图片描述

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐