任务D:数据采集与实时计算(20分)

环境说明:

服务端登录地址详见各任务服务端说明

补充说明:各节点可通过Asbru工具或SSH客户端进行SSH访问;

Flink任务在Yarn上用per job模式(即Job分离模式,不采用Session模式),方便Yarn回收资源。

子任务一:实时数据采集

  1. 在主节点使用Flume采集实时数据生成器10050端口的socket数据,将数据存入到Kafka的Topic中(Topic名称为order,分区数为4),使用Kafka自带的消费者消费order(Topic)中的数据,将前2条数据的结果截图粘贴至客户端桌面【Release\任务D提交结果.docx】中对应的任务序号下;

a1.sources = r1

a1.sinks = k1

a1.channels = c1

a1.sources.r1.type  =  netcat

a1.sources.r1.bind  =  127.0.0.1

a1.sources.r1.port  =  10050

a1.channels.c1.type = memory

a1.sinks.k1.type = org.apache.flume.sink.kafka.KafkaSink

a1.sinks.k1.kafka.topic = order

a1.sinks.k1.kafka.bootstrap.servers = bigdata1:9092,bigdata2:9092,bigdata3:9092

a1.sinks.k1.channel = c1

a1.sources.r1.channels = c1

a1.sinks.k1.channel = c1

kafka-console-consumer.sh --bootstrap-server xxx:9092 --topic xxx  --from-beginning   --max-messages 2

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐