大数据实战——微博舆情大数据分析

CSDN 直播课程学习笔记云端实验室基于开源的ambari大数据平台，部署了7个节点：背景企业可能对用户在微博上的评价内容有监测需求，如活动效果、用户对产品的评价，用户关注于产品的价格还是功能等等。本平台用来获取微博的数据（数据量大、非结构化数据），进行数据分析，存储在云平台，将结果输出给企业。项目架构数据源微博数据：数据层本次数据层...

编程圈子

25459人浏览 · 2018-07-05 19:55:51

编程圈子 · 2018-07-05 19:55:51 发布

CSDN 直播课程学习笔记

云端实验室环境
基于开源的ambari大数据平台，部署了7个节点：
这里写图片描述

一、项目背景

企业可能对用户在微博上的评价内容有监测需求，如活动效果、用户对产品的评价，用户关注于产品的价格还是功能等等。

本平台用来获取微博的数据（数据量大、非结构化数据），进行数据分析，存储在云平台，将结果输出给企业。

二、项目架构

这里写图片描述

1. 数据源

微博数据：
这里写图片描述

2. 数据层

本次数据层主要讲主数据仓库。
数据仓库是为应用层提供数据服务的。
这里写图片描述

数据仓库表设计
这里写图片描述

数据仓库一般是离线数据分析使用，每天要跑的固化需求。如果是临时需求（提数），就要让大数据开发人员专门做一条数据报表出来。

3. 平台层

这里写图片描述

ODS层：数据是清洗后的。

4. APP区

从数据仓库区取数据分析展示。

三、平台演示

运维人员一般使用Ambari，作为大数据的管理平台，而给开发人员使用跳板机（或堡垒机）。

开发界面示例：
这里写图片描述

select count(*) from web_log_192g

这里写图片描述

公司开发时，运维一般给不同团队分配不同队列，不同队列会有不同资源。
这里写图片描述

虽然Spark比较成熟，但大多数公司对离线分析还是用Hive多一些。

企业微博声量号的分析：
统计微博最新状态下被评论最多的Top10账户id，
注意：每个用户的微博进行去重之后，筛选出同一条微博的最新状态。

这里写图片描述
开发有两种方式，一种在Ambari web平台写脚本。

实际中使用引入一个开发平台。这里是Hue。
这里写图片描述

这里写图片描述

每天都要跑的定时任务，一般用这样的平台设置一些权限，
这里写图片描述

在这里写经常用的SQL
这里写图片描述

这里写图片描述

点击Save As，
这里写图片描述

这样平时开发的SQL都可以保存下来。
这里写图片描述

如果要执行，那要设计一个执行器：
这里写图片描述
企业中使用一般会针对这个界面进行二次开发
新建一个流程：

然后添加流程：

这里写图片描述
设置运行条件：

这里写图片描述

选择数据：
这里写图片描述

这里写图片描述

固定的报表一般会配置WorkFlow，这里使用Oozie作为工作流平台

这里写图片描述

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

全家桶集齐！Qwen3.5四款小模型上线魔乐社区，附昇腾全套实践教程

魔乐社区

Pont - 搭建前后端之桥：高效、灵活的接口管理工具

Pont 是一款强大的数据服务层解决方案，它能够帮助开发者快速搭建前后端之间的桥梁，实现接口的高效管理和代码自动生成。无论是新手还是有经验的开发者，都能通过 Pont 轻松处理接口文档、生成类型安全的 API 代码，从而显著提升开发效率。[![Pont 工具标志](https://raw.gitcode.com/gh_mirrors/po/pont/raw/3f1b7d4bbba3fd2dda

魔乐社区

如何快速上手 hvac：HashiCorp Vault Python 客户端零基础入门指南

**hvac** 是 HashiCorp Vault 的 Python 3.X 客户端库，专为开发者提供简单高效的 Vault 交互方式。无论你是需要管理密钥、配置身份验证，还是实现安全的秘密数据存储，hvac 都能帮助你轻松搞定 Vault 的各项操作。本文将带你零基础快速入门，从安装到基础操作，让你在几分钟内即可上手使用这个强大的工具。[![hvac 客户端 Logo](https://r