《大数据技术原理与应用》知识点

本文基于厦门大学林子雨老师的《大数据技术原理与应用》课程，系统介绍了大数据技术的核心概念与关键技术。主要内容包括：大数据的4V特征（大量化、多样化、快速化、价值密度低）及思维转变；大数据与云计算、物联网的协同关系；Hadoop生态系统（HDFS、MapReduce等）和Spark内存计算框架的技术特点与对比；重点解析了HDFS和HBase的架构原理及适用场景，以及MapReduce的工作机制。文章

Yanicy

761人浏览 · 2025-12-10 20:48:34

Yanicy · 2025-12-10 20:48:34 发布

《大数据技术原理与应用》知识点

基于厦门大学林子雨老师MOOC课程及配套资料整理
适合初学者快速掌握大数据核心技术体系

思维导图：
在这里插入图片描述
完整思维导图地址：
大数据技术原理与应用：https://share.mubu.com/doc/zMnrDRK6i6

🌐 一、什么是大数据？

大数据是指具有 4V 特征 的数据集合：

Volume（大量化）：数据规模巨大，从 TB 到 PB 级别；
Variety（多样化）：包含结构化、半结构化和非结构化数据；
Velocity（快速化）：数据产生和处理速度快，支持秒级响应；
Value（价值密度低）：单位数据价值低，但整体商业价值高。

思维方式的三大转变：

全样而非抽样
效率而非精确
相关而非因果

☁️ 二、大数据与云计算、物联网的关系

云计算 提供了大数据所需的 分布式存储 与 分布式计算 能力，典型服务模式包括 IaaS、PaaS、SaaS；
物联网（IoT） 是大数据的重要数据来源，通过感知设备源源不断地采集数据；
三者融合推动了 第三次信息化浪潮（2010年前后）。

🧱 三、大数据关键技术架构

大数据技术栈可分为四个层次：

数据采集
数据存储与管理
数据处理与分析
数据隐私与安全

核心问题聚焦于：

分布式存储（如 HDFS）
分布式处理（如 MapReduce、Spark）

主要计算模式包括：

批处理（MapReduce）
流计算（Spark Streaming）
图计算（GraphX）
查询分析（Hive）

🛠️ 四、主流技术组件概览

1. Hadoop 生态系统

HDFS：分布式文件系统，解决海量数据存储；
MapReduce：批处理计算框架；
YARN：资源调度框架（Hadoop 2.0 引入）；
HBase：列式 NoSQL 数据库，支持实时读写；
Hive / Pig：提供类 SQL 查询能力；
ZooKeeper：分布式协调服务；
Flume / Sqoop：日志收集与数据迁移工具。

2. Spark —— 内存计算新星

基于 内存计算，性能比 MapReduce 高一个数量级；
支持 批处理、流处理、机器学习、图计算 一体化；
核心抽象为 RDD（弹性分布式数据集）；
采用 DAG（有向无环图） 优化任务调度。

🗃️ 五、HDFS 与 HBase 深度解析

HDFS 特点：

采用 块（Block） 抽象（默认 128MB），支持大规模文件存储；
主从架构：NameNode（元数据管理） + DataNode（数据存储）；
多副本机制保障 高可用性与容错性；
不适合低延迟访问或大量小文件存储。

HBase 特点：

列式存储，适合 非结构化/半结构化数据；
通过 行键（RowKey）、列族、列限定符、时间戳 四维定位数据；
支持 高并发随机读写，弥补 HDFS 仅支持顺序读写的不足；
可通过 Phoenix 或 Hive 实现 SQL 查询；
支持 二级索引（借助 Coprocessor、Solr、Redis 等）。

🔁 六、MapReduce 工作原理

分而治之 思想：将大任务拆分为多个 Map 和 Reduce 子任务；
Shuffle 过程 是核心：包括分区、排序、合并、归并等步骤；
输入输出基于 HDFS，中间结果写入本地磁盘；
编程模型简单，但 不适合迭代计算（Spark 优势所在）。

🚀 七、Spark vs Hadoop

维度	Hadoop (MapReduce)	Spark
计算模式	磁盘 I/O 为主	内存计算
延迟	高（批处理）	低（支持流式）
编程模型	Map/Reduce 两阶段	DAG 多阶段
适用场景	离线批处理	批处理 + 流处理 + ML + 图计算
生态整合	成熟稳定	快速演进，功能全面

✅ 结语

大数据技术已从理论走向广泛应用，Hadoop 构建了基础生态，Spark 推动了实时与智能分析。掌握其核心原理（如分布式存储、计算模型、数据流处理）是进入大数据领域的关键一步。

学习建议：先理解 HDFS 与 MapReduce 的工作机制，再进阶到 Spark 的 RDD 与 DataFrame 编程，结合实际项目（如日志分析、用户行为挖掘）加深理解。

📚 参考资料：《大数据技术原理与应用》MOOC（厦门大学林子雨）
🔖 本文整理自课程笔记，适合入门与复习使用。

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

cover

「极限压缩量化未来」Modelers GeekDay上海站圆满落幕

cover

量化挑战赛冠军专访：4小时啃下W4A8量化，我靠的是这些经验

cover

魔乐社区月度精选（26年3月）

所有评论(0)

查看更多评论

Yanicy

已为社区贡献1条内容