《大数据技术原理与应用》知识点
本文基于厦门大学林子雨老师的《大数据技术原理与应用》课程,系统介绍了大数据技术的核心概念与关键技术。主要内容包括:大数据的4V特征(大量化、多样化、快速化、价值密度低)及思维转变;大数据与云计算、物联网的协同关系;Hadoop生态系统(HDFS、MapReduce等)和Spark内存计算框架的技术特点与对比;重点解析了HDFS和HBase的架构原理及适用场景,以及MapReduce的工作机制。文章
《大数据技术原理与应用》知识点
基于厦门大学林子雨老师MOOC课程及配套资料整理
适合初学者快速掌握大数据核心技术体系
思维导图:
完整思维导图地址:
大数据技术原理与应用:https://share.mubu.com/doc/zMnrDRK6i6
🌐 一、什么是大数据?
大数据是指具有 4V 特征 的数据集合:
- Volume(大量化):数据规模巨大,从 TB 到 PB 级别;
- Variety(多样化):包含结构化、半结构化和非结构化数据;
- Velocity(快速化):数据产生和处理速度快,支持秒级响应;
- Value(价值密度低):单位数据价值低,但整体商业价值高。
思维方式的三大转变:
- 全样而非抽样
- 效率而非精确
- 相关而非因果
☁️ 二、大数据与云计算、物联网的关系
- 云计算 提供了大数据所需的 分布式存储 与 分布式计算 能力,典型服务模式包括 IaaS、PaaS、SaaS;
- 物联网(IoT) 是大数据的重要数据来源,通过感知设备源源不断地采集数据;
- 三者融合推动了 第三次信息化浪潮(2010年前后)。
🧱 三、大数据关键技术架构
大数据技术栈可分为四个层次:
- 数据采集
- 数据存储与管理
- 数据处理与分析
- 数据隐私与安全
核心问题聚焦于:
- 分布式存储(如 HDFS)
- 分布式处理(如 MapReduce、Spark)
主要计算模式包括:
- 批处理(MapReduce)
- 流计算(Spark Streaming)
- 图计算(GraphX)
- 查询分析(Hive)
🛠️ 四、主流技术组件概览
1. Hadoop 生态系统
- HDFS:分布式文件系统,解决海量数据存储;
- MapReduce:批处理计算框架;
- YARN:资源调度框架(Hadoop 2.0 引入);
- HBase:列式 NoSQL 数据库,支持实时读写;
- Hive / Pig:提供类 SQL 查询能力;
- ZooKeeper:分布式协调服务;
- Flume / Sqoop:日志收集与数据迁移工具。
2. Spark —— 内存计算新星
- 基于 内存计算,性能比 MapReduce 高一个数量级;
- 支持 批处理、流处理、机器学习、图计算 一体化;
- 核心抽象为 RDD(弹性分布式数据集);
- 采用 DAG(有向无环图) 优化任务调度。
🗃️ 五、HDFS 与 HBase 深度解析
HDFS 特点:
- 采用 块(Block) 抽象(默认 128MB),支持大规模文件存储;
- 主从架构:NameNode(元数据管理) + DataNode(数据存储);
- 多副本机制保障 高可用性与容错性;
- 不适合低延迟访问或大量小文件存储。
HBase 特点:
- 列式存储,适合 非结构化/半结构化数据;
- 通过 行键(RowKey)、列族、列限定符、时间戳 四维定位数据;
- 支持 高并发随机读写,弥补 HDFS 仅支持顺序读写的不足;
- 可通过 Phoenix 或 Hive 实现 SQL 查询;
- 支持 二级索引(借助 Coprocessor、Solr、Redis 等)。
🔁 六、MapReduce 工作原理
- 分而治之 思想:将大任务拆分为多个 Map 和 Reduce 子任务;
- Shuffle 过程 是核心:包括分区、排序、合并、归并等步骤;
- 输入输出基于 HDFS,中间结果写入本地磁盘;
- 编程模型简单,但 不适合迭代计算(Spark 优势所在)。
🚀 七、Spark vs Hadoop
| 维度 | Hadoop (MapReduce) | Spark |
|---|---|---|
| 计算模式 | 磁盘 I/O 为主 | 内存计算 |
| 延迟 | 高(批处理) | 低(支持流式) |
| 编程模型 | Map/Reduce 两阶段 | DAG 多阶段 |
| 适用场景 | 离线批处理 | 批处理 + 流处理 + ML + 图计算 |
| 生态整合 | 成熟稳定 | 快速演进,功能全面 |
✅ 结语
大数据技术已从理论走向广泛应用,Hadoop 构建了基础生态,Spark 推动了实时与智能分析。掌握其核心原理(如分布式存储、计算模型、数据流处理)是进入大数据领域的关键一步。
学习建议:先理解 HDFS 与 MapReduce 的工作机制,再进阶到 Spark 的 RDD 与 DataFrame 编程,结合实际项目(如日志分析、用户行为挖掘)加深理解。
📚 参考资料:《大数据技术原理与应用》MOOC(厦门大学 林子雨)
🔖 本文整理自课程笔记,适合入门与复习使用。
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐



所有评论(0)