《大数据技术原理与应用》知识点

基于厦门大学林子雨老师MOOC课程及配套资料整理
适合初学者快速掌握大数据核心技术体系


思维导图:
在这里插入图片描述
完整思维导图地址:
大数据技术原理与应用:https://share.mubu.com/doc/zMnrDRK6i6

🌐 一、什么是大数据?

大数据是指具有 4V 特征 的数据集合:

  • Volume(大量化):数据规模巨大,从 TB 到 PB 级别;
  • Variety(多样化):包含结构化、半结构化和非结构化数据;
  • Velocity(快速化):数据产生和处理速度快,支持秒级响应;
  • Value(价值密度低):单位数据价值低,但整体商业价值高。

思维方式的三大转变:

  • 全样而非抽样
  • 效率而非精确
  • 相关而非因果

☁️ 二、大数据与云计算、物联网的关系

  • 云计算 提供了大数据所需的 分布式存储分布式计算 能力,典型服务模式包括 IaaS、PaaS、SaaS;
  • 物联网(IoT) 是大数据的重要数据来源,通过感知设备源源不断地采集数据;
  • 三者融合推动了 第三次信息化浪潮(2010年前后)

🧱 三、大数据关键技术架构

大数据技术栈可分为四个层次:

  1. 数据采集
  2. 数据存储与管理
  3. 数据处理与分析
  4. 数据隐私与安全

核心问题聚焦于:

  • 分布式存储(如 HDFS)
  • 分布式处理(如 MapReduce、Spark)

主要计算模式包括:

  • 批处理(MapReduce)
  • 流计算(Spark Streaming)
  • 图计算(GraphX)
  • 查询分析(Hive)

🛠️ 四、主流技术组件概览

1. Hadoop 生态系统

  • HDFS:分布式文件系统,解决海量数据存储;
  • MapReduce:批处理计算框架;
  • YARN:资源调度框架(Hadoop 2.0 引入);
  • HBase:列式 NoSQL 数据库,支持实时读写;
  • Hive / Pig:提供类 SQL 查询能力;
  • ZooKeeper:分布式协调服务;
  • Flume / Sqoop:日志收集与数据迁移工具。

2. Spark —— 内存计算新星

  • 基于 内存计算,性能比 MapReduce 高一个数量级;
  • 支持 批处理、流处理、机器学习、图计算 一体化;
  • 核心抽象为 RDD(弹性分布式数据集)
  • 采用 DAG(有向无环图) 优化任务调度。

🗃️ 五、HDFS 与 HBase 深度解析

HDFS 特点:

  • 采用 块(Block) 抽象(默认 128MB),支持大规模文件存储;
  • 主从架构:NameNode(元数据管理) + DataNode(数据存储)
  • 多副本机制保障 高可用性与容错性
  • 不适合低延迟访问或大量小文件存储。

HBase 特点:

  • 列式存储,适合 非结构化/半结构化数据
  • 通过 行键(RowKey)、列族、列限定符、时间戳 四维定位数据;
  • 支持 高并发随机读写,弥补 HDFS 仅支持顺序读写的不足;
  • 可通过 Phoenix 或 Hive 实现 SQL 查询;
  • 支持 二级索引(借助 Coprocessor、Solr、Redis 等)。

🔁 六、MapReduce 工作原理

  • 分而治之 思想:将大任务拆分为多个 Map 和 Reduce 子任务;
  • Shuffle 过程 是核心:包括分区、排序、合并、归并等步骤;
  • 输入输出基于 HDFS,中间结果写入本地磁盘;
  • 编程模型简单,但 不适合迭代计算(Spark 优势所在)。

🚀 七、Spark vs Hadoop

维度 Hadoop (MapReduce) Spark
计算模式 磁盘 I/O 为主 内存计算
延迟 高(批处理) 低(支持流式)
编程模型 Map/Reduce 两阶段 DAG 多阶段
适用场景 离线批处理 批处理 + 流处理 + ML + 图计算
生态整合 成熟稳定 快速演进,功能全面

✅ 结语

大数据技术已从理论走向广泛应用,Hadoop 构建了基础生态,Spark 推动了实时与智能分析。掌握其核心原理(如分布式存储、计算模型、数据流处理)是进入大数据领域的关键一步。

学习建议:先理解 HDFS 与 MapReduce 的工作机制,再进阶到 Spark 的 RDD 与 DataFrame 编程,结合实际项目(如日志分析、用户行为挖掘)加深理解。


📚 参考资料:《大数据技术原理与应用》MOOC(厦门大学 林子雨)
🔖 本文整理自课程笔记,适合入门与复习使用。

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐