大数据技术经过十余年发展,已形成成熟的技术体系和清晰的分工模块。2025年的大数据技术栈在“湖仓一体”“实时化”“云原生”趋势下进一步整合,以下从技术分层、核心组件、数据流转和分层设计等维度详细解析。

一、大数据技术栈核心分层(2025年通用架构)

大数据系统按“数据流转链路”可分为6大功能层次,每层承担明确职责,组件间协同完成“从数据采集到价值输出”的全流程。

1. 数据采集层(Ingestion):数据进入平台的“入口”

负责将分散在各数据源(业务库、日志、IoT设备等)的数据统一采集到大数据平台,按“实时性”分为三类:

采集类型 核心组件 适用场景 技术特点
实时采集 Kafka、Pulsar 日志流、用户行为、IoT传感器等高频实时数据(如电商订单实时同步、APP埋点) 高吞吐(百万级/秒)、低延迟(毫秒级)、持久化存储,支持流处理对接
实时采集 Flume、Logstash 服务器日志、应用日志等准实时数据(如Nginx日志、Java应用日志) 支持多级串联(Agent→Collector→Sink),内置丰富数据源适配(文件、TCP、HTTP)
批量采集 DataX、SeaTunnel 关系型数据库(MySQL、Oracle)全量/增量同步(如每天凌晨同步前一天订单数据) 支持百余种数据源,可配置同步策略(全量、增量、分区同步),适合离线ETL
批量采集 Sqoop(传统) 从RDBMS到Hadoop生态的批量导入(逐步被DataX替代,但老系统仍在使用) 基于MapReduce实现,适合TB级数据批量迁移,但效率低于DataX
结构化→数据湖 Flink CDC、Debezium 从MySQL、PostgreSQL等数据库实时捕获变更(binlog),同步到数据湖 支持CDC(Change Data Capture),保证数据一致性,适合实时数据湖构建
可视化流编排 NiFi 复杂数据流转场景(如跨系统数据清洗+路由+分发) 图形化界面配置数据流,支持拖拽式操作,适合低代码场景
2. 数据存储层(Storage):大数据的“仓库”与“货架”

负责存储采集后的海量数据,需满足“低成本、高扩展、适配多类型数据”需求,按存储目标分为5类:

存储类型 核心技术/组件 适用场景 技术特点
分布式文件系统 HDFS、S3、OSS、GCS 底层统一存储(如数据湖原始文件、计算中间结果) HDFS为Hadoop生态核心,适合PB级数据;S3/OSS为云原生对象存储,按需付费
列式存储格式 Parquet、ORC、Avro 分析型数据存储(如数据仓库中的事实表、宽表) 按列存储,压缩率高(比CSV小5-10倍),支持谓词下推(查询时只读需要的列)
NoSQL存储 HBase、Cassandra、MongoDB 高并发读写场景(如用户画像实时查询、设备状态存储) HBase适合随机读写(毫秒级)、Cassandra适合多活部署、MongoDB适合非结构化文档
数据湖存储(表格式) Apache Iceberg、Delta Lake、Hudi 数据湖的元数据管理(解决传统数据湖“无事务、无schema、难维护”问题) 支持ACID事务、版本控制、快照回溯、流批一体写入,2025年Iceberg因中立性成为主流
元数据管理 Hive Metastore、AWS Glue Catalog 管理数据表schema、分区、位置等元信息(如Hive表的字段定义、存储路径) 是数据湖/仓的“目录服务”,支撑SQL查询时的表结构解析
3. 数据计算层(Compute):大数据的“加工厂”

负责对存储层的数据进行计算处理(清洗、转换、聚合等),按“计算模式”分为三类:

计算类型 核心组件 适用场景 技术特点
批处理 Spark、Flink Batch 离线ETL(如每天汇总用户行为)、机器学习训练(如推荐模型训练) Spark基于内存计算(比MapReduce快10-100倍);Flink Batch支持批流统一代码
流处理 Flink、Kafka Streams 实时计算(如实时订单统计、异常检测) Flink支持“有状态计算”(保存中间结果)、低延迟(毫秒级)、Exactly-Once语义
湖仓一体计算 Trino、Presto、StarRocks(外表) 跨数据源查询(如同时查Hive表、MySQL表、数据湖文件) 计算与存储分离,支持联邦查询,适合交互式分析(秒级响应)
4. 数据查询与OLAP层(Query & OLAP):数据分析的“交互窗口”

面向业务分析人员,提供高效的查询接口(SQL为主),支持复杂指标计算和多维分析:

查询类型 核心系统 适用场景 技术特点
MPP数据仓库 StarRocks、Doris、ClickHouse、Greenplum 大宽表聚合查询(如电商GMV按天/地区/品类多维度分析) 采用“shared-nothing”架构,并行计算能力强,支持物化视图、预聚合,响应时间秒级
SQL-on-Lake Trino、Presto、Hive SQL 直接查询数据湖文件(如Parquet/ORC),无需数据入仓 适合“数据湖即席查询”,支持SQL兼容,无需移动数据
日志分析 Elasticsearch、OpenSearch 全文检索(如日志关键字查询)、时序分析(如服务器指标监控) 基于倒排索引,支持模糊查询、聚合分析,适合非结构化/半结构化数据
5. 数据开发与调度层(Orchestration):流程的“指挥官”

负责数据处理任务的编排、调度、监控,确保ETL、分析任务按依赖关系和时间计划执行:

工具类型 核心系统 适用场景 技术特点
DAG调度工具 Airflow、DolphinScheduler、Azkaban 复杂工作流编排(如“数据同步→清洗→聚合→报表生成”依赖链) 用DAG(有向无环图)定义任务依赖,支持定时调度(CRON表达式)、失败重试
数据开发平台 DataSphere Studio、Linkis 一站式开发环境(编写SQL/Spark代码、调试、上线) 集成多引擎(Spark、Flink、Hive),支持权限管理、资源隔离,适合团队协作
实时运维平台 Flink Dashboard、StarRocks FE Console 实时任务监控(如Flink作业吞吐量、延迟)、参数调优 可视化监控指标,支持动态调整资源(如增加Flink TaskManager数量)
6. 数据可视化与BI层(Visualization & BI):价值输出的“窗口”

将分析结果转化为直观的图表、看板,供业务人员决策:

工具类型 核心系统 适用场景 技术特点
开源BI Superset 中小团队自助分析(对接StarRocks、Trino等,生成折线图、饼图、仪表盘) 轻量开源,支持SQL编辑、图表拖拽配置,可嵌入自研系统
商业BI Tableau、PowerBI 企业级复杂分析(如跨国公司多区域数据联动、钻取分析) 功能强大,支持高级可视化(地理信息、预测分析),但需付费
国内BI FineBI、帆软 国产化场景(如适配国产数据库、满足数据安全合规) 本地化支持好,适合政府、国企等对国产化要求高的场景

二、数据流转全链路(2025年典型流程)

数据从产生到最终呈现的完整路径,各层组件协同工作:

数据源(业务库、日志、IoT)
  ↓(采集层)
Kafka/Flume/DataX(实时/批量采集)
  ↓(存储层)
HDFS/S3(原始文件)→ Iceberg/Delta Lake(数据湖,带元数据)
  ↓(计算层)
Flink(实时清洗)/ Spark(离线ETL)→ 处理后写入Hive/StarRocks
  ↓(查询层)
StarRocks/Doris(MPP仓,支持多维分析)/ Trino(数据湖即席查询)
  ↓(可视化层)
Superset/Tableau(生成BI看板、报表)
  ↓(应用层)
业务决策(如运营调整、风控预警)/ 下游系统(如APP推荐、CRM)

三、数据分层设计(数据仓库经典架构)

为保证数据质量和复用性,大数据平台通常按“数据加工粒度”分层,2025年主流分层如下:

分层名称 英文缩写 核心作用 设计原则 典型存储
落地层 Raw 直接存储原始数据,不做任何处理(数据备份、追溯源头) 1:1保留源数据格式,按数据源+时间分区存储 HDFS(文本文件)、Iceberg(原始表)
操作数据层 ODS 对Raw层数据进行轻量清洗(去重、格式转换、过滤无效值),保留业务原貌 贴近源系统,字段名/类型尽量与源一致,支持增量同步 Hive(外部表)、Iceberg(ODS表)
明细层 DWD 按业务过程拆分明细数据(如“用户注册”“订单支付”单独成表),补全维度信息 范式建模(减少冗余),保留所有历史明细,支持钻取到最细粒度 Hive(分区表,按天/小时分区)、Iceberg(分区表)
汇总层 DWM 对DWD层按通用维度聚合(如“用户每日活跃次数”“商品每日销量”),提升复用率 维度建模(事实表+维度表),聚合粒度适中,供上层直接调用 Hive(汇总表)、StarRocks(预聚合表)
数据服务层 DWS 按业务主题构建宽表(如“用户主题宽表”包含用户基本信息+行为+消费) 宽表设计(减少join),字段冗余但查询高效,支持OLAP分析 StarRocks、Doris(大宽表,适合聚合查询)
数据集市 DM 为特定业务场景定制数据(如“营销活动效果报表”“风控指标表”) 高度聚合,直接对接BI,字段命名贴近业务术语 StarRocks(物化视图)、MySQL(小体量报表数据)

四、2025年大数据核心组件解析(9大类)

1. 存储类
  • HDFS:分布式文件系统,将大文件切分成块(默认128MB)存于多节点,通过副本(默认3份)保证容错,是Hadoop生态的底层存储。
  • S3/OSS:云厂商提供的对象存储,无需管理硬件,按存储量付费,适合云原生大数据平台(2025年占比超60%)。
  • Iceberg:数据湖表格式,支持ACID事务(解决并发写入冲突)、schema演进(字段增删不影响历史数据)、快照(数据版本回溯),成为2025年数据湖事实标准。
2. 计算类
  • Spark:内存计算引擎,支持批处理(Spark Core)、流处理(Spark Streaming)、SQL(Spark SQL)、机器学习(MLlib),API友好(Java/Scala/Python),适合离线场景。
  • Flink:实时流计算框架,基于“事件时间”处理(解决数据乱序问题),支持状态管理(保存中间结果),Exactly-Once语义(数据不丢不重),2025年在实时领域占据主导。
3. 消息队列类
  • Kafka:高吞吐消息队列,通过分区(Partition)实现并行读写,支持数据持久化(磁盘存储),是实时数据管道的核心(如日志从采集到计算的中间层)。
  • Pulsar:云原生消息队列,支持多租户、地理复制,2025年在多云场景中份额上升,但Kafka仍是主流。
4. 数据仓库类
  • StarRocks:国产MPP数据仓库,支持实时写入(毫秒级可见)、高并发查询(万级QPS)、物化视图(预计算加速),2025年成为国内企业OLAP首选。
  • ClickHouse:列式分析数据库,适合高吞吐写入(如埋点日志)和聚合查询(如UV/PV统计),响应时间亚秒级,但更新删除能力弱。
5. 查询引擎类
  • Trino:分布式SQL引擎,支持跨数据源查询(Hive、MySQL、S3等),计算与存储分离,适合数据湖即席查询(2025年替代Presto成为主流)。
6. 调度类
  • Airflow:Python编写的DAG调度工具,通过“Operator”定义任务(如SparkOperator、HiveOperator),社区活跃,插件丰富,适合复杂工作流。
  • DolphinScheduler:国产调度工具,可视化界面友好,支持拖拽配置,适合国内企业(尤其非技术人员)使用。
7. 采集类
  • DataX:阿里开源的批量同步工具,支持百余种数据源,配置简单(JSON脚本),是离线ETL的核心工具。
  • Flink CDC:基于Flink的变更数据捕获工具,从数据库binlog实时同步数据,保证一致性,适合实时数据湖构建。
8. 元数据类
  • Atlas:Apache开源的元数据管理工具,支持数据血缘(数据从哪里来到哪里去)、标签管理,是数据治理的核心组件。
  • DataHub:LinkedIn开源的元数据平台,支持实时元数据变更,2025年在云原生场景中更受欢迎。
9. 可视化类
  • Superset:Apache开源BI工具,支持连接多数据源,图表类型丰富,可嵌入自研系统,成为中小团队首选。
  • Tableau:商业BI巨头,支持高级分析(预测、聚类)和交互式可视化,适合大型企业,但2025年市场份额被开源工具蚕食。

五、2025年大数据技术趋势

  1. 湖仓一体:数据湖(Iceberg)与数据仓(StarRocks)融合,支持“一份数据、两种计算模式”(实时/离线),避免数据冗余。
  2. 实时化普及:Flink成为实时计算标配,“流批一体”架构(用一套代码处理实时和离线数据)成为主流。
  3. 云原生主导:大数据组件(Spark、Flink、Trino)全面适配K8s,按需扩缩容,降低运维成本。
  4. 低代码化:DataSphere Studio、NiFi等工具降低开发门槛,业务人员可通过拖拽完成数据处理。
  5. AI融合:机器学习框架(TensorFlow、PyTorch)与大数据平台(Spark、Flink)深度集成,支持“数据处理→模型训练→推理部署”全流程。

通过以上技术栈的协同,大数据平台能够高效处理PB级数据,支撑从实时监控到离线分析的全场景需求,成为企业数字化转型的核心基础设施。

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐