大数据面试 Shuffle 过程(必问)

1,是 MapReduce 的 Shuffle 过程指的是 MapTask的后半程，以及ReduceTask 的前半程，共同组成的。2,从MapTask中map方法结束，到ReduceTask中的reduce方法开始，这个中间的部分就是Shuffle。是MapReduce的核心，心脏。

GDDGHS_

358人浏览 · 2024-09-07 16:41:11

GDDGHS_ · 2024-09-07 16:41:11 发布

1,是 MapReduce 的 Shuffle 过程指的是 MapTask的后半程，以及ReduceTask 的前半程，共同组成的。

2,从MapTask中map方法结束，到ReduceTask中的reduce方法开始，这个中间的部分就是Shuffle。是MapReduce的核心，心脏。

shuffle 过程讲解

map端

1，数据开始输出到这个环形缓冲区，如果缓冲区的内存是100M的话，当数据的内存到百分之八十时，如果内存的数据达到80M，开是溢写到磁盘并对数据进行分区，然后再把多个小文件合并成一个大文件，进行多次合并，最终分区的文件只能有一份。

2，在溢写出的文件是排过序的，排序规则：快速排序算法，在排序之前，会根据分区的算法，对数据进行分区，是在内存中进行的，先分区，在每一个分区中再排序，接着溢写到磁盘，分区的排序是快速排序法，简称快排，到合并小文件成大文件时候也会进行排序，这个排序是归并排序

3，合并的最终溢写文件可以使用压缩技术来达到节省磁盘空间和减少向reduce阶段传输数据的目的。（存储在本地磁盘中）

Reduce端

1，到reduce端是根据不同的分区去各个服务器拉取相同的数据，电脑怎么知道它拉那个分区呢，是有规定的

2，reduce任务有少量的复制线程，因此能够并行取得map输出。默认是五个线程，所以它能一次性拉取五台服务器的数据

3，如果map上的数据非常小，该数据会被拉取到reduce端的内存中，如果数据量大就拉取到reduce端的硬盘上。

4，拉完之后进行merge 进行合并到这shuffle 就结束了

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

全家桶集齐！Qwen3.5四款小模型上线魔乐社区，附昇腾全套实践教程

魔乐社区

Pont - 搭建前后端之桥：高效、灵活的接口管理工具

Pont 是一款强大的数据服务层解决方案，它能够帮助开发者快速搭建前后端之间的桥梁，实现接口的高效管理和代码自动生成。无论是新手还是有经验的开发者，都能通过 Pont 轻松处理接口文档、生成类型安全的 API 代码，从而显著提升开发效率。[![Pont 工具标志](https://raw.gitcode.com/gh_mirrors/po/pont/raw/3f1b7d4bbba3fd2dda

魔乐社区

如何快速上手 hvac：HashiCorp Vault Python 客户端零基础入门指南

**hvac** 是 HashiCorp Vault 的 Python 3.X 客户端库，专为开发者提供简单高效的 Vault 交互方式。无论你是需要管理密钥、配置身份验证，还是实现安全的秘密数据存储，hvac 都能帮助你轻松搞定 Vault 的各项操作。本文将带你零基础快速入门，从安装到基础操作，让你在几分钟内即可上手使用这个强大的工具。[![hvac 客户端 Logo](https://r