专栏名称: 网络大数据
打造中国最专业的网络大数据科学门户网站,提供新闻动态、研究资料、测量工具、数据报告、在线测量等各项信息及服务,供IDC,CDN,ICP和普通大众共同学习进步。
今天看啥  ›  专栏  ›  网络大数据

大数据开发:剖析Hadoop和Spark的Shuffle过程差异

网络大数据  · 公众号  · 大数据  · 2019-04-26 16:45
   ▲更多精彩推荐,请关注我们▲一、前言对于基于MapReduce编程范式的分布式计算来说,本质上而言,就是在计算数据的交、并、差、聚合、排序等过程。而分布式计算分而治之的思想,让每个节点只计算部分数据,也就是只处理一个分片,那么要想求得某个key对应的全量数据,那就必须把相同key的数据汇集到同一个Reduce任务节点来处理,那么Mapreduce范式定义了一个叫做Shuffle的过程来实现这个效果。二、编写本文的目的本文旨在剖析Hadoop和Spark的Shuffle过程,并对比两者Shuffle的差异。三、Hadoop的Shuffle过程Shuffle描述的是数据从Map端到Reduce端的过程,大致分为排序(sort)、溢写(spill)、合并(merge)、拉取拷贝(Copy)、合并排序(merge sort)这几个过程,大体流程如下:![image](https:// ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照