看啥推荐读物

专栏名称: 刘超的通俗云计算

刘超，网易云解决方案首席架构师，代码级略懂OpenStack、Hadoop、Docker、Lucene、Mesos等开源软件，曾出版《Lucene应用开发揭秘》，个人博客可搜索popsuper1982。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

知乎回答RSS订阅方法

知乎专栏 RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

通俗说Spark

刘超的通俗云计算 · 公众号 · 架构 · 2017-10-04 11:59

前面有一篇文章形象解析了Yarn的工作原理，这一篇文章通俗解析一下当前最火的大数据框架Spark。通俗说基于Yarn的Map-Reduce过程听说过Spark 的人常听到他强于Hadoop 的原因是他是基于内存的计算，因而比Hadoop快，可是数据量如此之大，怎么可能都放在内存里面呢？当然不是所有的都在内存里面，Spark比hadoop快而是由Spark全新的运行机制决定的。一提Spark 的大数据处理能力，有一个抽象的概念叫RDD，其实用户可以逻辑地认为数据全在内存中，仅仅关注数据处理的逻辑即可，这有点像客户提的需求，往往是抽象的，需要在实现的过程中慢慢的落地。（这里接着延续通俗说Yarn里面接项目的模式）客户开始口若悬河的描述他们想怎么处理这些数据，例如每个都加一（map）， ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博