看啥推荐读物
专栏名称: 刘超的通俗云计算
刘超,网易云解决方案首席架构师,代码级略懂OpenStack、Hadoop、Docker、Lucene、Mesos等开源软件,曾出版《Lucene应用开发揭秘》,个人博客可搜索popsuper1982。
目录
相关文章推荐
今天看啥  ›  专栏  ›  刘超的通俗云计算

通俗说Spark

刘超的通俗云计算  · 公众号  · 架构  · 2017-10-04 11:59
前面有一篇文章形象解析了Yarn的工作原理,这一篇文章通俗解析一下当前最火的大数据框架Spark。通俗说基于Yarn的Map-Reduce过程听说过Spark 的人常听到他强于Hadoop 的原因是他是基于内存的计算,因而比Hadoop快,可是数据量如此之大,怎么可能都放在内存里面呢?当然不是所有的都在内存里面,Spark比hadoop快而是由Spark全新的运行机制决定的。一提Spark 的大数据处理能力,有一个抽象的概念叫RDD,其实用户可以逻辑地认为数据全在内存中,仅仅关注数据处理的逻辑即可,这有点像客户提的需求,往往是抽象的,需要在实现的过程中慢慢的落地。(这里接着延续通俗说Yarn里面接项目的模式)客户开始口若悬河的描述他们想怎么处理这些数据,例如每个都加一(map), ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照