今天看啥  ›  专栏  ›  大数据与机器学习文摘

上万字详解 Spark Core

大数据与机器学习文摘  · 公众号  · 大数据  · 2021-04-06 12:10
先来一个问题,也是面试中常问的:Spark为什么会流行?原因1:优秀的数据模型和丰富计算抽象Spark 产生之前,已经有MapReduce这类非常成熟的计算系统存在了,并提供了高层次的API(map/reduce),把计算运行在集群中并提供容错能力,从而实现分布式计算。虽然MapReduce提供了对数据访问和计算的抽象,但是对于数据的复用就是简单的将中间数据写到一个稳定的文件系统中(例如HDFS),所以会产生数据的复制备份,磁盘的I/O以及数据的序列化,所以在遇到需要在多个计算之间复用中间结果的操作时效率就会非常的低。而这类操作是非常常见的,例如迭代式计算,交互式数据挖掘,图计算等。认识到这个问题后,学术界的 AMPLab 提出了一个新的模型,叫做 RDD。RDD 是一个可以容错 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照