注册登录

看啥推荐读物

专栏名称: 大数据与机器学习文摘

分享大数据技术相关文章和资源

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

知乎回答RSS订阅方法

知乎专栏 RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

目录

相关文章推荐

数据派THU · 直播预告 | 多模态大模型的时代真的来了吗？· 3 天前

CDA数据分析师 · 数据治理企业应用实战课程——全流程拟真项目案例· 3 天前

易观方舟AnalysysData · AI技术实战宝典：掌握最前沿的应用场景与落地技巧· 3 天前

数据派THU · 【博士论文】可解释、可信赖和可靠的人工智能· 6 天前

InfoTech · 定了！正式通知：身份证1992-2005年出 ...· 4 天前

今天看啥 › 专栏 › 大数据与机器学习文摘

上万字详解 Spark Core

大数据与机器学习文摘 · 公众号 · 大数据 · 2021-04-06 12:10

先来一个问题，也是面试中常问的：Spark为什么会流行？原因1：优秀的数据模型和丰富计算抽象Spark 产生之前，已经有MapReduce这类非常成熟的计算系统存在了，并提供了高层次的API(map/reduce)，把计算运行在集群中并提供容错能力，从而实现分布式计算。虽然MapReduce提供了对数据访问和计算的抽象，但是对于数据的复用就是简单的将中间数据写到一个稳定的文件系统中(例如HDFS)，所以会产生数据的复制备份，磁盘的I/O以及数据的序列化，所以在遇到需要在多个计算之间复用中间结果的操作时效率就会非常的低。而这类操作是非常常见的，例如迭代式计算，交互式数据挖掘，图计算等。认识到这个问题后，学术界的 AMPLab 提出了一个新的模型，叫做 RDD。RDD 是一个可以容错 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博

推荐文章

数据派THU · 直播预告 | 多模态大模型的时代真的来了吗？

3 天前

CDA数据分析师 · 数据治理企业应用实战课程——全流程拟真项目案例

3 天前

易观方舟AnalysysData · AI技术实战宝典：掌握最前沿的应用场景与落地技巧

3 天前

数据派THU · 【博士论文】可解释、可信赖和可靠的人工智能

6 天前

InfoTech · 定了！正式通知：身份证1992-2005年出生的同学恭喜啦！4月16日全面开始实施！！！

4 天前

洛梅笙 · 回复@你鼻子掉了小丑:可以呀，下面裤子围条短裙，妥妥劳动人民//-20231113143257

5 月前

中信出版 · 12兄妹6人患病，这个美国“病得最重的精神病家族”，隐藏了哪些未知？

2 年前

房屋快线 · 点此查看今日新房源2021.09.30

2 年前

雪球 · 港股科网股多数下挫，阿里巴巴、腾讯控股跌超2%，京东、网易跌超4-20210511092958

2 年前

第一地产 · 福布斯发布2018年最佳经商国家，第一名是它！

6 年前

关于移动版 · Py中国 · RSS之家 · codingpro · Code · link之家 · 卧龙AI搜索 · 藏经阁 · 小百科

今天看啥 - 微信公众号rss订阅, 微信rss, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号