专栏名称: 刘超的通俗云计算
刘超,网易云解决方案首席架构师,代码级略懂OpenStack、Hadoop、Docker、Lucene、Mesos等开源软件,曾出版《Lucene应用开发揭秘》,个人博客可搜索popsuper1982。
目录
相关文章推荐
高可用架构  ·  干货 | ...·  1 周前  
今天看啥  ›  专栏  ›  刘超的通俗云计算

大数据方法论之Nutch基于Map-Reduce的爬取方法

刘超的通俗云计算  · 公众号  · 架构  · 2017-08-16 23:48
随着人工智能的兴起,大数据又火了起来,大数据的方法论的本质是众人拾柴火焰高,从算法角度来讲,就是分治法。例如普通的合并排序。就是分治法的体现分三个部分,第一分,Devide,将总的任务分成多个分任务。第二,处理,Concur,每个人将分给自己的任务做完,输出结果第三,合,Merge,每个人将任务结果汇总,得到最终结果。对于大量数据来讲,数据的处理从单线程模型到多线程模型最终到多进程模型,也即Map-Reduce的基本思路首先是分,Split,然后是处理,Map,然后是合并,Reduce,最终输出结果。对于多进程来讲,需要一个控制器和调度器来控制多个进程的合作,所以有了Map-Reduce的两个版本的框架,以及后来有了Spark。网页的爬取系统Nutch就是一个使用 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照