看啥推荐读物
专栏名称: 刘超的通俗云计算
刘超,网易云解决方案首席架构师,代码级略懂OpenStack、Hadoop、Docker、Lucene、Mesos等开源软件,曾出版《Lucene应用开发揭秘》,个人博客可搜索popsuper1982。
目录
相关文章推荐
今天看啥  ›  专栏  ›  刘超的通俗云计算

大数据方法论之优化Map-Reduce过程

刘超的通俗云计算  · 公众号  · 架构  · 2017-08-21 23:56
大家在写Map-Reduce程序的时候,有时候会发现任务执行时间太长了,可通过下面的方法进行优化。在Map-Reduce过程中有Counter首先可以优化Map任务的个数:Map任务的个数是由Input Splits的个数确定的,每个Input Split对应于一个HDFS文件块。可通过mapred.min.split.size修改map的个数。如果一个HDFS文件块里面包含的任务数目太多,例如每一个url是一个视频的链接,但是url占不了几个字符,所以很可能一个HDFS块里面包含了所有的视频的url,则一个map任务处理所有的视频,显然并行不起来。这可以使用NLineInputFormat,几行形成一个map任务,而非整个HDFS文件块作为一个map任务。如果每个源文件太小,例如每个文件1k,则每个文件一个map任务,这样并行的任务太多了,因而可以使用CombineFil ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照