MapReduce(九)：开发总结及数据清洗（ETL）

Tuzki眯眼看世界 · 简书 · · 2021-12-19 17:13

ETL

"ETL"是英文Extract_transform-Load的缩写，用来描述将数据从来源端经过抽取（Extract）、转换（Transform）、加载（Load）到目的端的过程。ETL较常见在数据库，但其对象不限于数据仓库。

在运行核心业务MapReduce程序之前，往往要先对数据进行清洗，清理掉不符合用户要求的数据。清洗过程往往只需要运行Mapper程序，不需要运行Reduce程序。

WebLogMapper.java

public class WebLogMapper extends Mapper<LongWritable, Text,Text, NullWritable> {

    @Override
    protected void map(LongWritable key, Text value,
        Mapper<LongWritable, Text, Text, NullWritable>.Context context)
        throws IOException, InterruptedException {
        String line = value.toString();
        boolean result = parseLog(line,context);
        if(!result){
            return;
        }
        context.write(value,NullWritable.get());
    }

    private boolean parseLog(String line, Mapper<LongWritable, Text, Text, NullWritable>.Context context) {
        if(line.length()>11){
            return true;
        }else{
            return false;
        }
    }
}

WebLogDriver.java

public class WebLogDriver {

    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf);

        job.setJarByClass(WebLogDriver.class);
        job.setMapperClass(WebLogMapper.class);

        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(NullWritable.class);

        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(NullWritable.class);

        job.setNumReduceTasks(0);

        FileInputFormat.setInputPaths(job, new Path(System.getProperty("user.dir")+"/input/etl"));
        FileOutputFormat.setOutputPath(job, new Path(System.getProperty("user.dir")+"/output/etl"));

        boolean result = job.waitForCompletion(true);
        System.exit(result ? 0 : 1);

    }
}

MapReduce开发总结

输入数据接口：InputFormat

1）默认使用的实现类是：TextInputFormat

2）TextInputFormat的功能逻辑是：一次读取一行文本，然后将该行的起始偏移量作为key，行内容作为value返回。

3）CombineTextInputFormat可以把多个小文件合并成一个切片处理，提高处理效率。

逻辑处理接口：Mapper

用户根据业务需求实现其中三个方法：map()、setup()、cleanup()。

Partitioner分区

1）有默认实现HashPartitioner，逻辑是根据key的hash值和numReduces来返回一个分区号；key.hashCode()^Integer.MAXVALUE%numReduces;

2）如果业务上有特别的需求，可以自定义分区。

Comparable排序

1）当我们用自己义的对象作为key来输出时，就必须要实现WritableComparable接口，重写其中的CompareTo()方法。

2）部分排序：对最终输出的每一个文件进行内部排序。

3）全排序：对所有数据进行排序，通常只有一个reduce。

4）二次排序：排序的条件有两个。

Combiner合并

Combiner合并可以提高程序执行效率，减少IO传输。但是使用时必须不能影响原油的业务处理结果。

逻辑处理接口：Reducer

用户根据业务需求实现其中三个方法：reducer()、setup()、cleanup()。

输出数据接口：OutputFormat

1）默认实现类时TextOutputFormat，功能逻辑是：将每一行KV对，向目标文本文件输出一行。

2）用户还可以自定义OutputFormat。

小结：

经过 MapReduce(三)：InputFormat数据输入、 MapReduce(四)：MapReduce工作流程、 MapReduce(五)：Shuffle机制、 MapReduce(六)：OutputFormat数据输出、 MapReduce(七)：MapReduce内核源码解析、 MapReduce(八)：Join多种应用等几片文章介绍，大概清楚MR开发中的技术点，理解记忆，并在开发中熟练使用。

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博