ETL
"ETL"是英文Extract_transform-Load的缩写,用来描述将数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)到目的端的过程。ETL较常见在数据库,但其对象不限于数据仓库。
在运行核心业务MapReduce程序之前,往往要先对数据进行清洗,清理掉不符合用户要求的数据。清洗过程往往只需要运行Mapper程序,不需要运行Reduce程序。
WebLogMapper.java
public class WebLogMapper extends Mapper<LongWritable, Text,Text, NullWritable> {
@Override
protected void map(LongWritable key, Text value,
Mapper<LongWritable, Text, Text, NullWritable>.Context context)
throws IOException, InterruptedException {
String line = value.toString();
boolean result = parseLog(line,context);
if(!result){
return;
}
context.write(value,NullWritable.get());
}
private boolean parseLog(String line, Mapper<LongWritable, Text, Text, NullWritable>.Context context) {
if(line.length()>11){
return true;
}else{
return false;
}
}
}
WebLogDriver.java
public class WebLogDriver {
public static void main(String[] args) throws Exception {
Configuration conf = new Configuration();
Job job = Job.getInstance(conf);
job.setJarByClass(WebLogDriver.class);
job.setMapperClass(WebLogMapper.class);
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(NullWritable.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(NullWritable.class);
job.setNumReduceTasks(0);
FileInputFormat.setInputPaths(job, new Path(System.getProperty("user.dir")+"/input/etl"));
FileOutputFormat.setOutputPath(job, new Path(System.getProperty("user.dir")+"/output/etl"));
boolean result = job.waitForCompletion(true);
System.exit(result ? 0 : 1);
}
}
MapReduce开发总结
输入数据接口:InputFormat
1)默认使用的实现类是:TextInputFormat
2)TextInputFormat的功能逻辑是:一次读取一行文本,然后将该行的起始偏移量作为key,行内容作为value返回。
3)CombineTextInputFormat可以把多个小文件合并成一个切片处理,提高处理效率。
逻辑处理接口:Mapper
用户根据业务需求实现其中三个方法:map()、setup()、cleanup()。
Partitioner分区
1)有默认实现HashPartitioner,逻辑是根据key的hash值和numReduces来返回一个分区号;key.hashCode()^Integer.MAXVALUE%numReduces;
2)如果业务上有特别的需求,可以自定义分区。
Comparable排序
1)当我们用自己义的对象作为key来输出时,就必须要实现WritableComparable接口,重写其中的CompareTo()方法。
2)部分排序:对最终输出的每一个文件进行内部排序。
3)全排序:对所有数据进行排序,通常只有一个reduce。
4)二次排序:排序的条件有两个。
Combiner合并
Combiner合并可以提高程序执行效率,减少IO传输。但是使用时必须不能影响原油的业务处理结果。
逻辑处理接口:Reducer
用户根据业务需求实现其中三个方法:reducer()、setup()、cleanup()。
输出数据接口:OutputFormat
1)默认实现类时TextOutputFormat,功能逻辑是:将每一行KV对,向目标文本文件输出一行。
2)用户还可以自定义OutputFormat。
小结:
经过
MapReduce(三):InputFormat数据输入
、
MapReduce(四):MapReduce工作流程
、
MapReduce(五):Shuffle机制
、
MapReduce(六):OutputFormat数据输出
、
MapReduce(七):MapReduce内核源码解析
、
MapReduce(八):Join多种应用
等几片文章介绍,大概清楚MR开发中的技术点,理解记忆,并在开发中熟练使用。