twasink · February 4, 2014 22:27 · twasink · Feb 4, 2014 · rhema · Feb 12, 2015
diff --git a/HadoopMain.java b/HadoopMain.java
 // Based on http://pragmaticintegrator.wordpress.com/2013/08/16/writing-a-hadoop-mapreduce-task-in-java/
 package net.twasink.hadoop;

 import java.io.File;
 import java.net.URI;

 import org.apache.commons.io.FileUtils;
 import org.apache.hadoop.conf.Configuration;
 import org.apache.hadoop.fs.Path;
 import org.apache.hadoop.io.LongWritable;
 import org.apache.hadoop.io.Text;
 import org.apache.hadoop.mapreduce.Job;
 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
 import org.apache.hadoop.mapreduce.lib.input.KeyValueTextInputFormat;
 import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
 import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
 import org.joda.time.DateTime;

 public class HadoopMain {
    
    public static void main(String[] args) throws Exception
    {
        String inputPath = args[0];
        String outputPath = args[1];

        String s3File = args[2];

        Configuration conf = new Configuration();
        
        Job job = Job.getInstance(conf, "twasink");
        job.setJarByClass(HadoopMain.class);
        job.setMapperClass(MyMapper.class);
        job.setReducerClass(MyReducer.class);
        job.setOutputKeyClass(LongWritable.class);
        job.setOutputValueClass(Text.class);
 
        job.setMapOutputKeyClass(LongWritable.class);
        job.setMapOutputValueClass(Text.class);
 
        job.setInputFormatClass(TextInputFormat.class);
        job.setOutputFormatClass(TextOutputFormat.class);
        
        FileInputFormat.addInputPath(job, new Path(inputPath)); 
        FileOutputFormat.setOutputPath(job, new Path(outputPath));
        
        // s3File should be a URI with s3: or s3n: protocol. It will be accessible as a local filed called 'theFile'
        job.addCacheFile(new URI(s3File + "#theFile"));

        boolean result = job.waitForCompletion(true);
        System.exit(result ? 0 : 1);
    }
 }
diff --git a/MyMapper.java b/MyMapper.java
 // Based on http://pragmaticintegrator.wordpress.com/2013/08/16/writing-a-hadoop-mapreduce-task-in-java/
 package net.twasink.hadoop;

 import java.io.File;
 import java.io.IOException;
 import java.net.URI;
 import java.util.StringTokenizer;

 import org.apache.commons.io.FileUtils;
 import org.apache.commons.io.IOUtils;
 import org.apache.hadoop.io.LongWritable;
 import org.apache.hadoop.io.Text;
 import org.apache.hadoop.mapreduce.Mapper;

 public class MyMapper extends Mapper<LongWritable, Text, LongWritable, Text> {

    // Default implementation - pass the input to the output 
    public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException
    {
        super.map(key, value, context);
    }


    @Override
    protected void cleanup(Context context) throws IOException, InterruptedException {
        super.cleanup(context);
    }

    @Override
    protected void setup(Context context) throws IOException, InterruptedException {
        if (context.getCacheFiles() != null && context.getCacheFiles().length > 0) {
            URI mappingFileUri = context.getCacheFiles()[0];
            
            if (mappingFileUri != null) {
              // Would probably be a good idea to inspect the URI to see what the bit after the # is, as that's the file name
                System.out.println("Mapping File: " + FileUtils.readFileToString(new File("./theFile")));
            } else {
                System.out.println(">>>>>> NO MAPPING FILE");
            }
        } else {
            System.out.println(">>>>>> NO CACHE FILES AT ALL");
        }
    }
 }
	// Based on http://pragmaticintegrator.wordpress.com/2013/08/16/writing-a-hadoop-mapreduce-task-in-java/
	package net.twasink.hadoop;

	import java.io.File;
	import java.net.URI;

	import org.apache.commons.io.FileUtils;
	import org.apache.hadoop.conf.Configuration;
	import org.apache.hadoop.fs.Path;
	import org.apache.hadoop.io.LongWritable;
	import org.apache.hadoop.io.Text;
	import org.apache.hadoop.mapreduce.Job;
	import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
	import org.apache.hadoop.mapreduce.lib.input.KeyValueTextInputFormat;
	import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
	import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
	import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
	import org.joda.time.DateTime;

	public class HadoopMain {

	public static void main(String[] args) throws Exception
	{
	String inputPath = args[0];
	String outputPath = args[1];

	String s3File = args[2];

	Configuration conf = new Configuration();

	Job job = Job.getInstance(conf, "twasink");
	job.setJarByClass(HadoopMain.class);
	job.setMapperClass(MyMapper.class);
	job.setReducerClass(MyReducer.class);
	job.setOutputKeyClass(LongWritable.class);
	job.setOutputValueClass(Text.class);

	job.setMapOutputKeyClass(LongWritable.class);
	job.setMapOutputValueClass(Text.class);

	job.setInputFormatClass(TextInputFormat.class);
	job.setOutputFormatClass(TextOutputFormat.class);

	FileInputFormat.addInputPath(job, new Path(inputPath));
	FileOutputFormat.setOutputPath(job, new Path(outputPath));

	// s3File should be a URI with s3: or s3n: protocol. It will be accessible as a local filed called 'theFile'
	job.addCacheFile(new URI(s3File + "#theFile"));

	boolean result = job.waitForCompletion(true);
	System.exit(result ? 0 : 1);
	}
	}
No results found