Hadoop 统计单词字数的例子

首页 > Hadoop 统计单词字数的例子

Hadoop 统计单词字数的例子

hadoop 的核心还是 Map-Reduce过程和 hadoop分布式文件系统

第一步：定义Map过程

/**
*
* Description:
*
* @author charles.wang
* @created Mar 12, 2012 1:41:57 PM
*
*/
public class MyMap extends Mapper {
private static final IntWritable one = new IntWritable(1);
private Text word;
public void map(Object key ,Text value,Context context)
throws IOException,InterruptedException{
String line=value.toString();
StringTokenizer tokenizer = new StringTokenizer(line);
while(tokenizer.hasMoreTokens()){
word = new Text();
word.set(tokenizer.nextToken());
context.write(word, one);
}
}
}

第二步：定义 Reduce 过程

/**
*
* Description:
*
* @author charles.wang
* @created Mar 12, 2012 1:48:18 PM
*
*/
public class MyReduce extends Reducer {
public void reduce (Text key,Iterable values,Context context)
throws IOException ,InterruptedException{
int sum=0;
for(IntWritable val: values){
sum+=val.get();
}
context.write(key, new IntWritable(sum));
}
}

编写一个Driver 来执行Map-Reduce过程

public class MyDriver {
public static void main(String [] args) throws Exception{
Configuration conf = new Configuration();
conf.set("hadoop.job.ugi", "root,root123");
Job job = new Job(conf,"Hello,hadoop! ^_^");
job.setJarByClass(MyDriver.class);
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(IntWritable.class);
job.setMapperClass(MyMap.class);
job.setCombinerClass(MyReduce.class);
job.setReducerClass(MyReduce.class);
job.setInputFormatClass(TextInputFormat.class);
job.setOutputFormatClass(TextOutputFormat.class);
FileInputFormat.setInputPaths(job, new Path(args[0]));
FileOutputFormat.setOutputPath(job,new Path(args[1]));
job.waitForCompletion(true);
}
}

转载于:https://blog.51cto.com/supercharles888/840723

更多相关：

在Ubuntu 14.04 64bit上为Sublime text 3安装搜狗拼音输入法

Sublime text 3不支持中文输入法，下面是我结合网上的各种资料摸索实践了一遍，为Sublime text 3成功添加了搜狗拼音输入法，特此记录以备参考。前提条件：事先安装并配置好搜狗拼音法和Sublime text 3编辑器，参考本博客相关文章。 1.安装相关依赖库 sudo apt-get install bui...
利用人工智能（Magpie开源库）给一段中文的文本内容进行分类打标签

当下人工智能是真心的火热呀，各种原来传统的业务也都在尝试用人工智能技术来处理，以此来节省人工成本，提高生产效率。既然有这么火的利器，那么我们就先来简单认识下什么是人工智能吧，人工智能是指利用语音识别、语义理解、图像识别、视觉处理、机器学习、大数据分析等技术实现机器智能自动化做出响应的一种模拟人行为的手段。而我们这里介绍的Magpie则...
selenium的基础知识点

from selenium import webdriver from scrapy.selector import Selector#模拟登陆 browser = webdriver.Chrome(executable_path='Chromedriver.exe') #路径是Chromedriver.exe的存放位置，windo...
hadoop程序MapReduce之SingletonTableJoin

需求：单表关联问题。从文件中孩子和父母的关系挖掘出孙子和爷奶关系样板：child-parent.txt xiaoming daxiong daxiong alice daxiong jack 输出：xiaoming alice xiaoming jack 分析设...
Qt 4 学习1

菜鸟一枚，正在学习C++ Gui Qt4，整理很零碎，欢迎批评指正 1.窗口标题： QWidget *window = new QWidget; window->setWindowTitle("Enter Your Age"); **************************************** 关于标题...
leetcode-21 合并两个有序链表

将两个有序链表合并为一个新的有序链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的。示例：输入：1->2->4, 1->3->4 输出：1->1->2->3->4->4 总体思路是：比较两个链表头节点，较小的插入新链表指针之后，同时较小链表指针向后移动一位实现如下: ListNode* mergeTwo...
.NET 端口监听

1.直接调用微软socket对象处理 static void Main(string[] args){try{IPAddress ip = new IPAddress(new byte[] { 127, 0, 0, 1 });//在3721端口新建一个TcpListener对象TcpListener listener = new...
实现分布式服务注册及简易的netty聊天

　　现在很多地方都会用到zookeeper, 用到它的地方就是为了实现分布式。用到的场景就是服务注册，比如一个集群服务器，需要知道哪些服务器在线，哪些服务器不在线。　　ZK有一个功能，就是创建临时节点，当机器启动应用的时候就会连接到一个ZK节点，然后创建一个临时节点，那么通过获取监听该路径，并且获取该路径下的节点数量就知道有哪些服务...
将前台日期格式转成与数据库日期格式相对应，后台java转数据库日期格式

前台到后台java时data日期类型的转化在实体类中用@DataTimeFormat，这样设置即使传过来是空的字符串也是可以转的，要和前面传过来的格式一致，如 @XmlElement(name="BeginDate") @DateTimeFormat(pattern="yyyy-MM-dd") private Date begin...