即可进行安装。如果不能成功安装,可能是安装包出现了错误,可以多拖几次。本例是将路径安装在:/home/hadoop/jdk1.6.0.24
很多资料上写要设置环境变量,但是我是默认安装的,所以没有设置环境变量。如果路径安装不是默认的,可能要修改:
这里记一下环境变量的修改:
打开终端:$ sudo gedit /etc/profile
在打开的文件中写入:
#set java enviornment
JAVA_HOME=/usr/java/jdk1.6.0_24
PATH=$JAVA_HOME/bin:$PATH
CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export JAVA_HOME
export PATH
export CLASSPATH
保存退出。
2. 从apache官网下载hadoop安装包,以hadoop-0.20.2为例,将安装包解压:$sudo tar -zxvf /home/hadoop/hadoop-0.20.2.tar.gz
3.安装完之后
把Hadoop 的安装路径添加到环/etc/profile 中:
export HADOOP_HOME=/home/hadoop/hadoop-0.20.2
export PATH=$HADOOP_HOME/bin:$PATH
4. 配置hadoop
hadoop 的主要配置都在hadoop-0.20.2/conf 下。
(1)在conf/hadoop-env.sh 中配置Java 环境(namenode 与datanode 的配置相同):
$ gedit hadoop-env.sh
$ export JAVA_HOME=/home/hadoop/jdk1.6.0.24
在两台虚拟机上都需要配置文件:map-site.xml,core-site.xml和hdfs-site.xml.简单配置如下:
(2)core-site.xml配置文件
内容配置如下所示:
hadoop.tmp.dir
/home/hadoop/tmp //hadoop 启动的临时文件夹的地址,你可以设在任何地方,只要你愿意。
fs.default.name
hdfs://202.118.212.4:9000
(3) hdfs-site.xml配置文件
内容配置如下所示:
view plaincopy to clipboardprint?
dfs.replication
1 // dfs的副本数,默认是3,如果
datanode少于3台,可改为1
(4) mapred-site.xml配置文件
配置内容如下所示:
view plaincopy to clipboardprint?
mapred.job.tracker 202.118.212.4:9001
slaves: 202.118.212.5
如果第二名称节点second namenode设在另外的机子上就写上那台机子的IP地址就可以了,也可以不设第二名称节点。
4 启动Hadoop
首先格式化namenode:
hadoop@ubuntu:~ $sudo cd /home/hadoop/hadoop-0.20.2/bin
进入hadoop-0.20.2/bin之后:$hadoop namenode -format
然后启动:$start-all.sh
用jps查看进程启动情况,也可以用web查看;
http://202.118.212.4:50030查看jobtracker
http://202.118.212.4:50070查看namenode