博客分类 ‘分布式计算’

Hadoop笔记之安装及伪分布式模式配置

Hadoop推荐的是Linux环境。Windows环境只能作为开发环境,而不能作为生产环境。

准备工作

首先确保Java环境的安装,并确保JAVA_HOME环境变量指向了一个Java安装。ubuntu下可以

sudo apt-get install sun-java6-jdk

通过运行“java -version”命令查看是否配置成功。

接着在这里下载一个稳定版的hadoop,目前最新的版本为0.20.203.x。

下载后,解压缩到本地文件系统。

tar xvzf hadoop-x.f.z.tar.gz

这时我们需要修改conf/hadoop-env.sh中的JAVA_HOME的值来指定Java安装。

创建一个指向hadoop安装目录(例如HADOOP_INSTALL)的环境变量。这样直接在命令行中运行hadoop命令就很方便。

export HADOOP_INSTALL=/home/chine/hadoop-0.20.203.0
export PATH=$PATH:$HADOOP_INSTALL/bin

为了能让每次开机添加环境变量,我们把这两句话加到"/etc/profile“的末尾。

我们运行以下指令看看hadoop是否安装成功。

% hadoop version

Hadoop 0.20.203.0
Subversion http://svn.apache.org/repos/asf/hadoop/common/branches/branch-0.20-security-203 -r 1099333
Compiled by oom on Wed May  4 07:57:50 PDT 2011

关于作者

残阳似血(@秦续业),程序猿一枚,把梦想揣进口袋的挨踢工作者。现加入阿里云,研究僧毕业于上海交通大学软件学院ADC实验室。熟悉分布式数据分析(DataFrame并行化框架)、基于图模型的分布式数据库和并行计算、Dpark/Spark以及Python web开发(Django、tornado)等。

博客分类

点击排行

标签云

扫描访问

主题

残阳似血的微博