Hadoop集群环境搭建 HDFS操作基础命令(附hadoop、jdk安装包)
文章目录
环境
VMware Workstation Pro 12.0
MobaXtrerm(看自己需要)
需要的安装包
CentOS 7.2 iso镜像
jdk 1.8.0 for Linux
hadoop 2.8.5 for Linux
CentOS01的安装和配置
下载CentOS 7.2镜像
将所需要的镜像文件下载到电脑中
系统安装
创建新的虚拟机
给虚拟机命名为centos01
安装操作系统
安装GNOME桌面
不要忘记创建hadoop用户,并赋给它管理员权限。
环境配置
给予 Hadoop用户 root 权限
打开文件
su
vi /etc/profile
添加后,令它立即生效
source /etc/profile
关闭防火墙
配置Vmware虚拟网络编辑器的NAT设置
给centos01设置固定IP
本地 ping 地址 测试
修改主机名
查看主机名
修改主机名为centos01
查看当前主机名
重启主机名就为centos01
创建资源目录/opt/modules/、/opt/software/
Java环境配置
卸载系统自带的JDK,后查询不到jdk相关文件
rpm -qa|grep java
sudo rpm -e --nodeps **
上传jdk到虚拟机文件目录下
将jdk安装包解压到/opt/modules/下
配置环境变量
打开 /opt/profile文件,在最下面添加下面的内容
打开的命令是:
sudo vi /etc/profile
修改后不要忘记保存
修改后为了快速令环境变量生效
应该使用命令:
source /etc/profile
检查是否安装成功
出现下面的java的版本号即为安装成功
由CentOS01克隆出CentOS02、CentOS03,并配置相关环境
克隆虚拟机CentOS02,CentOS03
克隆选项在Vm-虚拟机-管理,我们选择的是完整克隆。
配置主机名
同centos01(除最后的数字不同,2写02,3写03)
centos02
centos03
修改IP
同centos01(除了IP都写成不一样的,尽量是相连的数字)
centos02:192.168.74.131
centos03:192.168.74.132
配置主机ip映射
三台虚拟机分别打开/etc/hosts,追加三个ip和主机名
配置本地windows主机的ip映射
文件目录
C:\Windows\System32\drivers\etc\hosts
IP映射测试
在各个节点上进行测试
在cmd下分别测试三台虚拟机
集群配置无秘钥登录
无秘钥分两步!!!
创建密钥
分别在三个节点中执行以下命令
这里让你输入直接回车就OK。(除了输入虚拟机密码和yes)
ssh localhost
cd ~/.ssh/
ssh-keygen –t rsa
发送密钥
分别在三个节点中执行以下命令
可能需要输入密码
ssh-copy-id centos01
ssh-copy-id centos02
ssh-copy-id centos03
然后三台虚拟机就可以随便互相访问
进入命令为:
ssh 主机名
退出命令
exit
Hadoop环境配置
上传Hadoop 安装包
将hadoop安装包解压到/opt/modules/下
配置系统环境变量(centos01)
同jdk环境变量的文件目录
保存后,不要忘记令它立即生效
source /etc/profile
Hadoop添加jdk环境变量
向hadoop安装目录etc/hadoop下的hadoop-env.sh,mapred-env.sh,yarn-env.sh加入JAVA_HOME环境变量
配置HDFS
修改配置文件core-site.xml,加入以下内容:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://centos01:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>file: /opt/modules/hadoop-2.8.5/tmp</value>
</property>
</configuration>
修改配置文件hdfs-site.xml,加入以下内容:
<configuration>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<property><!--不检查用户权限-->
<name>dfs.permissions.enabled</name>
<value>false</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/opt/modules/hadoop-2.8.5/tmp/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/opt/modules/hadoop-2.8.5/tmp/dfs/data</value>
</property>
</configuration>
修改slaves文件:
centos01
centos02
centos03
配置yarn
首先给文件更名
mv mapped-site.xml.template mapred-site.xml
向mapred-site.xml文件加入下面的内容:
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
向yarn-site.xml文件加入下面的内容:
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
复制hadoop安装文件到其他节点
这一步没成功的多数都是无秘钥登录没有配置好
scp -r hadoop-2.8.5/ hadoopacentos02: /opt/modules/
scp -r hadoop-2.8.5/ hadoopacentos03: /opt/modules/
格式化namenode
hadoop namenode-format
若能输出以下信息,说明格式化成功:
Storage directory /opt/modules/hadoop-2.8. 5/tmp/dfs/name has been successfully formatted
启动Hadoop
start-all.sh
使用jps命令,如果有下面的进程名代表启动成功:
命令:
jps
环境测试
hdfs命令测试
Live Nodes 访问测试(测试mapreduce):
打开浏览器,访问下面的网页:
http://centos01:50070
centos01也可以环境其ip,打开后,找到Live Nodes
进入链接后,发现有三个节点,如下图,即为测试成功!
Hadoop 命令
HDFS命令和Linux命令差不多,不同的地方是前面加上了hadoop fs,并且命令前都加上了“-”符号。
hdfs常见命令:
hadoop fs -ls /
以全路径的方式展示当前目录下及当前目录下所有子目录的全部文件,与linux系统下tree命令类似
hadoop fs -lsr /
显示目录下所有子目录或文件占用空间(逻辑空间)
hadoop fs -du /
显示该目录所占用的实际空间
hadoop fs -count -q /
hadoop fs -mv
hadoop fs -cp
hadoop fs -rm
hadoop fs -rm -skipTrash
不进入回收站直接删除
hadoop fs -rmr /
递归删除文件夹所有文件
hadoop fs -expunge
清空回收站
hadoop fs -put
被上传文件 /上传文件
一些环境配置的建议…
按步骤来搭建
无秘钥登录一定要三台虚拟机都生成密钥后,再传输密钥
要学会看log日志文件。
log文件很重要,有报错看才该高兴,报错都会记录在log文件内,不看log文件都不知道具体哪里出错。
要理解整个搭建过程和Hadoop体系
理解后,再进行搭建会比较简单。很多步骤都是前后有条理性的。
可以看看这篇文章:hadoop体系架构
权限管理很重要。
尽量不要使用root用户创建目录,不然权限管理很麻烦,当然,如果你只用root用户当我没说,但是以后工作可不一定给你root用户。
资源下载
CentOS镜像文件大大了,上传不了,只有这两个了。
Hadoop 、 jdk安装包
提取码: hhmr