Hadoop集群环境搭建 HDFS操作基础命令(附hadoop、jdk安装包)

环境
VMware Workstation Pro 12.0
MobaXtrerm(看自己需要)
需要的安装包
CentOS 7.2 iso镜像
jdk 1.8.0 for Linux
hadoop 2.8.5 for Linux

CentOS01的安装和配置

下载CentOS 7.2镜像

将所需要的镜像文件下载到电脑中

系统安装

创建新的虚拟机

给虚拟机命名为centos01

安装操作系统

安装GNOME桌面
不要忘记创建hadoop用户,并赋给它管理员权限。

环境配置

给予 Hadoop用户 root 权限

打开文件

su 
vi /etc/profile

在这里插入图片描述
添加后,令它立即生效

source /etc/profile

关闭防火墙

在这里插入图片描述

配置Vmware虚拟网络编辑器的NAT设置

在这里插入图片描述

给centos01设置固定IP

在这里插入图片描述

本地 ping 地址 测试

在这里插入图片描述

修改主机名

查看主机名
修改主机名为centos01
查看当前主机名
在这里插入图片描述
重启主机名就为centos01
在这里插入图片描述

创建资源目录/opt/modules/、/opt/software/

在这里插入图片描述

Java环境配置

卸载系统自带的JDK,后查询不到jdk相关文件

rpm -qa|grep java
sudo rpm -e --nodeps **

上传jdk到虚拟机文件目录下

在这里插入图片描述

将jdk安装包解压到/opt/modules/下

在这里插入图片描述

配置环境变量

打开 /opt/profile文件,在最下面添加下面的内容
打开的命令是:

sudo vi /etc/profile

修改后不要忘记保存
在这里插入图片描述
修改后为了快速令环境变量生效

应该使用命令:

source /etc/profile

检查是否安装成功

出现下面的java的版本号即为安装成功
在这里插入图片描述

由CentOS01克隆出CentOS02、CentOS03,并配置相关环境

克隆虚拟机CentOS02,CentOS03

克隆选项在Vm-虚拟机-管理,我们选择的是完整克隆。

在这里插入图片描述

配置主机名

同centos01(除最后的数字不同,2写02,3写03)

centos02
centos03

修改IP

同centos01(除了IP都写成不一样的,尽量是相连的数字)
centos02:192.168.74.131
centos03:192.168.74.132

配置主机ip映射

三台虚拟机分别打开/etc/hosts,追加三个ip和主机名

在这里插入图片描述
配置本地windows主机的ip映射

文件目录

C:\Windows\System32\drivers\etc\hosts

在这里插入图片描述

IP映射测试

在各个节点上进行测试
在这里插入图片描述
在cmd下分别测试三台虚拟机
在这里插入图片描述

集群配置无秘钥登录

无秘钥分两步!!!

创建密钥

分别在三个节点中执行以下命令

这里让你输入直接回车就OK。(除了输入虚拟机密码和yes)

ssh localhost
cd  ~/.ssh/
ssh-keygen –t rsa 

在这里插入图片描述

发送密钥

分别在三个节点中执行以下命令
可能需要输入密码

ssh-copy-id centos01
ssh-copy-id centos02
ssh-copy-id centos03

然后三台虚拟机就可以随便互相访问
进入命令为:

ssh 主机名

退出命令

exit

Hadoop环境配置

上传Hadoop 安装包

在这里插入图片描述

将hadoop安装包解压到/opt/modules/下

在这里插入图片描述

配置系统环境变量(centos01)

同jdk环境变量的文件目录
在这里插入图片描述
保存后,不要忘记令它立即生效

source /etc/profile

Hadoop添加jdk环境变量

向hadoop安装目录etc/hadoop下的hadoop-env.sh,mapred-env.sh,yarn-env.sh加入JAVA_HOME环境变量

在这里插入图片描述

配置HDFS

修改配置文件core-site.xml,加入以下内容:

<configuration>
         	<property>
             	<name>fs.defaultFS</name>
             	<value>hdfs://centos01:9000</value>
            </property>
            <property>
                <name>hadoop.tmp.dir</name>
                <value>file: /opt/modules/hadoop-2.8.5/tmp</value>
            </property>
    </configuration>

修改配置文件hdfs-site.xml,加入以下内容:

<configuration>
	<property>
        <name>dfs.replication</name>
        <value>2</value>
    </property>
    <property><!--不检查用户权限-->
        <name>dfs.permissions.enabled</name>
        <value>false</value>	
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/opt/modules/hadoop-2.8.5/tmp/dfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:/opt/modules/hadoop-2.8.5/tmp/dfs/data</value>
    </property>
</configuration>

修改slaves文件:

centos01
centos02
centos03

配置yarn

首先给文件更名

mv mapped-site.xml.template  mapred-site.xml

向mapred-site.xml文件加入下面的内容:

<configuration>
	<property>
		<name>mapreduce.framework.name</name>
		<value>yarn</value>
	</property>
</configuration>

向yarn-site.xml文件加入下面的内容:

<configuration>
	<property>
		<name>yarn.nodemanager.aux-services</name>
		<value>mapreduce_shuffle</value>
	</property>
</configuration>

复制hadoop安装文件到其他节点

这一步没成功的多数都是无秘钥登录没有配置好

scp -r hadoop-2.8.5/ hadoopacentos02: /opt/modules/
scp -r hadoop-2.8.5/ hadoopacentos03: /opt/modules/

格式化namenode

hadoop namenode-format

若能输出以下信息,说明格式化成功:
Storage directory /opt/modules/hadoop-2.8. 5/tmp/dfs/name has been successfully formatted

在这里插入图片描述

启动Hadoop

start-all.sh

在这里插入图片描述

使用jps命令,如果有下面的进程名代表启动成功:
命令:

jps

在这里插入图片描述

环境测试

hdfs命令测试

在这里插入图片描述

Live Nodes 访问测试(测试mapreduce):

打开浏览器,访问下面的网页:
http://centos01:50070

centos01也可以环境其ip,打开后,找到Live Nodes
在这里插入图片描述
进入链接后,发现有三个节点,如下图,即为测试成功!
在这里插入图片描述

Hadoop 命令

HDFS命令和Linux命令差不多,不同的地方是前面加上了hadoop fs,并且命令前都加上了“-”符号。

hdfs常见命令:

hadoop fs -ls /
以全路径的方式展示当前目录下及当前目录下所有子目录的全部文件,与linux系统下tree命令类似

hadoop fs -lsr /
显示目录下所有子目录或文件占用空间(逻辑空间)

hadoop fs -du /
显示该目录所占用的实际空间

hadoop fs -count -q /

hadoop fs -mv

hadoop fs -cp

hadoop fs -rm

hadoop fs -rm -skipTrash
不进入回收站直接删除

hadoop fs -rmr /
递归删除文件夹所有文件

hadoop fs -expunge
清空回收站

hadoop fs -put
被上传文件 /上传文件

一些环境配置的建议…

按步骤来搭建

无秘钥登录一定要三台虚拟机都生成密钥后,再传输密钥

要学会看log日志文件。

log文件很重要,有报错看才该高兴,报错都会记录在log文件内,不看log文件都不知道具体哪里出错。

要理解整个搭建过程和Hadoop体系

理解后,再进行搭建会比较简单。很多步骤都是前后有条理性的。
可以看看这篇文章:hadoop体系架构

权限管理很重要。

尽量不要使用root用户创建目录,不然权限管理很麻烦,当然,如果你只用root用户当我没说,但是以后工作可不一定给你root用户。

资源下载

CentOS镜像文件大大了,上传不了,只有这两个了。
Hadoop 、 jdk安装包
提取码: hhmr