Hadoop安装指南
本文最后更新于:几秒前
Hadoop一步完成安装指南
本博客部分参考于 Hadoop集群安装和搭建(全面超详细的过程)_小汤TYT的博客-CSDN博客_hadoop环境搭建与安装并稍有修改。
Hadoop是一个开源的、可运行与Linux集群上的分布式计算平台,用户可借助Hadoop存有基础环境的配置(虚拟机安装、Linux安装等),Hadoop集群搭建,配置和测试。可以借用Hadoop实现高效化的集群环境的搭建与分布式计算。
以下是hadoop的安装步骤:
VMware的安装
这个不再本博客再赘述了,大家可以参考此博客:
虚拟机安装
首先到镜像网站将Linux系统的镜像包下载下来,这里使用的是CentOS7(mini)的安装包
centos-7-isos-x86_64安装包下载_开源镜像站-阿里云 (aliyun.com)
安装虚拟机
点击【Vmware->文件->新建虚拟机】
安装程序光盘映像文件。
这里需要定向到刚刚下载的iso文件。
修改名称与安装位置
分配内存。
一般是默认系统的安装内存(20G),我的电脑内存剩余太小了,怕炸掉所以用了10G,注意选择将虚拟磁盘拆分成多个文件。
完成之后点击配置,即可以看到现有的系统配置,可以选择默认配置,下一步。
点击完成就结束了单个虚拟机的硬件安装过程。
运行CentOS系统,开始安装系统软件
选择时区为上海,语言为中文
配置系统网络并连接
注意设置主机名
点击开始安装,设置用户名和密码,不创建用户(默认为root)。
完成安装,重启。
使用root账户【用户名:root;密码为自设密码】登录系统
使用ping指令测试一下网络是否联通
地址配置
安装net-tools工具
net-tools工具可以便于之后操作网络地址信息
1 |
|
查看MAC物理地址和ip地址范围
1 |
|
将【enter】后面的mac地址记录下来,之后用到。
然后点击当前虚拟机下的网络编辑器,【编辑->虚拟网络编辑器】,选择NAT模式下的VMnet8网络,点击【DHCP配置】
这里的起始和结束地址就是虚拟机的公用地址范围,可以默认将【192.168.XX.131】记下来作为hadoop1的ip地址,如我这里就是【192.168.47.131】。
修改网络配置文件
进入网络配置文件,修改之
1 |
|
修改BOOTPROTO的镜像模式为”static”,若ONBOOT为=”no”则修改为”yes”,然后在配置文件后加入下面的配置信息
1 |
|
重启网络和系统,然后查看是否配置成功
1 |
|
虚拟机克隆
完成单个虚拟机的配置之后,将虚拟机克隆两次,并另外命名为hadoop2和hadoop3,作为数据节点。
克隆
右键hadoop1虚拟机,【管理->克隆】,注意创建完整克隆
二次地址配置
完成克隆之后,需要按照第一个虚拟机的方法再次进行两次地址配置,这里不再赘述过程,放出来图片供大家参考
1 |
|
1 |
|
1 |
|
免密登录
为了以免之后主机链接客机的时候每次都得填密码(那会累死的),设置一下ssh的免密登录。
修改hosts文件
首先修改hosts文件的配置,将主机和客机都加进去
1 |
|
生成密钥文件
1 |
|
回车三次即可,如果是已有密钥文件,回车四次。
复制密钥
将本机公钥文件复制到其它虚拟机上(接收方需先开机),在三个主机上都需要分别输入下列复制文件,保证三台主机都能够免密登录。
1 |
|
使用ssh指令测试一下是否成功
1 |
|
安装Hadoop和JDK
首先在每个主机下创建三个文件夹,data用于存数据、servers用于存储服务器配置、software用于存储软件包等。
1 |
|
下载安装包
推荐使用更为稳定的hadoop-2.7.4版本和jdk8。
hadoop-2.7.4.tar.gz :Apache Hadoop
jdk-8u161-linux-x64.tar.gz :Java Archive Downloads - Java SE 8 (oracle.com)
安装Xshell
安装Xshell软件,这个软件能够方便的进行多主机协同,相对于虚拟机在UI和功能上更为友好。
家庭/学校免费 - NetSarang Website (xshell.com),直接用免费的就好,然后和普通软件一样下一步*n。
配置Xshell中的节点环境
打开Xshell后点击文件并选择新建,名称填hadoop1,主机填写hadoop1的IP地址。
再点击用户身份验证,把hadoop1的账号,密码输入,就可以通过Xshell控制虚拟机,方便后续软件的传输。
重复步骤新建会话控制hadoop2,hadoop3。
上传文件(以hadoop1为例)
安装一个插件方便上传文件,提供资源管理器的UI
1 |
|
rz指令之后会进入资源管理器,将hadoop文件和jdk文件上传到系统中
之后解压hadoop和jdk的压缩包到software文件夹下。
1 |
|
软件配置(以hadoop1为例)
将hadoop和jdk的配置信息加到全局配置中
1 |
|
1 |
|
更新配置文件使之生效
1 |
|
这样就完成了两个软件的配置,可以分别使用java -version
和hadoop version
查看是否成功安装。
上述两个小步骤需要在hadoop2和hadoop3分别完成。
Hadoop集群配置
(vi编辑器:i为编辑模式,esc为退出编辑模式,:wq为保存并退出)
首先进入主节点hadoop1的配置目录
1 |
|
java地址配置
修改hadoop中对于java环境地址的配置
1 |
|
核心配置文件
修改core-site.xml文件
1 |
|
1 |
|
修改hdfs-site.xml文件,其中hdfs的每个部分的含义可以参见以下链接。
hadoop配置文件详解系列(二)-hdfs-site.xml篇 - 程序员姜小白 - 博客园 (cnblogs.com)
1 |
|
1 |
|
附属配置文件
修改mapred-site.xml文件。
1 |
|
1 |
|
修改yarn-site.xml文件
1 |
|
1 |
|
节点配置
修改slaves文件
1 |
|
复制配置到子结点
将主节点中配置好的文件和hadoop目录copy给子节点,其中主节点为hadoop1,子结点为hadoop2和hadoop3。
1 |
|
去到hadoop2和hadoop3主机中,使新传过来的配置信息生效
1 |
|
格式化文件系统
在主节点格式化文件系统,初始化hadoop的文件系统配置。如图片中的红框,给出【successfully formatted】即代表已经成功格式化文件系统。
1 |
|
集群启动
启动进程
在主节点启动dfs和yarn服务进程
1 |
|
在主节点会显示ResourceManager(Yarn)、Namenode(主节点)、NodeManager(Hadoop)、在次主节点会显示SecondaryNamenode。
关闭进程可以使用stop进程
1 |
|
关闭防火墙(所有虚拟机都要操作)
1 |
|
本次配置
打开window下的【C:\Windows\System32\drivers\etc】,以管理员权限打开hosts文件,在文件末添加三行代码:
1 |
|
在windows系统下访问http://hadoop1:50070,即可查看hdfs集群状态;访问http://hadoop1:8088,查看Yarn集群状态。
这样就完成了整个hadoop文件系统的配置,个人觉得比较麻烦,需要一步步很细节的去完成。