Hadoop3.1.2集群搭建及简单的排序,统计实现-创新互联

第一部分:Hadoop集群搭建

创新互联公司是专业的钦南网站建设公司,钦南接单;提供成都网站设计、网站制作,网页设计,网站设计,建网站,PHP网站建设等专业做网站服务;采用PHP框架,可快速的进行钦南网站开发网页制作和功能扩展;专业做搜索引擎喜爱的网站,专业的做网站团队,希望更多企业前来合作!

1. 安装虚拟机Vmware

基础的命令操作不细说,比如什么是根目录。。。。。

1.也可以从官网下载最新的VMware

2. 安装Linux系统

2.1 本教程用的是Linux为CentOS-7-x86,在VMware点击新建,安装CentOS-7-x86。

2.2 安装完成后,

进入root用户

开启网络

cd /etc/sysconfig/network-scripts

ls

找到第一个,我的是ifcfg-ens33,

然后vi ifcfg-ens33

将里面的ONBOOT的值由no改为yes。

重启网络service network restart

然后ping baidu.com能ping通就好了,ctrl c停止。

如果输入(ping baidu.com),能ping通,即可安装成功。

然后 cd ~回到根目录,安装tools

yum search ifconfig

yum install net-tools.x86_64

查看ip

ifconfig

2.3用XShell远程登陆

1.新建

2.主机号为查到的ip

3.点击确定,用root用户登录,即可成功。

(这时候就可以在XShell粘贴复制命令了)

3. 下载/安装jdk

3.配置jdk

接下来的操作都在XSshell6上操作,可以直接复制。

以下操作从根目录开始(如果不知道当前在哪里,先cd ~即可。

下载jdk

本文档有所有所需要的资料,可以选择性下载。(也可以官网可以自行下载)。

下载本文档所需要的安装包,xshell里点击xftp(ctrl+Alt+F),可以直接把window里的文件传到Linux里。

拖到根目录下。

解压jdk

tar -zxvf jdk-8u221-linux-x64.tar.gz -C /usr/local/

配置环境变量(还在根目录)

[1 ] 打开proflie文件

vi /etc/profile

[ 2] 将光标移动至文末(shift g可以到末尾),按i进入编辑模式,在文末添加以下内容

export JAVA_HOME=/usr/local/jdk1.8.0_221

export PATH=$PATH:$JAVA_HOME/bin

export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

[ 3] 按Esc键退出编辑,输入 :wq 保存并退出文件,执行以下内容使环境变量生效

source /etc/profile

[ 4] 检查jdk是否安装配置成功

java -version

出现java版本信息,则配置成功,例如

java version “1.8.0_221”

Java™ SE Runtime Environment (build 1.8.0_221-b11)

Java HotSpot™ 64-Bit Server VM (build 25.221-b11, mixed mode)

4. 配置Hadoop

4.配置Hadoop

[下载hadoop

本文档有所有所需要的资料,可以选择性下载。(也可以官网可以自行下载)。

下载本文档所需要的安装包,xshell里点击xftp(ctrl+Alt+F),可以直接把window里的文件传到Linux里。

拖到根目录下。

解压hadoop,解压到哪个目录可以自行选择,但是要知道路径,配置环境变量时需要

tar -zxvf hadoop-3.1.2.tar.gz -C /usr/local/

配置hadoop

[1 ] 配置环境变量

vi /etc/profile

按i进入编辑模式,在文末添加

export HADOOP_HOME=/usr/local/hadoop-3.1.2

export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

按Esc退出编辑,输入 :wq 保存并退出,执行以下内容使环境变量生效

source /etc/profile

[2 ] 配置hadoop-env.sh

切到/usr/local/hadoop-3.1.2/etc/hadoop目录下(2-6同在此目录下)

cd /usr/local/hadoop-3.1.2/etc/hadoop

进入hadoop-env.sh

vi hadoop-env.sh

找到 limitations under the License. 在其下一行添加

export JAVA_HOME=/usr/local/jdk1.8.0_181

按Esc,输入 :wq 保存并退出

[ 3] 配置core-site.xml,修改为以下内容,其中第5行 zz 改为自己的主机名

fs.defaultFS

hdfs://zz:9000

hadoop.tmp.dir

/usr/local/hadoop-3.1.2/data

[4 ] 配置yarn-site.xml,修改为以下内容,zz 均改为自己的主机名

yarn.resourcemanager.hostname

zz

yarn.resourcemanager.address

zz:8032

yarn.resourcemanager.scheduler.address

zz:8030

yarn.resourcemanager.resource-tracker.address

zz:8031

yarn.resourcemanager.admin.address

zz:8033

yarn.resourcemanager.webapp.address

zz:8088

yarn.nodemanager.aux-services

mapreduce_shuffle

[ 5] 配置hdfs-site.xml,修改为以下内容

dfs.replication

1

[6] 配置mapred-site.xml,修改为以下内容

mapreduce.framework.name

yarn

[7 ] 配置start-dfs.sh和stop-dfs.sh

切到/usr/local/hadoop-3.1.2/sbin目录(7-8在此目录)

cd /usr/local/hadoop-3.1.2/sbin

在start-dfs.sh,stop-dfs.sh第二行添加以下内容,因为是root登录的,不配置会出现错误

HDFS_DATANODE_USER=root

HDFS_DATANODE_SECURE_USER=hdfs

HDFS_NAMENODE_USER=root

HDFS_SECONDARYNAMENODE_USER=root

[8 ] 配置start-yarn.sh,stop-yarn.sh,在第二行添加以下内容

YARN_RESOURCEMANAGER_USER=root

HADOOP_SECURE_DN_USER=yarn

YARN_NODEMANAGER_USER=root

5. 设置免密钥登录

5.免密钥登录

[1 ] 创建公钥/私钥,一路回车

ssh-keygen -t rsa

[ 2] 创建authorized_keys文件并修改权限为600

cd ~/.ssh无锡妇科医院排行 http://www.0510bhyy.com/

touch authorized_keys

chmod 600 authorized_keys

[ 3] 将公钥追加到authorized_keys文件中

cat id_rsa.pub >> authorized_keys

尝试能否免密登录,能登陆就成功了,尝试后,输入exit退出

ssh 自己的主机名

6. 防火墙

6.防火墙

[ 1] 查看防火墙状态

firewall-cmd --state

[ 2] 关闭防火墙

systemctl stop firewalld.service

[3 ] 禁止开机时防火墙自启

systemctl disable firewalld.service

7. 启动Hadoop

7.启动Hadoop

[ 1] 格式化hadoop,不要多次格式化,多次格式化会导致DataNode无法正常启动

hadoop namenode -format

[2] 启动&停止hadoop

start-all.sh

stop-all.sh

启动以后可以输入jps,看有没有下面这些进程

[root@zz .ssh]# jps

8467 NodeManager

7860 NameNode

7973 DataNode

8589 Jps

8127 SecondaryNameNode

8351 ResourceManager

有的话就表示配置成功!

第二部分:用MapReduce解决数据排序

8. 搭建Hadoop-3.1.2-eclipse环境

9. 在eclipse上编译MapReduce程序

10. 打包程序,创建测试文本

11. 应用MapReduce进行数据排序

另外有需要云服务器可以了解下创新互联cdcxhl.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。


新闻标题:Hadoop3.1.2集群搭建及简单的排序,统计实现-创新互联
网页地址:http://scyanting.com/article/cdpjjp.html