如何快速构建可用的hadoop

秘密课程 2024-04-22 06:48:33



无论我们是工作、生活,还是出行,都离不开大数据,大数据不仅可以方便我们的生产、生活,同时还可以保护我们的资金安全。这些都离不开庞大的数据分析和数据推理能力,要想实现数据回归和分类能力,就要求数据量足够大、同时服务器要有足够的存储能力和处理能力。要满足这些条件的话,就要去学习和认识大数据技术了。

首先要学习大数据技术、就要去了解什么是大数据?从字面来理解的话,就是数据量非常大、大到超过我们的认知。这样理解其实也没错,但是认识的面有点窄了,认识大数据应该从它的4v特征出发:

规模性(Volume) 大数据中的数据计量单位是PB(1千个T)、EB(1百万个T)或ZB(10亿个T)。

多样性(Variety) 多样性主要体现在数据来源多、数据类型多和数据之间关联性强这三个方面。

高速性(Velocity) 大数据对处理数据的响应速度有更严格的要求。实时分析而非批量分析,数据输入、处理与丢弃立刻见效,几乎无延迟。数据的增长速度和处理速度是大数据高速性的重要体现。

价值性(Value) 大数据背后潜藏的价值巨大。由于大数据中有价值的数据所占比例很小,而大数据真正的价值体现在从大量不相关的各种类型的数据中。挖掘出对未来趋势与模式预测分析有价值的数据,并通过机器学习方法人工智能方法或数据挖掘方法深度分析,并运用于农业、金融、医疗等各个领域,以期创造更大的价值。

只有满足上述4v特征,才能被称为是大数据,学习大数据普通人而言,只需要了解工具和如何使用即可,作为行业内从业者就要了解大数据相关的论文、开源项目了,当然第一步就是要搭建基础大数据的平台,那让我们一起去学习如何构建hadoop吧。

构建基础版的hadoop平台,可以基于CenOS进行安装、也可以在VM虚拟机里面进行安装,本文为了以后更好的搭建分布式的hadoop平台的搭建,直接在docker中进行安装和使用。

快速构建hadoop平台

因为我们是基于CenOS8进行安装的,所以直接从docker中拉去CenOS8这个版本

docker pull centos:8 # 拉取CenOS8版本docker images # 查看是否有对应的镜像

然后,我们创建一个容器:

docker run -d centos:8 /usr/sbin/init # 创建一个容器

通过 docker ps 可以查看运行中的容器:

docker ps

配置 Java 与 SSH 环境

现在创建一个容器,名为 java_ssh_proto,用于配置一个包含 Java 和 SSH 的环境:

docker run -d --name=java_ssh_proto --privileged centos:8 /usr/sbin/init

然后进入容器:

docker exec -it java_ssh_proto bash

由于CentOS下载源,不是最新的,所以需要更新到最新的版本上,操作的主要思路为: 在不删除源文件的基础上,将源文件备份 下载最新centos8国内的yum源文件 * 更换地址

进入root,切换至yum.repos.d目录

cd /etc/yum.repos.d

创建新文件夹并将源文件备份为repo.bak

mkdir backup && mv *repo backup/

下载国内yum源文件

curl -o /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyun.com/repo/Centos-8.repo

更新下载yum源地址

sed -i -e"s|mirrors.cloud.aliyuncs.com|mirrors.aliyun.com|g " /etc/yum.repos.d/CentOS-*sed -i -e "s|releasever|releasever-stream|g" /etc/yum.repos.d/CentOS-*

生成缓存

yum clean all && yum makecache

安装 OpenJDK 8 和 SSH 服务:

yum install -y java-1.8.0-openjdk-devel openssh-clients openssh-server

然后启用 SSH 服务:

systemctl enable sshd && systemctl start sshd

到这里为止,如果没有出现任何故障,一个包含 Java 运行环境和 SSH 环境的原型容器就被创建好了。这是一个非常关键的容器,建议大家在这里先在容器中用 exit 命令退出容器,然后运行以下下两条命令停止容器,并保存为一个名为 java_ssh 的镜像:

docker stop java_ssh_proto docker commit java_ssh_proto java_sshHadoop 安装下载 Hadoop

Hadoop 官网地址:http://hadoop.apache.org/ Hadoop 发行版本下载:https://hadoop.apache.org/releases.html

创建 Hadoop 单机容器docker run -d --name=hadoop-single --privileged java_ssh /usr/sbin/init

将下载好的 hadoop 压缩包拷贝到容器中的 /root 目录下:

docker cp hadoop-3.3.6.tar.gz hadoop-single:/root/

进入容器:

docker exec -it hadoop-single bash

进入 /root 目录:

cd /root

这里应该存放着刚刚拷贝过来的 hadoop-x.x.x.tar.gz 文件,现在解压它:

tar -zxvf hadoop-3.3.6.tar.gz

解压后将得到一个文件夹 hadoop-3.1.4,现在把它拷贝到一个常用的地方:

mv hadoop-3.1.4 /usr/local/hadoop

然后配置环境变量:

cd /etcvi bashrc

填入

export HADOOP_HOME=/usr/local/hadoopexport HADOOP_MAPRED_HOME=$HADOOP_HOMEexport HADOOP_COMMON_HOME=$HADOOP_HOMEexport HADOOP_HDFS_HOME=$HADOOP_HOMEexport YARN_HOME=$HADOOP_HOMEexport HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/nativeexport HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

然后保存,执行source bashrc.然后执行以下命令判断是否成功:

hadoop version

如果显示上图所示,证明已经安装成功,你可以继续学习HDFS、YARN、MapReduce等相关的知识了,很多教程和博客在安装的时候,环境变量这块介绍的不是很清楚,这里是个完整的项目,从基础安装到知识梳理、大数据相关知识介绍和项目开发的一系列的流程。

0 阅读:30