Как установить и настроить Apache Hadoop на одном узле в CentOS 7
Apache Hadoop — это сборка платформы с открытым исходным кодом для распределенного хранения и обработки больших данных в компьютерных кластерах. Проект основан на следующих компонентах:
- Hadoop Common – содержит библиотеки и утилиты Java, необходимые для других модулей Hadoop.
- HDFS – Распределенная файловая система Hadoop – Масштабируемая файловая система на основе Java, распределенная по нескольким узлам.
- MapReduce – платформа YARN для параллельной обработки больших данных.
- Hadoop YARN: платформа для управления ресурсами кластера.
В этой статье рассказывается, как установить Apache Hadoop в кластере с одним узлом в CentOS 7 (также работает для RHEL 7 и Fedora 23+ ). версии). Этот тип конфигурации также называется псевдораспределенным режимом Hadoop.
Шаг 1. Установите Java на CentOS 7.
1. Прежде чем приступить к установке Java, сначала войдите в систему под пользователем root или пользователь с привилегиями root настройте имя хоста вашего компьютера с помощью следующей команды.
hostnamectl set-hostname master
Кроме того, добавьте новую запись в файл хостов с полным доменным именем вашего компьютера, чтобы указать на IP-адрес вашей системы.
vi /etc/hosts
Добавьте строку ниже:
192.168.1.41 master.hadoop.lan
Замените указанные выше записи имени хоста и полного доменного имени своими собственными настройками.
2. Затем перейдите на страницу загрузки Oracle Java и скачайте последнюю версию Java SE Development Kit 8 в своей системе с помощью curl. команда:
curl -LO -H "Cookie: oraclelicense=accept-securebackup-cookie" “http://download.oracle.com/otn-pub/java/jdk/8u92-b14/jdk-8u92-linux-x64.rpm”
3. После завершения загрузки двоичного файла Java установите пакет, введя следующую команду:
rpm -Uvh jdk-8u92-linux-x64.rpm
Шаг 2. Установите Hadoop Framework в CentOS 7.
4. Затем создайте в своей системе новую учетную запись пользователя без полномочий root, которую мы будем использовать для пути установки Hadoop и рабочей среды. Домашний каталог новой учетной записи будет находиться в каталоге /opt/hadoop
.
useradd -d /opt/hadoop hadoop
passwd hadoop
5. На следующем шаге посетите страницу Apache Hadoop, чтобы получить ссылку на последнюю стабильную версию и загрузить архив в свою систему.
curl -O http://apache.javapipe.com/hadoop/common/hadoop-2.7.2/hadoop-2.7.2.tar.gz
6. Распакуйте архив и скопируйте содержимое каталога по домашнему пути учетной записи Hadoop. Кроме того, убедитесь, что вы соответствующим образом изменили разрешения для скопированных файлов.
tar xfz hadoop-2.7.2.tar.gz
cp -rf hadoop-2.7.2/* /opt/hadoop/
chown -R hadoop:hadoop /opt/hadoop/
7. Затем войдите в систему под учетной записью пользователя hadoop и настройте Hadoop и переменные среды Java в своей системе, отредактировав 7..bash_profile.
su - hadoop
vi .bash_profile
Добавьте следующие строки в конец файла:
## JAVA env variables
export JAVA_HOME=/usr/java/default
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/jre/lib:$JAVA_HOME/lib:$JAVA_HOME/lib/tools.jar
## HADOOP env variables
export HADOOP_HOME=/opt/hadoop
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
8. Теперь инициализируйте переменные среды и проверьте их статус, выполнив следующие команды:
source .bash_profile
echo $HADOOP_HOME
echo $JAVA_HOME
9. Наконец, настройте аутентификацию на основе ssh-ключа для учетной записи hadoop, выполнив приведенные ниже команды (замените имя хоста или FQDN). > против команды ssh-copy-id
соответственно).
Кроме того, оставьте поле пароль пустым, чтобы автоматически входить в систему через ssh.
ssh-keygen -t rsa
ssh-copy-id master.hadoop.lan