Как установить и настроить Apache Hadoop на одном узле в CentOS 7

Apache Hadoop — это сборка платформы с открытым исходным кодом для распределенного хранения и обработки больших данных в компьютерных кластерах. Проект основан на следующих компонентах:

Hadoop Common – содержит библиотеки и утилиты Java, необходимые для других модулей Hadoop.
HDFS – Распределенная файловая система Hadoop – Масштабируемая файловая система на основе Java, распределенная по нескольким узлам.
MapReduce – платформа YARN для параллельной обработки больших данных.
Hadoop YARN: платформа для управления ресурсами кластера.

В этой статье рассказывается, как установить Apache Hadoop в кластере с одним узлом в CentOS 7 (также работает для RHEL 7 и Fedora 23+ ). версии). Этот тип конфигурации также называется псевдораспределенным режимом Hadoop.

Шаг 1. Установите Java на CentOS 7.

1. Прежде чем приступить к установке Java, сначала войдите в систему под пользователем root или пользователь с привилегиями root настройте имя хоста вашего компьютера с помощью следующей команды.

hostnamectl set-hostname master

Кроме того, добавьте новую запись в файл хостов с полным доменным именем вашего компьютера, чтобы указать на IP-адрес вашей системы.

vi /etc/hosts

Добавьте строку ниже:

192.168.1.41 master.hadoop.lan

Замените указанные выше записи имени хоста и полного доменного имени своими собственными настройками.

2. Затем перейдите на страницу загрузки Oracle Java и скачайте последнюю версию Java SE Development Kit 8 в своей системе с помощью curl. команда:

curl -LO -H "Cookie: oraclelicense=accept-securebackup-cookie" “http://download.oracle.com/otn-pub/java/jdk/8u92-b14/jdk-8u92-linux-x64.rpm”

3. После завершения загрузки двоичного файла Java установите пакет, введя следующую команду:

rpm -Uvh jdk-8u92-linux-x64.rpm

Шаг 2. Установите Hadoop Framework в CentOS 7.

4. Затем создайте в своей системе новую учетную запись пользователя без полномочий root, которую мы будем использовать для пути установки Hadoop и рабочей среды. Домашний каталог новой учетной записи будет находиться в каталоге /opt/hadoop.

useradd -d /opt/hadoop hadoop
passwd hadoop

5. На следующем шаге посетите страницу Apache Hadoop, чтобы получить ссылку на последнюю стабильную версию и загрузить архив в свою систему.

curl -O http://apache.javapipe.com/hadoop/common/hadoop-2.7.2/hadoop-2.7.2.tar.gz

6. Распакуйте архив и скопируйте содержимое каталога по домашнему пути учетной записи Hadoop. Кроме того, убедитесь, что вы соответствующим образом изменили разрешения для скопированных файлов.

 tar xfz hadoop-2.7.2.tar.gz
cp -rf hadoop-2.7.2/* /opt/hadoop/
chown -R hadoop:hadoop /opt/hadoop/

7. Затем войдите в систему под учетной записью пользователя hadoop и настройте Hadoop и переменные среды Java в своей системе, отредактировав 7..bash_profile.

su - hadoop
vi .bash_profile

Добавьте следующие строки в конец файла:

## JAVA env variables
export JAVA_HOME=/usr/java/default
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/jre/lib:$JAVA_HOME/lib:$JAVA_HOME/lib/tools.jar

## HADOOP env variables
export HADOOP_HOME=/opt/hadoop
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

8. Теперь инициализируйте переменные среды и проверьте их статус, выполнив следующие команды:

source .bash_profile
echo $HADOOP_HOME
echo $JAVA_HOME

9. Наконец, настройте аутентификацию на основе ssh-ключа для учетной записи hadoop, выполнив приведенные ниже команды (замените имя хоста или FQDN). > против команды ssh-copy-id соответственно).

Кроме того, оставьте поле пароль пустым, чтобы автоматически входить в систему через ssh.

ssh-keygen -t rsa
ssh-copy-id master.hadoop.lan