Как установить вычислительную среду Apache Spark Cluster в Debian 10

Это руководство существует для этих версий ОС

Debian 11 (Bullseye)
Debian 10 (Buster)

На этой странице

Предпосылки
Начало работы
Установить Java
Загрузить Apache Spark
Запустите главный сервер
Запуск рабочего процесса Spark
Доступ к Spark Shell

Apache Spark — это бесплатная среда кластерных вычислений с открытым исходным кодом, используемая для аналитики, машинного обучения и обработки графиков на больших объемах данных. Spark поставляется с более чем 80 операторами высокого уровня, которые позволяют создавать параллельные приложения и использовать их в интерактивном режиме из оболочек Scala, Python, R и SQL. Это молниеносный механизм обработки данных в памяти, специально разработанный для науки о данных. Он предоставляет богатый набор функций, включая скорость, отказоустойчивость, потоковую обработку в реальном времени, вычисления в памяти, расширенную аналитику и многое другое.

В этом руководстве мы покажем вам, как установить Apache Spark на сервер Debian 10.

Предпосылки

Сервер под управлением Debian 10 с 2 ГБ ОЗУ.
На вашем сервере настроен пароль root.

Начиная

Перед запуском рекомендуется обновить ваш сервер до последней версии. Вы можете обновить его с помощью следующей команды:

apt-get update -y
 apt-get upgrade -y

Как только ваш сервер будет обновлен, перезапустите его, чтобы изменения вступили в силу.

Установить Java

Apache Spark написан на языке Java. Поэтому вам нужно будет установить Java в вашей системе. По умолчанию последняя версия Java доступна в репозитории по умолчанию Debian 10. Вы можете установить его с помощью следующей команды:

apt-get install default-jdk -y

После установки Java проверьте установленную версию Java с помощью следующей команды:

java --version

Вы должны получить следующий результат:

openjdk 11.0.5 2019-10-15
OpenJDK Runtime Environment (build 11.0.5+10-post-Debian-1deb10u1)
OpenJDK 64-Bit Server VM (build 11.0.5+10-post-Debian-1deb10u1, mixed mode, sharing)

Скачать Apache Spark

Во-первых, вам нужно будет загрузить последнюю версию Apache Spark с официального сайта. На момент написания этой статьи последняя версия Apache Spark — 3.0. Вы можете загрузить его в каталог /opt с помощью следующей команды:

cd /opt
 wget http://apachemirror.wuchna.com/spark/spark-3.0.0-preview2/spark-3.0.0-preview2-bin-hadoop2.7.tgz

После завершения загрузки извлеките загруженный файл с помощью следующей команды:

tar -xvzf spark-3.0.0-preview2-bin-hadoop2.7.tgz

Затем переименуйте извлеченный каталог в spark, как показано ниже:

mv spark-3.0.0-preview2-bin-hadoop2.7 spark

Далее вам нужно будет установить среду для Spark. Вы можете сделать это, отредактировав файл ~/.bashrc:

nano ~/.bashrc

Добавьте в конец файла следующие строки:

export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

Сохраните и закройте файл, когда закончите. Затем активируйте среду с помощью следующей команды:

source ~/.bashrc

Запустите главный сервер

Теперь вы можете запустить главный сервер с помощью следующей команды:

start-master.sh

Вы должны получить следующий результат:

starting org.apache.spark.deploy.master.Master, logging to /opt/spark/logs/spark-root-org.apache.spark.deploy.master.Master-1-debian10.out

По умолчанию Apache Spark прослушивает порт 8080. Вы можете проверить это с помощью следующей команды:

netstat -ant | grep 8080

Вывод:

tcp6       0      0 :::8080                 :::*                    LISTEN

Теперь откройте веб-браузер и введите URL-адрес http://server-ip-address:8080. Вы должны увидеть следующую страницу:

Запишите URL-адрес Spark \spark://debian10:7077\ из приведенного выше изображения. Это будет использоваться для запуска рабочего процесса Spark.

Запустить рабочий процесс Spark

Теперь вы можете запустить рабочий процесс Spark с помощью следующей команды:

start-slave.sh spark://debian10:7077

Вы должны получить следующий результат:

starting org.apache.spark.deploy.worker.Worker, logging to /opt/spark/logs/spark-root-org.apache.spark.deploy.worker.Worker-1-debian10.out

Доступ к Spark Shell

Spark Shell — это интерактивная среда, предоставляющая простой способ изучения API и интерактивного анализа данных. Вы можете получить доступ к оболочке Spark с помощью следующей команды:

spark-shell

Вы должны увидеть следующий вывод:

WARNING: An illegal reflective access operation has occurred
WARNING: Illegal reflective access by org.apache.spark.unsafe.Platform (file:/opt/spark/jars/spark-unsafe_2.12-3.0.0-preview2.jar) to constructor java.nio.DirectByteBuffer(long,int)
WARNING: Please consider reporting this to the maintainers of org.apache.spark.unsafe.Platform
WARNING: Use --illegal-access=warn to enable warnings of further illegal reflective access operations
WARNING: All illegal access operations will be denied in a future release
19/12/29 15:53:11 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
Spark context Web UI available at http://debian10:4040
Spark context available as 'sc' (master = local[*], app id = local-1577634806690).
Spark session available as 'spark'.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 3.0.0-preview2
      /_/
         
Using Scala version 2.12.10 (OpenJDK 64-Bit Server VM, Java 11.0.5)
Type in expressions to have them evaluated.
Type :help for more information.

scala>

Отсюда вы можете узнать, как максимально быстро и удобно использовать Apache Spark.

Если вы хотите остановить сервер Spark Master и Slave, выполните следующие команды:

stop-slave.sh
 stop-master.sh

Вот и все, вы успешно установили Apache Spark на сервер Debian 10. Для получения дополнительной информации вы можете обратиться к официальной документации Spark в Spark Doc.