Как установить Apache Spark на Debian 11

Это руководство существует для этих версий ОС

Debian 11 (Bullseye)
Debian 10 (Buster)

На этой странице

Предпосылки
Установить Java
Установите Apache Spark
Запустите Apache Spark
Доступ к веб-интерфейсу Apache Spark
Подключить Apache Spark через командную строку
Остановить ведущий и подчиненный
Заключение

Apache Spark — это бесплатная распределенная вычислительная среда общего назначения с открытым исходным кодом, созданная для обеспечения более быстрых результатов вычислений. Он поддерживает несколько API для потоковой передачи и обработки графов, включая Java, Python, Scala и R. Как правило, Apache Spark можно использовать в кластерах Hadoop, но вы также можете установить его в автономном режиме.

В этом руководстве мы покажем вам, как установить платформу Apache Spark в Debian 11.

Предпосылки

Сервер под управлением Debian 11.
На сервере настроен пароль root.

Установить Java

Apache Spark написан на Java. Поэтому Java должна быть установлена в вашей системе. Если он не установлен, вы можете установить его с помощью следующей команды:

apt-get install default-jdk curl -y

После установки Java проверьте версию Java с помощью следующей команды:

java --version

Вы должны получить следующий результат:

openjdk 11.0.12 2021-07-20
OpenJDK Runtime Environment (build 11.0.12+7-post-Debian-2)
OpenJDK 64-Bit Server VM (build 11.0.12+7-post-Debian-2, mixed mode, sharing)

Установить Апач Спарк

На момент написания этого руководства последняя версия Apache Spark — 3.1.2. Вы можете скачать его с помощью следующей команды:

wget https://dlcdn.apache.org/spark/spark-3.1.2/spark-3.1.2-bin-hadoop3.2.tgz

После завершения загрузки извлеките загруженный файл с помощью следующей команды:

tar -xvzf spark-3.1.2-bin-hadoop3.2.tgz

Затем переместите извлеченный каталог в /opt с помощью следующей команды:

mv spark-3.1.2-bin-hadoop3.2/ /opt/spark

Затем отредактируйте файл ~/.bashrc и добавьте переменную пути Spark:

nano ~/.bashrc

Добавьте следующие строки:

export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

Сохраните и закройте файл, затем активируйте переменную среды Spark с помощью следующей команды:

source ~/.bashrc

Запустите Apache Spark

Теперь вы можете запустить следующую команду, чтобы запустить главную службу Spark:

start-master.sh

Вы должны получить следующий результат:

starting org.apache.spark.deploy.master.Master, logging to /opt/spark/logs/spark-root-org.apache.spark.deploy.master.Master-1-debian11.out

По умолчанию Apache Spark прослушивает порт 8080. Вы можете проверить это с помощью следующей команды:

ss -tunelp | grep 8080

Вы получите следующий вывод:

tcp   LISTEN 0      1                                    *:8080             *:*    users:(("java",pid=24356,fd=296)) ino:47523 sk:b cgroup:/user.slice/user-0.slice/session-1.scope v6only:0 <->

Затем запустите рабочий процесс Apache Spark с помощью следующей команды:

start-slave.sh spark://your-server-ip:7077

Доступ к веб-интерфейсу Apache Spark

Теперь вы можете получить доступ к веб-интерфейсу Apache Spark, используя URL-адрес http://your-server-ip:8080. Вы должны увидеть главную и подчиненную службы Apache Spark на следующем экране:

Нажмите на идентификатор работника. Вы должны увидеть подробную информацию о вашем работнике на следующем экране:

Подключить Apache Spark через командную строку

Если вы хотите подключиться к Spark через его командную оболочку, выполните следующие команды:

spark-shell

После подключения вы получите следующий интерфейс:

Spark session available as 'spark'.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 3.1.2
      /_/
         
Using Scala version 2.12.10 (OpenJDK 64-Bit Server VM, Java 11.0.12)
Type in expressions to have them evaluated.
Type :help for more information.

scala>

Если вы хотите использовать Python в Spark. Вы можете использовать утилиту командной строки pyspark.

Сначала установите Python версии 2 с помощью следующей команды:

apt-get install python -y

После установки вы можете подключить Spark с помощью следующей команды:

pyspark

После подключения вы должны получить следующий вывод:

To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 3.1.2
      /_/

Using Python version 3.9.2 (default, Feb 28 2021 17:03:44)
Spark context Web UI available at http://debian11:4040
Spark context available as 'sc' (master = local[*], app id = local-1633769632964).
SparkSession available as 'spark'.
>>>

Остановить мастер и раб

Сначала остановите подчиненный процесс с помощью следующей команды:

stop-slave.sh

Вы получите следующий вывод:

stopping org.apache.spark.deploy.worker.Worker

Затем остановите основной процесс с помощью следующей команды:

stop-master.sh

Вы получите следующий вывод:

stopping org.apache.spark.deploy.master.Master

Заключение

Поздравляем! вы успешно установили Apache Spark в Debian 11. Теперь вы можете использовать Apache Spark в своей организации для обработки больших наборов данных.