Поиск по сайту:

Как установить Apache Spark на Debian 11


Это руководство существует для этих версий ОС

  • Debian 11 (Bullseye)
  • Debian 10 (Buster)

На этой странице

  1. Предпосылки
  2. Установить Java
  3. Установите Apache Spark
  4. Запустите Apache Spark
  5. Доступ к веб-интерфейсу Apache Spark
  6. Подключить Apache Spark через командную строку
  7. Остановить ведущий и подчиненный
  8. Заключение

Apache Spark — это бесплатная распределенная вычислительная среда общего назначения с открытым исходным кодом, созданная для обеспечения более быстрых результатов вычислений. Он поддерживает несколько API для потоковой передачи и обработки графов, включая Java, Python, Scala и R. Как правило, Apache Spark можно использовать в кластерах Hadoop, но вы также можете установить его в автономном режиме.

В этом руководстве мы покажем вам, как установить платформу Apache Spark в Debian 11.

Предпосылки

  • Сервер под управлением Debian 11.
  • На сервере настроен пароль root.

Установить Java

Apache Spark написан на Java. Поэтому Java должна быть установлена в вашей системе. Если он не установлен, вы можете установить его с помощью следующей команды:

apt-get install default-jdk curl -y

После установки Java проверьте версию Java с помощью следующей команды:

java --version

Вы должны получить следующий результат:

openjdk 11.0.12 2021-07-20
OpenJDK Runtime Environment (build 11.0.12+7-post-Debian-2)
OpenJDK 64-Bit Server VM (build 11.0.12+7-post-Debian-2, mixed mode, sharing)

Установить Апач Спарк

На момент написания этого руководства последняя версия Apache Spark — 3.1.2. Вы можете скачать его с помощью следующей команды:

wget https://dlcdn.apache.org/spark/spark-3.1.2/spark-3.1.2-bin-hadoop3.2.tgz

После завершения загрузки извлеките загруженный файл с помощью следующей команды:

tar -xvzf spark-3.1.2-bin-hadoop3.2.tgz

Затем переместите извлеченный каталог в /opt с помощью следующей команды:

mv spark-3.1.2-bin-hadoop3.2/ /opt/spark

Затем отредактируйте файл ~/.bashrc и добавьте переменную пути Spark:

nano ~/.bashrc

Добавьте следующие строки:

export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

Сохраните и закройте файл, затем активируйте переменную среды Spark с помощью следующей команды:

source ~/.bashrc

Запустите Apache Spark

Теперь вы можете запустить следующую команду, чтобы запустить главную службу Spark:

start-master.sh

Вы должны получить следующий результат:

starting org.apache.spark.deploy.master.Master, logging to /opt/spark/logs/spark-root-org.apache.spark.deploy.master.Master-1-debian11.out

По умолчанию Apache Spark прослушивает порт 8080. Вы можете проверить это с помощью следующей команды:

ss -tunelp | grep 8080

Вы получите следующий вывод:

tcp   LISTEN 0      1                                    *:8080             *:*    users:(("java",pid=24356,fd=296)) ino:47523 sk:b cgroup:/user.slice/user-0.slice/session-1.scope v6only:0 <->                                                                                                                                                                                                                                                                    

Затем запустите рабочий процесс Apache Spark с помощью следующей команды:

start-slave.sh spark://your-server-ip:7077

Доступ к веб-интерфейсу Apache Spark

Теперь вы можете получить доступ к веб-интерфейсу Apache Spark, используя URL-адрес http://your-server-ip:8080. Вы должны увидеть главную и подчиненную службы Apache Spark на следующем экране:

Нажмите на идентификатор работника. Вы должны увидеть подробную информацию о вашем работнике на следующем экране:

Подключить Apache Spark через командную строку

Если вы хотите подключиться к Spark через его командную оболочку, выполните следующие команды:

spark-shell

После подключения вы получите следующий интерфейс:

Spark session available as 'spark'.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 3.1.2
      /_/
         
Using Scala version 2.12.10 (OpenJDK 64-Bit Server VM, Java 11.0.12)
Type in expressions to have them evaluated.
Type :help for more information.

scala> 

Если вы хотите использовать Python в Spark. Вы можете использовать утилиту командной строки pyspark.

Сначала установите Python версии 2 с помощью следующей команды:

apt-get install python -y

После установки вы можете подключить Spark с помощью следующей команды:

pyspark

После подключения вы должны получить следующий вывод:

To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 3.1.2
      /_/

Using Python version 3.9.2 (default, Feb 28 2021 17:03:44)
Spark context Web UI available at http://debian11:4040
Spark context available as 'sc' (master = local[*], app id = local-1633769632964).
SparkSession available as 'spark'.
>>> 

Остановить мастер и раб

Сначала остановите подчиненный процесс с помощью следующей команды:

stop-slave.sh

Вы получите следующий вывод:

stopping org.apache.spark.deploy.worker.Worker

Затем остановите основной процесс с помощью следующей команды:

stop-master.sh

Вы получите следующий вывод:

stopping org.apache.spark.deploy.master.Master

Заключение

Поздравляем! вы успешно установили Apache Spark в Debian 11. Теперь вы можете использовать Apache Spark в своей организации для обработки больших наборов данных.