Как установить Apache Spark на Debian 11
Это руководство существует для этих версий ОС
- Debian 11 (Bullseye)
- Debian 10 (Buster)
На этой странице
- Предпосылки
- Установить Java
- Установите Apache Spark
- Запустите Apache Spark
- Доступ к веб-интерфейсу Apache Spark
- Подключить Apache Spark через командную строку
- Остановить ведущий и подчиненный
- Заключение
Apache Spark — это бесплатная распределенная вычислительная среда общего назначения с открытым исходным кодом, созданная для обеспечения более быстрых результатов вычислений. Он поддерживает несколько API для потоковой передачи и обработки графов, включая Java, Python, Scala и R. Как правило, Apache Spark можно использовать в кластерах Hadoop, но вы также можете установить его в автономном режиме.
В этом руководстве мы покажем вам, как установить платформу Apache Spark в Debian 11.
Предпосылки
- Сервер под управлением Debian 11.
- На сервере настроен пароль root.
Установить Java
Apache Spark написан на Java. Поэтому Java должна быть установлена в вашей системе. Если он не установлен, вы можете установить его с помощью следующей команды:
apt-get install default-jdk curl -y
После установки Java проверьте версию Java с помощью следующей команды:
java --version
Вы должны получить следующий результат:
openjdk 11.0.12 2021-07-20 OpenJDK Runtime Environment (build 11.0.12+7-post-Debian-2) OpenJDK 64-Bit Server VM (build 11.0.12+7-post-Debian-2, mixed mode, sharing)
Установить Апач Спарк
На момент написания этого руководства последняя версия Apache Spark — 3.1.2. Вы можете скачать его с помощью следующей команды:
wget https://dlcdn.apache.org/spark/spark-3.1.2/spark-3.1.2-bin-hadoop3.2.tgz
После завершения загрузки извлеките загруженный файл с помощью следующей команды:
tar -xvzf spark-3.1.2-bin-hadoop3.2.tgz
Затем переместите извлеченный каталог в /opt с помощью следующей команды:
mv spark-3.1.2-bin-hadoop3.2/ /opt/spark
Затем отредактируйте файл ~/.bashrc и добавьте переменную пути Spark:
nano ~/.bashrc
Добавьте следующие строки:
export SPARK_HOME=/opt/spark export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
Сохраните и закройте файл, затем активируйте переменную среды Spark с помощью следующей команды:
source ~/.bashrc
Запустите Apache Spark
Теперь вы можете запустить следующую команду, чтобы запустить главную службу Spark:
start-master.sh
Вы должны получить следующий результат:
starting org.apache.spark.deploy.master.Master, logging to /opt/spark/logs/spark-root-org.apache.spark.deploy.master.Master-1-debian11.out
По умолчанию Apache Spark прослушивает порт 8080. Вы можете проверить это с помощью следующей команды:
ss -tunelp | grep 8080
Вы получите следующий вывод:
tcp LISTEN 0 1 *:8080 *:* users:(("java",pid=24356,fd=296)) ino:47523 sk:b cgroup:/user.slice/user-0.slice/session-1.scope v6only:0 <->
Затем запустите рабочий процесс Apache Spark с помощью следующей команды:
start-slave.sh spark://your-server-ip:7077
Доступ к веб-интерфейсу Apache Spark
Теперь вы можете получить доступ к веб-интерфейсу Apache Spark, используя URL-адрес http://your-server-ip:8080. Вы должны увидеть главную и подчиненную службы Apache Spark на следующем экране:
Нажмите на идентификатор работника. Вы должны увидеть подробную информацию о вашем работнике на следующем экране:
Подключить Apache Spark через командную строку
Если вы хотите подключиться к Spark через его командную оболочку, выполните следующие команды:
spark-shell
После подключения вы получите следующий интерфейс:
Spark session available as 'spark'. Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /___/ .__/\_,_/_/ /_/\_\ version 3.1.2 /_/ Using Scala version 2.12.10 (OpenJDK 64-Bit Server VM, Java 11.0.12) Type in expressions to have them evaluated. Type :help for more information. scala>
Если вы хотите использовать Python в Spark. Вы можете использовать утилиту командной строки pyspark.
Сначала установите Python версии 2 с помощью следующей команды:
apt-get install python -y
После установки вы можете подключить Spark с помощью следующей команды:
pyspark
После подключения вы должны получить следующий вывод:
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel). Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /__ / .__/\_,_/_/ /_/\_\ version 3.1.2 /_/ Using Python version 3.9.2 (default, Feb 28 2021 17:03:44) Spark context Web UI available at http://debian11:4040 Spark context available as 'sc' (master = local[*], app id = local-1633769632964). SparkSession available as 'spark'. >>>
Остановить мастер и раб
Сначала остановите подчиненный процесс с помощью следующей команды:
stop-slave.sh
Вы получите следующий вывод:
stopping org.apache.spark.deploy.worker.Worker
Затем остановите основной процесс с помощью следующей команды:
stop-master.sh
Вы получите следующий вывод:
stopping org.apache.spark.deploy.master.Master
Заключение
Поздравляем! вы успешно установили Apache Spark в Debian 11. Теперь вы можете использовать Apache Spark в своей организации для обработки больших наборов данных.