Как установить вычислительную среду Apache Spark Cluster в Debian 10
Это руководство существует для этих версий ОС
- Debian 11 (Bullseye)
- Debian 10 (Buster)
На этой странице
- Предпосылки
- Начало работы
- Установить Java
- Загрузить Apache Spark
- Запустите главный сервер
- Запуск рабочего процесса Spark
- Доступ к Spark Shell
Apache Spark — это бесплатная среда кластерных вычислений с открытым исходным кодом, используемая для аналитики, машинного обучения и обработки графиков на больших объемах данных. Spark поставляется с более чем 80 операторами высокого уровня, которые позволяют создавать параллельные приложения и использовать их в интерактивном режиме из оболочек Scala, Python, R и SQL. Это молниеносный механизм обработки данных в памяти, специально разработанный для науки о данных. Он предоставляет богатый набор функций, включая скорость, отказоустойчивость, потоковую обработку в реальном времени, вычисления в памяти, расширенную аналитику и многое другое.
В этом руководстве мы покажем вам, как установить Apache Spark на сервер Debian 10.
Предпосылки
- Сервер под управлением Debian 10 с 2 ГБ ОЗУ.
- На вашем сервере настроен пароль root.
Начиная
Перед запуском рекомендуется обновить ваш сервер до последней версии. Вы можете обновить его с помощью следующей команды:
apt-get update -y
apt-get upgrade -y
Как только ваш сервер будет обновлен, перезапустите его, чтобы изменения вступили в силу.
Установить Java
Apache Spark написан на языке Java. Поэтому вам нужно будет установить Java в вашей системе. По умолчанию последняя версия Java доступна в репозитории по умолчанию Debian 10. Вы можете установить его с помощью следующей команды:
apt-get install default-jdk -y
После установки Java проверьте установленную версию Java с помощью следующей команды:
java --version
Вы должны получить следующий результат:
openjdk 11.0.5 2019-10-15 OpenJDK Runtime Environment (build 11.0.5+10-post-Debian-1deb10u1) OpenJDK 64-Bit Server VM (build 11.0.5+10-post-Debian-1deb10u1, mixed mode, sharing)
Скачать Apache Spark
Во-первых, вам нужно будет загрузить последнюю версию Apache Spark с официального сайта. На момент написания этой статьи последняя версия Apache Spark — 3.0. Вы можете загрузить его в каталог /opt с помощью следующей команды:
cd /opt
wget http://apachemirror.wuchna.com/spark/spark-3.0.0-preview2/spark-3.0.0-preview2-bin-hadoop2.7.tgz
После завершения загрузки извлеките загруженный файл с помощью следующей команды:
tar -xvzf spark-3.0.0-preview2-bin-hadoop2.7.tgz
Затем переименуйте извлеченный каталог в spark, как показано ниже:
mv spark-3.0.0-preview2-bin-hadoop2.7 spark
Далее вам нужно будет установить среду для Spark. Вы можете сделать это, отредактировав файл ~/.bashrc:
nano ~/.bashrc
Добавьте в конец файла следующие строки:
export SPARK_HOME=/opt/spark export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
Сохраните и закройте файл, когда закончите. Затем активируйте среду с помощью следующей команды:
source ~/.bashrc
Запустите главный сервер
Теперь вы можете запустить главный сервер с помощью следующей команды:
start-master.sh
Вы должны получить следующий результат:
starting org.apache.spark.deploy.master.Master, logging to /opt/spark/logs/spark-root-org.apache.spark.deploy.master.Master-1-debian10.out
По умолчанию Apache Spark прослушивает порт 8080. Вы можете проверить это с помощью следующей команды:
netstat -ant | grep 8080
Вывод:
tcp6 0 0 :::8080 :::* LISTEN
Теперь откройте веб-браузер и введите URL-адрес http://server-ip-address:8080. Вы должны увидеть следующую страницу:
Запишите URL-адрес Spark \spark://debian10:7077\ из приведенного выше изображения. Это будет использоваться для запуска рабочего процесса Spark.
Запустить рабочий процесс Spark
Теперь вы можете запустить рабочий процесс Spark с помощью следующей команды:
start-slave.sh spark://debian10:7077
Вы должны получить следующий результат:
starting org.apache.spark.deploy.worker.Worker, logging to /opt/spark/logs/spark-root-org.apache.spark.deploy.worker.Worker-1-debian10.out
Доступ к Spark Shell
Spark Shell — это интерактивная среда, предоставляющая простой способ изучения API и интерактивного анализа данных. Вы можете получить доступ к оболочке Spark с помощью следующей команды:
spark-shell
Вы должны увидеть следующий вывод:
WARNING: An illegal reflective access operation has occurred WARNING: Illegal reflective access by org.apache.spark.unsafe.Platform (file:/opt/spark/jars/spark-unsafe_2.12-3.0.0-preview2.jar) to constructor java.nio.DirectByteBuffer(long,int) WARNING: Please consider reporting this to the maintainers of org.apache.spark.unsafe.Platform WARNING: Use --illegal-access=warn to enable warnings of further illegal reflective access operations WARNING: All illegal access operations will be denied in a future release 19/12/29 15:53:11 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties Setting default log level to "WARN". To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel). Spark context Web UI available at http://debian10:4040 Spark context available as 'sc' (master = local[*], app id = local-1577634806690). Spark session available as 'spark'. Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /___/ .__/\_,_/_/ /_/\_\ version 3.0.0-preview2 /_/ Using Scala version 2.12.10 (OpenJDK 64-Bit Server VM, Java 11.0.5) Type in expressions to have them evaluated. Type :help for more information. scala>
Отсюда вы можете узнать, как максимально быстро и удобно использовать Apache Spark.
Если вы хотите остановить сервер Spark Master и Slave, выполните следующие команды:
stop-slave.sh
stop-master.sh
Вот и все, вы успешно установили Apache Spark на сервер Debian 10. Для получения дополнительной информации вы можете обратиться к официальной документации Spark в Spark Doc.