3-дневный практический курс для разработчиков Apache Spark и специалистов Data Scientists , использующих Spark SQL, потоковую обработку Spark Streaming, построение графов Spark GraphX
Программа курса
Экосистема Apache Spark — Spark RDD
Архитектура Spark. Принципы работы ResilentDataDistribution
3-дневный практический курс для разработчиков Apache Spark и специалистов Data Scientists , использующих Spark SQL, потоковую обработку Spark Streaming, построение графов Spark GraphX Программа курса
Экосистема Apache Spark — Spark RDD
Архитектура Spark. Принципы работы Resilent Data Distribution
Обзор компонентов Spark и их назначения
Конфигурация Spark из Java. Запуск на одной или нескольких машинах. Запуск поверх hadoop
основные классы и базовый workflow — Spark RDD
Spark core- работа с аккумуляторами и переменными среды
Apache Spark SQL
Расширение базовой системы классов- DataSet и DataFrame
Получение данных из SQL-источников с помощью Spark SQL
Отправка данных в SQL СУБД и работа с Hive QL
Spark SQL и Hadoop
Планы выполнения. Logical и physical планы. Настройки планов выполнения
Spark Streaming
Разница работы в режимах OLAP и OLTP. Основной workflow
Виды Spark Stream-ов. Особенности исполнения streaming кода
Windows в Spark Streaming
Кеширование в Spark Streaming
Checkpoint-ы в Spark Streaming
GraphX
Задачи графов в программировании. Место графов в модели распределенных вычислений
Представление графов в GraphX. Создание графов
Операции с графами в GraphX
Выбор модели распределения графа в GraphX