HDDE: Hadoop для инженеров данных | DevsDay.ru

HDDE: Hadoop для инженеров данных

ООО "Учебный центр "Коммерсант"

Зарегистрироваться на событие



Данный курс направлен на формирование практических и теоретических навыков планирования, формирования и сопровождения Hadoop Data Lake (озеро данных). Рассматриваются примеры интеграции, настройки и обслуживания «pipelines» — традиционных источников поступления данных (корпоративные базы данных, web-логи, файловые системы, интернет данные, транзакции) для последующего анализа больших данных. Практические занятия выполняются в AWS и локальной кластерной системе с использованием дистрибутивов Cloudera Hadoop, HortonWorks Data Platform и Аренадата Hadoop.

Программа курса

  1. Основные концепции Hadoop и Data Lake

    • Основы Hadoop. Жизненный цикл аналитики больших данных. Хранение, накопление, подготовка и процессинг больших данных.  Тенденции развития Hadoop.
    • Организация хранения данных в Hadoop Data Lake 
    • Архитектура HDFS. Операции чтения и записи, назначения HDFS. Блоки HDFS. Основные команды работы с HDFS.
    • Ведение в MapReduce. Компоненты MapReduce. Работа программы MapReduce. Архитектура YARN. Способы обработки распределенных данных с использованием Apache SparkYARN и MapReduce v2/v3.
    • Управление ресурсами и очередями задач. FIFO/Capacity/Fair scheduler.
  2. Инструменты управления кластером

    • Выполнение базовых операций с Cloudera Manager/Apache Ambari.
    • Настройка компонент Apache ZooKeeper.
    • Создание и управление запросами и данными с использованием сервиса Hue/ Ambari View.
  3. Хранение данных в HDFS

    • Хранение файлов в HDFS: сжатие, sequence файлы. Формат AVROORCParquet.
    • Введение в Apache Pig: формат хранения данных, сложные и вложенные типы данных, синтаксис Pig Latin, оптимизация операций Join.
  4. Импорт/экспорт  данных в кластер Hadoop — формирование Data Lake

    • Импорт и обработка данных в кластере Hadoop
    • Интеграция с реляционными базами данных
    • Структура хранения данных в таблицах
    • Сравнительная характеристика решений Hadoop SQL
    • Введение в Sqoop: импорт и экспорт данных Sqoop, формат файлов, инкрементальный импорт
  5. Apache Hive

    • Введение в Hive: структура Hive таблиц, синтаксис HiveQL, формат хранения файлов,  работа с внешними и внутренними таблицами Hive, оптимизация Join операций. Операции импорта и экспорта данных и взаимодействия с внешними источниками. Настройка производительности
    • Hive LLAP, Hive on Spark/Tez
  6. Cloudera Impala

    • Введение в Cloudera Impala: архитектура и компоненты, Impala синтаксис, типы данных, написание запросов, загрузка данных, взаимодействие  SparkHive
    • Оптимизация Impala запросов
  7. Потоковые данные в Data Lake

    • Event Processing System. Импорт потоковых данных в кластер
    • Использование Kafka для работы с потоковыми данными
    • Использование Flume  для работы с потоковыми данными
    • Интеграция Flume + Kafka
    • Процессинг данных с использование Apache NiFi

Cписок практических занятий: 

  • Автоматическая установка 3-узлового кластера в облаке Amazon Web Services с использованием ClouderaManager/HortonWorks и выполнение базовых операций с кластером Hadoop и HDFS (опционально)
  • Управление очередями ресурсами и запуском задач с использованием YARN .
  • Использование Apache Pig для подготовки данных, операции JOIN
  • Использование Apache Hive для анализа данных
  • Оптимизация запросов JOIN в Apache Hive
  • Настройка partition и bucket в Apache Hive
  • Инкрементальный импорт/экспорт данных с помощью Apache sqoop
  • SQL аналитика данных с помощью Cloudera Impala
  • Импорт данных с помощью Apache Flume
  • Построение Event Processing System с использованием Apache Flume и Kafka
  • Создание и управление запросами sqoopMapReduceHiveImpala с использованием веб-интерфейса
  • Построение Dataflow с использованием Apache NiFi

Зарегистрироваться на событие


События в IT


Данный курс направлен на формирование практических и теоретических навыков планирования, формирования и сопровождения Hadoop Data Lake (озеро данных). Рассматриваются примеры интеграции, настройки и обслуживания «pipelines» — традиционных источников поступления данных (корпоративные базы данных, web-логи, файловые системы, интернет данные, транзакции) для последующего анализа больших данных. Практические занятия выполняются в AWS и локальной кластерной системе с использованием дистрибутивов Cloudera Hadoop, HortonWorks Data Platform и Аренадата Hadoop. Программа курса Основные концепции Hadoop и Data Lake Основы Hadoop. Жизненный цикл аналитики больших данных. Хранение, накопление, подготовка и процессинг больших данных.  Тенденции развития Hadoop. Организация хранения данных в Hadoop Data Lake  Архитектура HDFS. Операции чтения и записи, назначения HDFS. Блоки HDFS. Основные команды работы с HDFS. Ведение в MapReduce. Компоненты MapReduce. Работа программы MapReduce. Архитектура YARN. Способы обработки распределенных данных с использованием Apache Spark, YARN и MapReduce v2/v3. Управление ресурсами и очередями задач. FIFO/Capacity/Fair scheduler. Инструменты управления кластером Выполнение базовых операций с Cloudera Manager/Apache Ambari. Настройка компонент Apache ZooKeeper. Создание и управление запросами и данными с использованием сервиса Hue/ Ambari View. Хранение данных в HDFS Хранение файлов в HDFS: сжатие, sequence файлы. Формат AVRO, ORC, Parquet. Введение в Apache Pig: формат хранения данных, сложные и вложенные типы данных, синтаксис Pig Latin, оптимизация операций Join. Импорт/экспорт  данных в кластер Hadoop — формирование Data Lake Импорт и обработка данных в кластере Hadoop Интеграция с реляционными базами данных Структура хранения данных в таблицах Сравнительная характеристика решений Hadoop SQL Введение в Sqoop: импорт и экспорт данных Sqoop, формат файлов, инкрементальный импорт Apache Hive Введение в Hive: структура Hive таблиц, синтаксис HiveQL, формат хранения файлов,  работа с внешними и внутренними таблицами Hive, оптимизация Join операций. Операции импорта и экспорта данных и взаимодействия с внешними источниками. Настройка производительности Hive LLAP, Hive on Spark/Tez Cloudera Impala Введение в Cloudera Impala: архитектура и компоненты, Impala синтаксис, типы данных, написание запросов, загрузка данных, взаимодействие  Spark, Hive Оптимизация Impala запросов Потоковые данные в Data Lake Event Processing System. Импорт потоковых данных в кластер Использование Kafka для работы с потоковыми данными Использование Flume  для работы с потоковыми данными Интеграция Flume + Kafka Процессинг данных с использование Apache NiFi Cписок практических занятий:  Автоматическая установка 3-узлового кластера в облаке Amazon Web Services с использованием ClouderaManager/HortonWorks и выполнение базовых операций с кластером Hadoop и HDFS (опционально) Управление очередями ресурсами и запуском задач с использованием YARN . Использование Apache Pig для подготовки данных, операции JOIN Использование Apache Hive для анализа данных Оптимизация запросов JOIN в Apache Hive Настройка partition и bucket в Apache Hive Инкрементальный импорт/экспорт данных с помощью Apache sqoop SQL аналитика данных с помощью Cloudera Impala Импорт данных с помощью Apache Flume Построение Event Processing System с использованием Apache Flume и Kafka Создание и управление запросами sqoop, MapReduce, Hive, Impala с использованием веб-интерфейса Построение Dataflow с использованием Apache NiFi
2020-04-20T07:00:00.0000000
2020-04-24T14:30:00.0000000
HDDE: Hadoop для инженеров данных
ООО "Учебный центр "Коммерсант"
?.Trim()
HDDE: Hadoop для инженеров данных
, .