5 дней авторизованного практического обучения администрированию кластера Hadoop, установке и настройке кластера Arenadata Hadoop под управлением Apache Ambari на платформе отечественного дистрибутива с открытым кодом Arenadata Hadoop;
безопасность Kerberos;
мониторинг, репликация и резервное копирование;
взаимодействие с компонентами экосистемы Hadoop: Spark, Hive/Tez, sqoop, HDFS, MapReduce, HBase, Zookeeper, Ooozie.
Аудитория: Системные администраторы, системные архитекторы, разработчики Hadoop, желающие получить практические навыки по установке, конфигурированию, обслуживанию и администрированию кластера Hadoop с использованием дистрибутива Arenadata Hadoop .
Предварительный уровень подготовки:
Опыт работы в Unix, опыт работы с текстовым редактором vi (желателен)
Продолжительность: 5 дней, 40 академических часов.
Arenadata Hadoop является наиболее популярной открытой платформой для распределенного хранения больших данных и параллельных вычислений. В рамках данного курса вы получите теоретические знания и практические опыт по:
планированию и развертыванию распределенных вычислительных кластеров Hadoop на базе дистрибутива Arenadata Hadoop,
мониторингу и оптимизации производительности системы,
резервному копированию и аварийному восстановлению узлов кластера и отдельных компонент,
настройке безопасности системы Kerberos на базе Hadoop.
Курс построен на сквозных практических примерах развертывания и администрирования Hadoop кластера, в том числе в облачной инфраструктуре; использования компонент Hadoop для запуска задач распределенных вычислений с тестовыми данными. Практические занятия выполняются в кластерной среде Amazone Web Services с использованием дистрибутивов Arenadata Hadoop и программного обеспечения Apache Ambari.
Программа курса
Введение в Big Data и администрированию кластера Hadoop
Что такое Big Data. Понимание проблемы Big Data
Эволюция систем распределенных вычислений Hadoop
Принципы формирование pipelines и Data Lake
Архитектура Apache Hadoop
Hadoop сервисы и основные компоненты. Name node. Data Node. YARN сервис
Планировщик
HDFS
Отказоустойчивость и высокая доступность
Hadoop Distributed File System
Блоки HDFS. Основные команды работы с HDFS. Операции чтения и записи, назначения HDFS. Архитектура HDFS
Дисковые квоты
Поддержка компрессии
Основные форматы хранения данных TXT, AVRO, ORC, Parquet, Sequence файлы
Импорт(загрузка) данных на HDFS
Map Reduce
Ведение в MapReduce. Компоненты MapReduce. Работа программ MapReduce. YARN MapReduce v2
Ограничения и параметры MapReduce и YARN
Управление запуском пользовательских задач (jobs) под MapReduce
Дизайн кластера Hadoop
Сравнение дистрибутивов и версий Hadoop 2/3 (HortonWorks Data Platform, Cloudera Distributed Hadoop, MapR, Arenadata Hadoop): различия и ограничения.
Требования программного и аппаратного обеспечения. Планирование кластера. Масштабирование кластера Hadoop. Отказоустойчивость Hadoop. Federated NameNode. Hadoop в облаке.
Сравнение Cloud решений для Hadoop. Amazon EMR.
Интеграция с другими решениями: streaming (DataFlow), NoSQL
Установка кластера
Установка Hadoop кластера. Выбор начальной конфигурации. Оптимизация уровня ядра для узлов. Начальная конфигурация HDFS и MapReduce. Файлы логов и конфигураций. Установка Hadoop клиентов. Установка Hadoopкластера в облаке.
Автоматическая установка.
Установка и настройка кластера Hadoop в изолированном окружении (offline).
Операции обслуживания кластера Hadoop
Дисковая подсистема
Квоты
Остановка, запуск, перезапуск
Управление узлами
Сетевая топология
Управление обновлениями и создание локального репозитория.
Оптимизация и управление ресурсами
Поиск узких мест.
Производительность
Файловая система
Data Node
Сетевая производительность
Планировщики: FIFO scheduler. Планировщик емкости (Capacity scheduler). Гранулярное управление ресурсами (Fair scheduler). Защита очередей и доминантное управление ресурсами DRF.
Управление кластером Hadoop с использованием Apache Ambari
Установка Apache Ambari. Интерфейс управления Apache Ambari. Базовые операции обслуживания и управление задачами с использованием Apache Ambari. Диагностика и trobleshooting с Apache Ambari.
Безопасность Hadoop
Безопасность по умолчанию. Встроенные компоненты безопасности дистрибутива HortonWorks/ ArenadataHadoop: Apache Ranger, Apache Atlas, Apache Knox.
Многопользовательский режим. Аутентификация и авторизация. Kerberos, keytabs, principals. Установка и конфигурирование Kerberos в Hadoop. Аудит доступа.
Резервное копирование и аварийное восстановление. Репликация данных и snapshoting. Конфигурирование высокой доступности Name node (HA).
Best practices HortonWorks / Arenadata Hadoop.
Мониторинг и администрирование кластера Hadoop
Apache Zookeeper. Встроенные средства мониторинга Apache Ambari Metrics. Логи сервисов и компонент. Внешние системы мониторинга: Zabbix, JMX.
Troubleshooting
Data Node
Name Node
Восстановление Name Node
Инструментарий Hadoop экосистемы дистрибутива HortonWorks/ Arenadata Hadoop
Графический интерфейс сервиса Zeppelin.
Введение Apache Pig.
Введение Apache Zookeeper
Введение в Apache Hive/Tez, понятие Hive таблицы, установка Hive/Tez.
Введение в Apache sqoop — установка и выполнение базовых операций.
Введение в Apache Flume — установка и выполнение базовых операций.
Введение в Apache Spark — установка и выполнение базовых операций.
Обзор и назначение компонент: Apache Kafka, Apache HBase, Apache NiFi, Apache Flink, Apache Zookeeper.
Примерный список практических занятий курса по Администрированию кластера Hadoop:
Ручная установка кластера Hadoop с дистрибутива HortonWorks Data Platform/Arenadata Hadoop на локальной системе 3х-узловый кластер
Установка 3-узлового кластера в облаке Amazon Web Services с использованием Apache Ambari
Базовые операции с кластером Hadoop и файловые операции HDFS.
Управление ресурсами и запуском задач с использованием YARN MapReduce.
Управление кластером с использованием Apache Ambari (развертывание сервисов, репликация, мониторинг, alerting и т.д.)
Настройка аутентификации Kerberos для кластера Hadoop под управление Apache Ambari
Установка и выполнение базовых операций в Apache Hive, Apache sqoop, Apache Flume, Apache Spark
Выполнение задач в веб-интерфейсе Zeppelin
Настройка мониторинга кластера Hadoop с использованием Zabbix (опционально)
Настройка высокой доступности Name Node (опционально).
Примечание:
Доступ к лабораторному стенду на Amazon Web Services предоставляется на время учебных курсов с 8:30 до 18:30(возможно продление времени по запросу)
Практические занятия с меткой (опционально) выполняются по желанию и при наличии свободного времени у слушателей
2020-09-28T00:00:00.0000000
2020-10-02T00:00:00.0000000
https://devsday.ru/event/details/15096
HADM: Администрирование кластера Hadoop
?.Trim()
HADM: Администрирование кластера Hadoop
,
.